WordNet 13,767개 동사를 16비트 코드로 인코딩하는 동사 코드북.
10 Primitive (최상위 의미 범주)
├── BE ├── PERCEIVE ├── FEEL
├── THINK ├── CHANGE ├── CAUSE
├── MOVE ├── COMMUNICATE ├── TRANSFER
└── SOCIAL
→ 68 Sub-primitive (중간 분류)
→ 559 Root Verb (루트 동사)
→ 13,767 Leaf Verb (WordNet 전체 동사)
Verb Edge는 사건/행위를 표현하는 핵심 Edge 타입이다. Tiny/Short/Full 3가지 패킷 타입 모두 마지막 워드에 동일한 16비트 동사 본문을 공유한다.
| Tiny | Short | Full | |
|---|---|---|---|
| 워드 | 2 (32bit) | 3 (48bit) | 5 (80bit) |
| 참여자 | 16패턴 | 512패턴 | 19bit 플래그 |
| 한정자 | 7패턴 | 3,640패턴 | 27bit |
| 동사 본문 | 16bit | 16bit | 16bit |
| 예상 비율 | 90% | 7% | 3% |
평균 패킷 크기: 0.9×2 + 0.07×3 + 0.03×5 = 2.16워드
1st WORD: [Prefix 5bit] [Target×패턴 11bit]
2nd WORD: [동사 본문 16bit]
- Target×패턴: 18 Target × 113 패턴 = 2,034 조합
- 참여자 16패턴 × 한정자 7패턴 = 112 + 예약 1 = 113
- 커버율 ~90%
1st WORD: [Prefix 6bit] [Type 1bit=0] [참여자패턴 9bit]
2nd WORD: [Target×한정자패턴 16bit]
3rd WORD: [동사 본문 16bit]
1st WORD: [Prefix 6bit] [Type 1bit=1] [Target참여자 5bit] [참여자플래그 4bit]
2nd+3rd: [참여자플래그 15bit] [한정자 17bit]
4th WORD: [한정자 10bit] [예약 6bit]
5th WORD: [동사 본문 16bit]
┌─────────────────────────────┬──────────────────────┐
│ Sub-primitive prefix (4-8b) │ 트리 내 DFS index │
└─────────────────────────────┴──────────────────────┘
= 16비트
primitive-map.json에 68개 sub-primitive별 prefix 정의. prefix 길이가 짧을수록 더 많은 동사를 수용.
| 순위 | Sub-primitive | Code | 동사 수 |
|---|---|---|---|
| 1 | CHANGE-TRANSFORM | 0000 |
3,063 |
| 2 | CAUSE-USE | 0001 |
1,358 |
| 3 | MOVE-DISPLACE | 0010 |
1,025 |
| 4 | MOVE-GO | 0011 |
942 |
artifacts/verb_bits.json — 13,767개 동사 각각의 16비트 코드 매핑.
{
"id": "accelerate.v.02",
"definition": "cause to move faster",
"root": "change.v.01",
"sub_primitive": "CHANGE-TRANSFORM",
"verb_code": "0000000000000001"
}geul-verb/
├── artifacts/ # 산출물
│ ├── verb_bits.json # ★ 최종: 13,767 동사 비트 코드
│ ├── scripts/ # Python 스크립트 + SQL 스키마
│ ├── json/ # 중간 산출물 JSON
│ ├── codebook/ # Primitive별 동사 코드북 (569 README)
│ ├── classified/ # Primitive별 분류 결과 (10개 JSON)
│ ├── top/ # Primitive별 상위 동사
│ ├── verbtop559/ # 559 루트 동사 상세
│ ├── verbtrees/ # 559개 동사 트리 (개별 JSON)
│ └── factorize/ # LLM 기반 동사 의미소 분해
├── files/
│ ├── docs/ # 문서
│ └── history/ # 작업 히스토리
└── specs/ # 명세
- Python 3.12+
- PostgreSQL (ltree 확장)
- NLTK (WordNet)
| 레포 | 설명 |
|---|---|
| geul | GEUL 문법 명세 + SIDX 횡단 문서 |
| geul-entity | Entity SIDX 48비트 코드북 |
MIT
박준우 (mail@parkjunwoo.com)