Skip to content

geul-org/geul-verb

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

GEUL Verb SIDX 16비트 코드북

WordNet 13,767개 동사를 16비트 코드로 인코딩하는 동사 코드북.

동사 계층 구조

10 Primitive (최상위 의미 범주)
 ├── BE          ├── PERCEIVE    ├── FEEL
 ├── THINK       ├── CHANGE      ├── CAUSE
 ├── MOVE        ├── COMMUNICATE ├── TRANSFER
 └── SOCIAL
  → 68 Sub-primitive (중간 분류)
    → 559 Root Verb (루트 동사)
      → 13,767 Leaf Verb (WordNet 전체 동사)

Verb Edge

Verb Edge는 사건/행위를 표현하는 핵심 Edge 타입이다. Tiny/Short/Full 3가지 패킷 타입 모두 마지막 워드에 동일한 16비트 동사 본문을 공유한다.

Tiny Short Full
워드 2 (32bit) 3 (48bit) 5 (80bit)
참여자 16패턴 512패턴 19bit 플래그
한정자 7패턴 3,640패턴 27bit
동사 본문 16bit 16bit 16bit
예상 비율 90% 7% 3%

평균 패킷 크기: 0.9×2 + 0.07×3 + 0.03×5 = 2.16워드

Tiny Verb Edge (2워드)

1st WORD:  [Prefix 5bit] [Target×패턴 11bit]
2nd WORD:  [동사 본문 16bit]
  • Target×패턴: 18 Target × 113 패턴 = 2,034 조합
  • 참여자 16패턴 × 한정자 7패턴 = 112 + 예약 1 = 113
  • 커버율 ~90%

Short Verb Edge (3워드)

1st WORD:  [Prefix 6bit] [Type 1bit=0] [참여자패턴 9bit]
2nd WORD:  [Target×한정자패턴 16bit]
3rd WORD:  [동사 본문 16bit]

Full Verb Edge (5워드)

1st WORD:  [Prefix 6bit] [Type 1bit=1] [Target참여자 5bit] [참여자플래그 4bit]
2nd+3rd:   [참여자플래그 15bit] [한정자 17bit]
4th WORD:  [한정자 10bit] [예약 6bit]
5th WORD:  [동사 본문 16bit]

16비트 동사 본문

┌─────────────────────────────┬──────────────────────┐
│ Sub-primitive prefix (4-8b) │ 트리 내 DFS index    │
└─────────────────────────────┴──────────────────────┘
                  = 16비트

primitive-map.json에 68개 sub-primitive별 prefix 정의. prefix 길이가 짧을수록 더 많은 동사를 수용.

순위 Sub-primitive Code 동사 수
1 CHANGE-TRANSFORM 0000 3,063
2 CAUSE-USE 0001 1,358
3 MOVE-DISPLACE 0010 1,025
4 MOVE-GO 0011 942

최종 산출물

artifacts/verb_bits.json — 13,767개 동사 각각의 16비트 코드 매핑.

{
  "id": "accelerate.v.02",
  "definition": "cause to move faster",
  "root": "change.v.01",
  "sub_primitive": "CHANGE-TRANSFORM",
  "verb_code": "0000000000000001"
}

프로젝트 구조

geul-verb/
├── artifacts/               # 산출물
│   ├── verb_bits.json       # ★ 최종: 13,767 동사 비트 코드
│   ├── scripts/             # Python 스크립트 + SQL 스키마
│   ├── json/                # 중간 산출물 JSON
│   ├── codebook/            # Primitive별 동사 코드북 (569 README)
│   ├── classified/          # Primitive별 분류 결과 (10개 JSON)
│   ├── top/                 # Primitive별 상위 동사
│   ├── verbtop559/          # 559 루트 동사 상세
│   ├── verbtrees/           # 559개 동사 트리 (개별 JSON)
│   └── factorize/           # LLM 기반 동사 의미소 분해
├── files/
│   ├── docs/                # 문서
│   └── history/             # 작업 히스토리
└── specs/                   # 명세

기술 스택

  • Python 3.12+
  • PostgreSQL (ltree 확장)
  • NLTK (WordNet)

관련 레포

레포 설명
geul GEUL 문법 명세 + SIDX 횡단 문서
geul-entity Entity SIDX 48비트 코드북

License

MIT

Author

박준우 (mail@parkjunwoo.com)

About

Verb SIDX 16-bit codebook (WordNet-based)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages