개선: 검색 엔진 — embedding 필수 구간 개선 (FiQA 0.132, MultiLongDoc 0.070)

## 현황 (FTS only 벤치마크)
| 데이터셋 | Corpus | MRR | 문제점 |
|----------|--------|-----|--------|
| FiQA | 57,638 | 0.132 | 대규모 corpus에서 FTS 한계 |
| MultiLongDocRetrieval | 6,176 | 0.070 | 장문서 + 추론형 질의에 FTS 무력 |
| XPQARetrieval | 889 | 0.167 | 짧은 상품 QA 어휘 미스매치 |
| Ko-StrategyQA | 9,251 | 0.317 | 대규모 한국어 corpus |

## Ablation 결과 인사이트
- S7 Auto+Embed가 S0 Flat 대비 MRR +41~90% 개선 → embedding이 핵심
- S8 LLM Full의 PhraseExtractor가 노이즈 유입 (MRR -6.8% vs S7)
- Hebbian이 소규모에서 +18.4% 기여

## TODO
- [ ] embedding 기본 활성화 시 FiQA/MultiLongDoc MRR 재측정
- [ ] PhraseExtractor 필터링 강화 — search 결과에서 `_phrase` 노드 제외 로직 검토
- [ ] FTS + embedding hybrid weight 튜닝 (현재 50/50 → corpus 크기 기반 동적 조절)
- [ ] 장문서 청킹 전략 — 2000자 잘라내기 대신 의미 단위 분할
- [ ] PPR damping factor를 corpus 크기에 따라 동적 조절
- [ ] NodeKind를 검색 랭킹에 반영 (S1 ablation 무효 → 구현 필요)

## 타겟
| 데이터셋 | 현재 MRR | 목표 MRR |
|----------|---------|---------|
| FiQA | 0.132 | 0.40+ (embedding) |
| MultiLongDoc | 0.070 | 0.30+ (chunking + embedding) |
| Ko-StrategyQA | 0.317 | 0.50+ (embedding) |

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

개선: 검색 엔진 — embedding 필수 구간 개선 (FiQA 0.132, MultiLongDoc 0.070) #2

현황 (FTS only 벤치마크)

Ablation 결과 인사이트

TODO

타겟

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

데이터셋	Corpus	MRR	문제점
FiQA	57,638	0.132	대규모 corpus에서 FTS 한계
MultiLongDocRetrieval	6,176	0.070	장문서 + 추론형 질의에 FTS 무력
XPQARetrieval	889	0.167	짧은 상품 QA 어휘 미스매치
Ko-StrategyQA	9,251	0.317	대규모 한국어 corpus

데이터셋	현재 MRR	목표 MRR
FiQA	0.132	0.40+ (embedding)
MultiLongDoc	0.070	0.30+ (chunking + embedding)
Ko-StrategyQA	0.317	0.50+ (embedding)

개선: 검색 엔진 — embedding 필수 구간 개선 (FiQA 0.132, MultiLongDoc 0.070) #2

Description

현황 (FTS only 벤치마크)

Ablation 결과 인사이트

TODO

타겟

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions