Skip to content

개선: 검색 엔진 — embedding 필수 구간 개선 (FiQA 0.132, MultiLongDoc 0.070) #2

@SonAIengine

Description

@SonAIengine

현황 (FTS only 벤치마크)

데이터셋 Corpus MRR 문제점
FiQA 57,638 0.132 대규모 corpus에서 FTS 한계
MultiLongDocRetrieval 6,176 0.070 장문서 + 추론형 질의에 FTS 무력
XPQARetrieval 889 0.167 짧은 상품 QA 어휘 미스매치
Ko-StrategyQA 9,251 0.317 대규모 한국어 corpus

Ablation 결과 인사이트

  • S7 Auto+Embed가 S0 Flat 대비 MRR +41~90% 개선 → embedding이 핵심
  • S8 LLM Full의 PhraseExtractor가 노이즈 유입 (MRR -6.8% vs S7)
  • Hebbian이 소규모에서 +18.4% 기여

TODO

  • embedding 기본 활성화 시 FiQA/MultiLongDoc MRR 재측정
  • PhraseExtractor 필터링 강화 — search 결과에서 _phrase 노드 제외 로직 검토
  • FTS + embedding hybrid weight 튜닝 (현재 50/50 → corpus 크기 기반 동적 조절)
  • 장문서 청킹 전략 — 2000자 잘라내기 대신 의미 단위 분할
  • PPR damping factor를 corpus 크기에 따라 동적 조절
  • NodeKind를 검색 랭킹에 반영 (S1 ablation 무효 → 구현 필요)

타겟

데이터셋 현재 MRR 목표 MRR
FiQA 0.132 0.40+ (embedding)
MultiLongDoc 0.070 0.30+ (chunking + embedding)
Ko-StrategyQA 0.317 0.50+ (embedding)

🤖 Generated with Claude Code

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions