SunflowersLwtech
diff --git a/‎dev/docs/references/gemini-embedding-comparison/README.md‎
Lines changed: 19 additions & 0 deletions b/‎dev/docs/references/gemini-embedding-comparison/README.md‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎dev/docs/references/gemini-embedding-comparison/comparison-and-migration.md‎
Lines changed: 146 additions & 0 deletions b/‎dev/docs/references/gemini-embedding-comparison/comparison-and-migration.md‎
Lines changed: 146 additions & 0 deletions
diff --git a/‎dev/docs/references/gemini-embedding-comparison/embedding-001-spec.md‎
Lines changed: 178 additions & 0 deletions b/‎dev/docs/references/gemini-embedding-comparison/embedding-001-spec.md‎
Lines changed: 178 additions & 0 deletions
@@ -0,0 +1,19 @@
+# Gemini Embedding 模型研究资料
+
+> 调研日期：2026-03-13
+> 目的：评估 gemini-embedding-001 → gemini-embedding-2-preview 迁移可行性
+
+## 文件索引
+
+| 文件 | 内容 |
+|------|------|
+| `embedding-001-spec.md` | gemini-embedding-001 完整规格、benchmark、架构 |
+| `embedding-2-preview-spec.md` | gemini-embedding-2-preview 完整规格、新特性 |
+| `comparison-and-migration.md` | 1.0 vs 2.0 对比 + SightLine 迁移成本分析 |
+| `project-embedding-audit.md` | SightLine 代码库 embedding 使用审计报告 |
+
+## 关键结论
+
+- 2.0 核心突破：**多模态嵌入**（文本+图片+视频+音频+PDF）+ **4x 输入上限**
+- 嵌入空间**不兼容**，迁移必须全量重嵌入
+- 2.0 目前 **Preview**，无 Vertex AI / Batch API，**建议等 GA 再迁移**
@@ -0,0 +1,146 @@
+# Gemini Embedding 1.0 vs 2.0 对比 & SightLine 迁移分析
+
+> 调研日期：2026-03-13
+
+## 一、模型对比总表
+
+| 属性 | gemini-embedding-001 (1.0) | gemini-embedding-2-preview (2.0) |
+|------|---------------------------|----------------------------------|
+| 状态 | Stable (GA) | Preview |
+| 发布日期 | 2025-07-14 (Stable) | 2026-03-10 (Preview) |
+| 输入模态 | 纯文本 | 多模态（文本+图片+视频+音频+PDF）|
+| 输入上限 | 2,048 tokens | 8,192 tokens (4x) |
+| 输出维度 | 128 ~ 3,072 (默认 3,072) | 128 ~ 3,072 (默认 3,072) |
+| MRL | 是 | 是 |
+| 语言 | 100+ | 100+ |
+| Task Types | 8 种 | 8 种（相同）|
+| Batch API | 有 (50% 折扣) | 暂无 |
+| Vertex AI | 有 | 暂无 |
+| 文本定价 | $0.15/1M tokens | $0.20/1M tokens (+33%) |
+| 论文 | arXiv:2503.07891 | 未发表 |
+| MTEB 多语言 | 68.32 (#1) | 未公布 |
+| MTEB 英文 | 73.30 (#1) | 未公布 |
+| 嵌入空间 | 空间 A | 空间 B（**不兼容**）|
+
+## 二、核心区别分析
+
+### 区别大不大？—— 架构差异大，API 接口几乎不变
+
+#### 重大变化 (Breaking)
+1. **多模态嵌入** — 2.0 最大突破，文本/图片/视频/音频/PDF 映射到统一向量空间
+2. **4x 输入长度** — 2K → 8K tokens
+3. **嵌入空间不兼容** — 001 和 2-preview 向量不能混合比较
+
+#### 保持不变
+1. API 接口 — 同样的 `embed_content()` 调用
+2. 维度范围 — 128 ~ 3,072，MRL 方式相同
+3. Task Types — 8 种完全相同
+4. SDK — 同一个 `google-genai` 包
+
+#### 退步 / 限制
+1. 价格上涨 33% (文本)
+2. 无 Batch API（大规模操作不便）
+3. 无 Vertex AI（无法用 ADC 认证）
+4. Preview 状态，有 breaking change 风险
+5. 无公开 benchmark，性能不明
+
+## 三、SightLine 项目迁移成本
+
+### 3.1 当前 Embedding 使用概况
+
+| 系统 | 模型 | 维度 | 存储 | 搜索方式 |
+|------|------|------|------|---------|
+| Memory | gemini-embedding-001 | 2048-D | Firestore Vector | find_nearest (COSINE) |
+| Entity Graph | gemini-embedding-001 | 2048-D | Firestore Vector | — |
+| Face Recognition | InsightFace ArcFace | 512-D | Firestore Vector | numpy dot product |
+
+**Face 系统不受影响**（使用本地 InsightFace 模型，与 Gemini 无关）。
+
+### 3.2 受影响的文件
+
+#### 代码文件
+
+| 文件 | 行号 | 改动内容 |
+|------|------|---------|
+| `memory/memory_bank.py` | 20-21 | EMBEDDING_MODEL 常量 + EMBEDDING_DIM |
+| `memory/memory_bank.py` | 34-47 | `_compute_embedding()` 函数（仅改 model 名）|
+| `context/entity_graph.py` | 10 | embedding 维度注释 |
+| `memory/memory_extractor.py` | 15 | 导入 EMBEDDING_DIM |
+
+#### 基础设施
+
+| 文件 | 行号 | 改动内容 |
+|------|------|---------|
+| `infrastructure/terraform/firestore.tf` | 52 | memories vector index dimension（仅维度变时）|
+
+#### 测试文件
+
+| 文件 | 改动内容 |
+|------|---------|
+| `tests/test_memory_bank.py` | mock 维度 `[0.1] * 2048` |
+| `tests/test_memory_extractor.py` | 重复检测 mock |
+| `tests/test_face_agent.py` | 不受影响 |
+| `tests/test_entity_graph.py` | entity embedding mock |
+
+#### 文档/资产
+
+| 文件 | 改动内容 |
+|------|---------|
+| `README.md:54,83,84` | 维度说明 |
+| `CLAUDE.md` | Embedding 模型 ID 和维度 |
+| `assets/context-memory.svg:67,138` | 架构图维度标注 |
+| `assets/system-architecture.svg` | 系统架构图 |
+
+### 3.3 迁移场景矩阵
+
+| 场景 | 代码改动 | 数据迁移 | 基础设施 | 风险 | 推荐 |
+|------|---------|---------|---------|------|------|
+| **A: 换模型 + 保持 2048-D** | 改 1 行 | 全量重嵌入 | 无需改 | 低 | -- |
+| **B: 换模型 + 改维度** | 改 2 行 + 测试 | 全量重嵌入 + 索引重建 | terraform apply | 中 | -- |
+| **C: 暂不迁移 (推荐)** | 无 | 无 | 无 | 无 | **推荐** |
+
+### 3.4 数据迁移工作量
+
+若选择迁移（场景 A 或 B）：
+
+1. **编写迁移脚本** — 遍历 Firestore `memories` 和 `entities` 集合，对每条记录调用新模型重算 embedding
+2. **限流处理** — 2-preview 无 Batch API，需自行实现 rate limiting
+3. **索引重建** — 如果维度变化，需先删除旧 vector index，创建新 index，等待构建完成
+4. **验证** — 对比迁移前后的搜索质量，确保 recall 不下降
+5. **回滚方案** — 保留旧 embedding 字段（如 `embedding_v1`）直到验证通过
+
+预估工作量：
+- 脚本开发: ~2h
+- 数据迁移执行: 取决于数据量（当前规模应 < 1h）
+- 验证测试: ~2h
+- 总计: ~半天（不含等待索引构建时间）
+
+## 四、建议
+
+### 短期（现在）
+**暂不迁移**。原因：
+1. 2-preview 仍是 Preview，不适合生产
+2. 无 Vertex AI 支持 — 我们的 Live API 走 Vertex AI (ADC)，memory/search 走 Google AI API (api_key)，但保持一致性更好
+3. 无 Batch API — 全量重嵌入操作不便
+4. 001 在 MTEB 上 #1，性能无问题
+5. 2-preview benchmark 未公布，性能未知
+
+### 中期（2-preview GA 后）
+**评估迁移**，关注：
+1. GA 发布 + Vertex AI 支持
+2. Batch API 上线
+3. 公开 benchmark 对比
+4. 多模态嵌入对 SightLine 的价值（场景图片纳入 memory 语义搜索）
+
+### 长期价值
+2.0 的**多模态嵌入**对 SightLine 有潜在重大价值：
+- 用户看到的场景图片可以直接嵌入 memory，不再只有文本描述
+- 跨模态搜索：用文字描述搜索之前看过的场景
+- 音频记忆：对话录音也可纳入向量检索
+- 这些都需要 GA + 充分测试后再考虑
+
+### 维度建议
+无论何时迁移，**建议保持 2048-D**：
+- 001 的 benchmark 显示 2048-D (68.16) 与 3072-D (68.32) 几乎无差异
+- 节省 ~33% 存储和计算成本
+- 避免 Firestore vector index 重建
@@ -0,0 +1,178 @@
+# gemini-embedding-001 完整规格
+
+> 来源：Google AI 官方文档、arXiv:2503.07891
+> 调研日期：2026-03-13
+
+## 1. 模型概览
+
+- **Model ID**: `gemini-embedding-001`
+- **状态**: Stable (GA, 2025-06)
+- **论文**: "Gemini Embedding: Generalizable Embeddings from Gemini" (arXiv:2503.07891)
+- **定位**: 统一模型，合并了 text-embedding-005 (英文/代码) 和 text-multilingual-embedding-002 (多语言) 的能力
+
+## 2. 技术规格
+
+| 属性 | 值 |
+|------|-----|
+| 输入模态 | 纯文本 |
+| 最大输入 | 2,048 tokens/条 |
+| 单次请求上限 | 250 条文本 / 20,000 tokens |
+| 默认输出维度 | 3,072 |
+| 可选维度范围 | 128 ~ 3,072 (MRL) |
+| 推荐维度 | 768, 1,536, 3,072 |
+| 归一化 | 3,072-D 已预归一化；其他维度需手动 L2 归一化 |
+| 距离度量 | Cosine / Dot Product / Euclidean |
+| autoTruncate | 默认 true，超长静默截断 |
+| 语言支持 | 100+ 语言 |
+
+## 3. 架构与训练
+
+### 架构
+- 基于 Gemini LLM 初始化（具体版本/参数量未公开）
+- Transformer + **双向注意力**（非因果 LLM 的单向）
+- **Mean Pooling** → **线性投影层** → d=3,072
+- **Matryoshka Representation Learning (MRL)**: 推理时灵活选择维度，无需重训
+
+### 两阶段训练
+
+**Stage 1 — Pre-finetuning:**
+- 十亿级 web 语料，title-passage 正样本对
+- 大 batch size，长训练步数
+
+**Stage 2 — Fine-tuning:**
+- (query, target, hard_negative) 三元组
+- 多任务混合数据集，每 batch 单数据集
+- 小 batch size (< 1,024)
+- 超参网格搜索
+
+### 其他技术
+- **损失函数**: NCE (Noise Contrastive Estimation) + cosine + temperature τ
+- **Model Soup**: 多个 fine-tuned checkpoint 参数平均
+- **合成数据**: FRet/SWIM-IR 多阶段提示生成
+- **数据过滤**: MIRACL 平均提升 +3.9, 分类任务提升 +17.6
+
+## 4. 支持的 Task Types (8 种)
+
+| Task Type | 描述 |
+|-----------|------|
+| `SEMANTIC_SIMILARITY` | 文本相似度 |
+| `CLASSIFICATION` | 文本分类 |
+| `CLUSTERING` | 文本聚类 |
+| `RETRIEVAL_DOCUMENT` | 文档索引（支持 title 参数）|
+| `RETRIEVAL_QUERY` | 搜索查询（默认）|
+| `CODE_RETRIEVAL_QUERY` | 自然语言检索代码 |
+| `QUESTION_ANSWERING` | QA 文档检索 |
+| `FACT_VERIFICATION` | 事实核查证据检索 |
+
+## 5. 性能 Benchmark
+
+### MTEB 各维度分数
+
+| 维度 | MTEB 分数 |
+|------|----------|
+| 3,072 | 68.32 |
+| 2,048 | 68.16 |
+| 1,536 | 68.17 |
+| 768 | 67.99 |
+| 512 | 67.55 |
+| 256 | 66.19 |
+| 128 | 63.31 |
+
+### MTEB 排名
+
+| 赛道 | 分数 | 排名 |
+|------|------|------|
+| 多语言 (Task Mean) | 68.32 | #1 (领先第二名 +5.09) |
+| 英文 v2 (Task Mean) | 73.30 | #1 |
+| 代码 (Mean All) | 74.66~75.5 | #1 |
+
+### 多语言子项
+
+| 任务 | 分数 |
+|------|------|
+| Bitext Mining | 79.32 |
+| Classification | 71.84 |
+| Clustering | 54.99 |
+| Pair Classification | 83.64 |
+| Reranking | 65.72 |
+| Retrieval | 67.71 |
+| STS | 79.40 |
+| Instruction Retrieval | 5.18 (弱项) |
+
+### 跨语言检索
+
+| 模型 | XOR-Retrieve Recall@5k |
+|------|----------------------|
+| **gemini-embedding-001** | **90.42** |
+| Cohere-embed-multilingual-v3.0 | 68.76 |
+| Gecko Embedding | 65.67 |
+
+### 低资源语言 (XTREME-UP)
+
+| 模型 | Avg MRR@10 |
+|------|-----------|
+| **gemini-embedding-001** | **64.33** |
+| voyage-3-large | 39.2 |
+| Gecko i18n | 35.0 |
+
+### MIRACL 多语言检索
+- 18 语言平均: 70.1 (含数据过滤) vs 59.8 (无过滤)
+
+## 6. 定价
+
+| 层级 | 价格 |
+|------|------|
+| Free | $0（数据可被 Google 用于改进产品）|
+| Paid | $0.15 / 1M input tokens |
+| Paid Batch | $0.075 / 1M input tokens (50% 折扣) |
+
+## 7. SDK 用法 (Python)
+
+```python
+from google import genai
+from google.genai import types
+
+client = genai.Client(api_key="YOUR_API_KEY")
+
+# 基础嵌入
+result = client.models.embed_content(
+    model="gemini-embedding-001",
+    contents="What is the meaning of life?"
+)
+
+# 批量 + task type + 自定义维度
+result = client.models.embed_content(
+    model="gemini-embedding-001",
+    contents=["text1", "text2", "text3"],
+    config=types.EmbedContentConfig(
+        task_type="SEMANTIC_SIMILARITY",
+        output_dimensionality=768
+    )
+)
+
+# 手动归一化 (非 3072-D 时必须)
+import numpy as np
+vec = np.array(result.embeddings[0].values)
+normed = vec / np.linalg.norm(vec)
+```
+
+SDK: `google-genai` (v1.67.0+, Python >= 3.10)
+
+## 8. 已知限制
+
+1. **纯文本** — 不支持图片/视频/音频/PDF
+2. **2,048 token 上限** — 较短
+3. **非 3072-D 需手动归一化**
+4. **与 2-preview 嵌入空间不兼容**
+5. **Instruction Retrieval 弱** — MTEB 仅 5.18
+6. **基座模型不透明** — 未公开具体 Gemini 版本和参数量
+
+## 9. 关键链接
+
+- 官方文档: https://ai.google.dev/gemini-api/docs/embeddings
+- 模型页面: https://ai.google.dev/gemini-api/docs/models/gemini-embedding-001
+- 论文: https://arxiv.org/abs/2503.07891
+- 定价: https://ai.google.dev/pricing
+- Vertex AI: https://docs.cloud.google.com/vertex-ai/generative-ai/docs/embeddings/get-text-embeddings
+- Rate Limits: https://ai.google.dev/gemini-api/docs/rate-limits
+- PyPI: https://pypi.org/project/google-genai/