diff --git a/_data/papers.json b/_data/papers.json
index 8172f07..26d0980 100644
--- a/_data/papers.json
+++ b/_data/papers.json
@@ -1564,6 +1564,18 @@
"zhname": "Being-H0:从大规模人类视频做视觉-语言-动作预训练",
"zh_title": "Being-H0:从大规模人类视频做视觉-语言-动作预训练"
},
+ {
+ "title": "EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos",
+ "path": "papers/06_Manipulation/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos.md",
+ "url": "/papers/06_Manipulation/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos.html",
+ "dir": "EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos",
+ "arxiv": "2507.12440",
+ "has_open_source": true,
+ "published_date_zh": "2025年7月16日(arXiv v1,v3 2025年7月18日)",
+ "published_date_en": "Jul 16, 2025 (arXiv v1, v3 Jul 18, 2025)",
+ "zhname": "EgoVLA:从第一视角人类视频学习视觉-语言-动作模型",
+ "zh_title": "EgoVLA:从第一视角人类视频学习视觉-语言-动作模型"
+ },
{
"title": "Robot Drummer: Learning Rhythmic Skills for Humanoid Drumming",
"path": "papers/06_Manipulation/Robot_Drummer__Learning_Rhythmic_Skills_for_Humanoid_Drumming/Robot_Drummer__Learning_Rhythmic_Skills_for_Humanoid_Drumming.md",
diff --git a/papers/06_Manipulation/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos.md b/papers/06_Manipulation/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos.md
new file mode 100644
index 0000000..7a20cd7
--- /dev/null
+++ b/papers/06_Manipulation/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos.md
@@ -0,0 +1,200 @@
+---
+layout: paper
+title: "EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos"
+zhname: "EgoVLA:从第一视角人类视频学习视觉-语言-动作模型"
+category: "Manipulation"
+arxiv: "2507.12440"
+---
+
+# EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos
+**用海量第一视角人类操作视频预训练一个 VLA 模型(预测人手手腕位姿 + MANO 手型),再经逆运动学 / 重定向映射成机器人动作,最后用少量真机演示微调得到人形双手操作策略**
+
+> 📅 阅读日期: 2026-07-01
+>
+> 🏷️ 板块: Manipulation · 视觉-语言-动作(VLA) · 第一视角人类视频 · 双手灵巧操作
+>
+> 🔁 推进轨: 模块轮转(05_Locomotion → **06_Manipulation**)
+
+---
+
+## 📋 基本信息
+
+| 项目 | 链接 |
+|---|---|
+| arXiv | [2507.12440](https://arxiv.org/abs/2507.12440) |
+| HTML | [在线阅读](https://arxiv.org/html/2507.12440v3) |
+| PDF | [下载](https://arxiv.org/pdf/2507.12440) |
+| **发布时间** | 2025-07-16 (arXiv v1,v3 2025-07-18) |
+| 项目主页 | [rchalyang.github.io/EgoVLA](https://rchalyang.github.io/EgoVLA/) |
+| 源码(训练/推理) | [RchalYang/EgoVLA_Release](https://github.com/RchalYang/EgoVLA_Release) |
+| 源码(仿真 Benchmark) | [quincy-u/Ego_Humanoid_Manipulation_Benchmark](https://github.com/quincy-u/Ego_Humanoid_Manipulation_Benchmark) |
+
+**机构**:UC San Diego(王小龙组,Ruihan Yang 等)+ NVIDIA + MIT
+
+**机器人 / 仿真**:Unitree **H1** 人形 + 双 **Inspire** 灵巧手,基准搭建在 **NVIDIA Isaac Lab** 上
+
+---
+
+## 🎯 一句话总结
+
+真机数据贵、规模受限,是模仿学习的老大难。EgoVLA 的主张是:**先在便宜且海量的第一视角人类操作视频上训练 VLA**,让模型学会「看画面 + 读指令 → 预测人手(手腕位姿 + 手型)动作」,把人和机器人统一到**同一套以 MANO 手部参数为核心的动作空间**里;部署时用**逆运动学 + 重定向**把人手动作翻译成机器人关节指令,再用**少量真机演示微调**贴合本体差异,得到人形双手操作策略 EgoVLA。作者同时开源了一个 **Ego Humanoid Manipulation Benchmark**(Isaac Lab、12 个双手任务)用于可复现评测。
+
+---
+
+## 📌 英文缩写速查
+
+| 缩写 | 全称 | 解释 |
+|---|---|---|
+| VLA | Vision-Language-Action Model | 视觉-语言-动作模型,输入图像+语言,输出动作 |
+| MANO | hand Model with Articulated and Non-rigid defOrmations | 参数化手部模型,本文作为「人/机器人共享」的手型表示 |
+| IK | Inverse Kinematics | 逆运动学,把末端目标位姿解成关节角 |
+| Retargeting | Motion Retargeting | 动作重定向,把人手运动映射到机器人手/臂 |
+| Egocentric | 第一视角 | 摄像头戴在头上、与操作者视线一致的画面 |
+| BC | Behavior Cloning | 行为克隆,监督式模仿学习 |
+
+---
+
+## ❓ 论文要解决什么问题?
+
+模仿学习靠**真机遥操作采集数据**推动了操作能力的进步,但存在根本瓶颈:
+
+1. **规模受限**:每条数据都要真机 + 人在环,采集慢、贵,难以覆盖足够多的场景与任务。
+2. **多样性不足**:真机数据往往局限在实验室固定几张桌子、几个物体,泛化差。
+
+而**第一视角人类视频**恰好互补:不仅**规模大**,更重要的是**场景与任务极其丰富**(人本来就在各种环境里用手做各种事)。难点在于——人类视频里**没有机器人动作标签**,人手和机器人手的形态、驱动方式也不同,如何把「人怎么动」变成「机器人怎么动」?
+
+EgoVLA 的答案:**用一套统一的动作表示把人和机器人对齐**,让人类视频直接成为 VLA 的预训练语料。
+
+---
+
+## 🔧 方法拆解
+
+### 1. 统一动作空间(人/机器人共享)
+
+- 动作用**手腕 6-DoF 位姿 + MANO 手型参数**表示。人手天然就是 MANO;机器人手则**预优化一组 MANO 参数**,使其产生与目标等价的指尖位置。
+- 这样,VLA 预测的「人手动作」与机器人执行的「机器人手动作」落在**同一表示空间**,人类视频的监督信号可直接迁移。
+
+### 2. VLA 模型
+
+- 输入:**视觉历史帧 + 语言指令 + 动作查询 token(action query)**;经 VLM 骨干抽取潜特征,送入一个 **action head** 输出未来动作序列(手腕位姿 + MANO 手型)。
+
+### 3. 两段式训练
+
+- **预训练**:在多个带手部标注的**第一视角人类操作视频**数据集上训练,学到「视觉 + 语言 → 人手动作」的通用先验。
+- **微调**:用**少量机器人演示**把模型适配到具体本体,得到机器人策略 EgoVLA。
+
+### 4. 部署:人手动作 → 机器人指令
+
+- 手腕位姿经 **IK** 解成机械臂关节角;
+- MANO 手型经**重定向**得到指尖目标,再用一个**小 MLP** 把指尖位置映射为灵巧手关节指令。
+
+### 5. Ego Humanoid Manipulation Benchmark
+
+- 基于 **Isaac Lab**,机器人为 **Unitree H1 + 双 Inspire 手**;
+- **12 个双手操作任务**,从短程原子动作到长程多阶段技能(如 Insert Cans、Stack Can into Drawer);
+- 提供多房间 / 多桌面配置测试视觉泛化,作为**可复现**的操作策略评测台。
+
+---
+
+## 🧭 整体流程(mermaid)
+
+
+flowchart TB
+ subgraph DATA["📚 数据源"]
+ HV["🎥 第一视角人类视频
规模大·场景/任务丰富
(无机器人动作标签)"]
+ RD["🤖 少量真机演示
Unitree H1 + Inspire 手"]
+ end
+
+ subgraph UNI["🔗 统一动作空间"]
+ MANO["✋ 手腕 6-DoF 位姿
+ MANO 手型参数
人/机器人共享表示"]
+ end
+
+ subgraph MODEL["🧠 VLA 模型"]
+ IN["图像历史 + 语言指令
+ 动作查询 token"]
+ VLM["VLM 骨干 → 潜特征"]
+ HEAD["🎯 Action Head
输出手腕位姿 + MANO"]
+ end
+
+ subgraph TRAIN["🏋️ 两段式训练"]
+ PRE["① 人类视频预训练
学通用「视觉→人手动作」先验"]
+ FT["② 少量真机演示微调
适配本体 → EgoVLA"]
+ end
+
+ subgraph DEPLOY["🚀 部署映射"]
+ IK["📐 IK:手腕位姿→机械臂关节角"]
+ RT["🔁 重定向 + 小 MLP
MANO→指尖→灵巧手关节"]
+ ROB["🦾 机器人双手执行"]
+ end
+
+ HV --> MANO
+ RD --> MANO
+ MANO --> IN --> VLM --> HEAD
+ HEAD --> PRE --> FT
+ FT --> IK
+ FT --> RT
+ IK --> ROB
+ RT --> ROB
+ ROB -.->|Ego Humanoid Benchmark
12 双手任务·Isaac Lab| HEAD
+
+ style DATA fill:#fff7e0,stroke:#d4a017
+ style UNI fill:#e8f4fd,stroke:#1f78b4
+ style MODEL fill:#f3e8ff,stroke:#8e44ad
+ style TRAIN fill:#e8fce8,stroke:#27ae60
+ style DEPLOY fill:#fde8e8,stroke:#c0392b
+
+
+---
+
+## 💡 核心贡献
+
+1. **人类视频直接当 VLA 预训练语料**:通过「手腕位姿 + MANO」统一动作空间,把无动作标签的第一视角人类视频转成可监督的动作数据。
+2. **人→机器人的可执行映射**:IK + 重定向 + 小 MLP,把预测的人手动作落到 Unitree H1 双灵巧手上。
+3. **开源双手操作基准**:Ego Humanoid Manipulation Benchmark(Isaac Lab、12 任务、多场景),填补人形双手操作可复现评测的空白。
+4. **全套开源**:训练/推理代码 + 仿真基准代码均已公开。
+
+---
+
+## 📊 关键发现
+
+| 维度 | 结论 |
+|---|---|
+| 人类视频预训练 | 相比「无预训练」基线在所有任务上显著提升 |
+| 长程 / 精细任务 | 增益尤为明显(多阶段技能最吃通用先验) |
+| 视觉泛化 | 在未见背景/场景下仍保持高成功率;仅用真机数据的基线在新视觉环境掉点明显 |
+| 数据多样性 | 人类数据越丰富,泛化越好(消融验证「多样性 > 单纯规模」的价值) |
+
+---
+
+## 🤖 对人形机器人领域的意义
+
+| 方向 | 含义 |
+|---|---|
+| **数据来源解耦** | 把「学操作先验」和「贴合本体」拆开:前者用便宜海量的人类视频,后者用少量真机数据 |
+| **统一动作表示** | MANO 作为人/机器人手的公共语言,是「人类视频 → 机器人策略」这条链路的关键接口 |
+| **双手人形基准** | 为社区提供可复现的人形双手操作评测,利于横向对比 |
+| **局限** | 依赖手部标注质量与 IK/重定向精度;仿真为主,真机验证与更复杂长程任务仍待扩展 |
+
+---
+
+## 🎤 面试参考
+
+**Q:人类视频没有机器人动作标签,EgoVLA 怎么把它变成可训练的动作数据?**
+A:核心是**统一动作空间**——动作统一用「手腕 6-DoF 位姿 + MANO 手型参数」表示。人手天然是 MANO;机器人手预优化一组 MANO 参数使指尖等价。于是人类视频里估计出的人手动作就成了 VLA 的监督标签,人和机器人共享同一套输出。
+
+**Q:预测出来的是「人手动作」,机器人怎么执行?**
+A:手腕位姿走 **IK** 解成机械臂关节角;MANO 手型经**重定向**得到指尖目标,再用一个小 MLP 把指尖位置映射到灵巧手关节指令。IK + 重定向把「人手空间」翻译到「机器人关节空间」。
+
+**Q:为什么强调人类视频的「多样性」而不只是「规模」?**
+A:消融显示,仅靠真机数据的策略在换背景/换场景时掉点严重,而人类视频天然覆盖大量场景与任务;作者发现人类数据越多样,泛化越好——多样性带来的分布覆盖,是纯规模难以替代的。
+
+**Q:和同模块「用人类演示/第一视角」的工作(如 EgoMimic、EgoDex)有何差异?**
+A:都想用人类第一视角数据降低真机采集成本。EgoVLA 的特点是**训练一个 VLA**(吃语言指令、可多任务),并用 **MANO 统一动作空间 + IK/重定向**把人手动作落到人形双灵巧手,同时开源了配套的 Isaac Lab 双手操作基准。
+
+---
+
+## 🔗 相关阅读
+
+- [EgoMimic (2410.24221)](https://arxiv.org/abs/2410.24221):同模块,第一视角视频扩展模仿学习(笔记见本目录)
+- [EgoDex (2505.11709)](https://arxiv.org/abs/2505.11709):大规模第一视角视频学习灵巧操作(笔记见本目录)
+- [Being-H0 (2507.15597)](https://arxiv.org/abs/2507.15597):从大规模人类视频做 VLA 预训练(笔记见本目录)
+- [iDP3 (2410.10803)](https://arxiv.org/abs/2410.10803):泛化人形操作的 3D 扩散策略(笔记见 03_High_Impact_Selection)
diff --git a/papers/DAILY_SUMMARY_LOG.md b/papers/DAILY_SUMMARY_LOG.md
index 75cc579..79fc397 100644
--- a/papers/DAILY_SUMMARY_LOG.md
+++ b/papers/DAILY_SUMMARY_LOG.md
@@ -310,6 +310,7 @@
| 485 | GENMO: A Generalist Model for Human Motion | 14_Human_Motion | ✅ 已完成(2026-06-28) |
| 64 | PvP: Data-Efficient Humanoid Robot Learning with Proprioceptive-Privileged Contrastive Representations | 04_Loco-Manipulation_and_WBC | ✅ 已完成(2026-06-29) |
| 197 | Walk the PLANC: Physics-Guided RL for Agile Humanoid Locomotion on Constrained Footholds | 05_Locomotion | ✅ 已完成(2026-06-30) |
-| ? | (下一篇:06_Manipulation 模块首个未完成且无笔记的论文;按 04 → 05 → 06 → 07 → 08 → 09 → 10 → 11 → 12 → 13 → 14 → 04 顺序循环) | 06_Manipulation | ⏭️ 下一篇候选 |
+| 295 | EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos | 06_Manipulation | ✅ 已完成(2026-07-01) |
+| ? | (下一篇:07_Teleoperation 模块首个未完成且无笔记的论文;按 04 → 05 → 06 → 07 → 08 → 09 → 10 → 11 → 12 → 13 → 14 → 04 顺序循环) | 07_Teleoperation | ⏭️ 下一篇候选 |
> 实际推进时会按当天轮转到的模块在 `papers` 列表中扫描,跳过已有内容的笔记。
diff --git a/papers/PROGRESS.md b/papers/PROGRESS.md
index 56ee4ef..6a85563 100644
--- a/papers/PROGRESS.md
+++ b/papers/PROGRESS.md
@@ -389,7 +389,7 @@
| 292 | [TOP: Time Optimization Policy for Stable and Accurate Standing Manipulation with Humanoid Robots](https://arxiv.org/abs/2508.00355) | 2025.08 | | ⏳ 待读 |
| 293 | [H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation](https://arxiv.org/abs/2507.23523) | 2025.07 | | ⏳ 待读 |
| 294 | [Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos](https://arxiv.org/abs/2507.15597) | 2025.07 | | ⏳ 待读 |
-| 295 | [EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos](https://arxiv.org/abs/2507.12440) | 2025.07 | | ⏳ 待读 |
+| 295 | [EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos](https://arxiv.org/abs/2507.12440) ✅ [笔记](06_Manipulation/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos.md) | 2025.07 | 2026-07-01 | ✅ 已总结 |
| 296 | [Robot Drummer: Learning Rhythmic Skills for Humanoid Drumming](https://arxiv.org/abs/2507.11498) | 2025.07 | | ⏳ 待读 |
| 297 | [Hierarchical Vision-Language Planning for Multi-Step Humanoid Manipulation](https://arxiv.org/abs/2506.22827) | 2025.06 | | ⏳ 待读 |
| 298 | [Vision in Action: Learning Active Perception from Human Demonstrations](https://arxiv.org/abs/2506.15666) | 2025.06 | | ⏳ 待读 |
diff --git a/progress.json b/progress.json
index 74baef8..418a1e0 100644
--- a/progress.json
+++ b/progress.json
@@ -41,10 +41,10 @@
"13_Physics-Based_Animation",
"14_Human_Motion"
],
- "last_module": "05_Locomotion",
- "last_index": 197,
- "last_title": "Walk the PLANC: Physics-Guided RL for Agile Humanoid Locomotion on Constrained Footholds (arXiv:2601.06286)",
- "next_module": "06_Manipulation"
+ "last_module": "06_Manipulation",
+ "last_index": 295,
+ "last_title": "EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos (arXiv:2507.12440)",
+ "next_module": "07_Teleoperation"
},
"last_summary_index": 197,
"last_summary_date": "2026-06-30",
@@ -5138,6 +5138,36 @@
"pdf_file": "",
"route": "Human Motion",
"title_cn": ""
+ },
+ {
+ "title": "Walk the PLANC: Physics-Guided RL for Agile Humanoid Locomotion on Constrained Footholds",
+ "folder": "papers/05_Locomotion/Walk_the_PLANC__Physics-Guided_RL_for_Agile_Humanoid_Locomotion_on_Constrained_Footholds",
+ "note_file": "Walk_the_PLANC__Physics-Guided_RL_for_Agile_Humanoid_Locomotion_on_Constrained_Footholds.md",
+ "status": "done",
+ "arxiv": "2601.06286",
+ "pdf_file": "",
+ "route": "Locomotion",
+ "title_cn": ""
+ },
+ {
+ "title": "EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos",
+ "folder": "papers/06_Manipulation/EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos",
+ "note_file": "EgoVLA__Learning_Vision-Language-Action_Models_from_Egocentric_Human_Videos.md",
+ "status": "done",
+ "arxiv": "2507.12440",
+ "pdf_file": "",
+ "route": "Manipulation",
+ "title_cn": ""
+ },
+ {
+ "title": "GENMO: A Generalist Model for Human Motion",
+ "folder": "papers/14_Human_Motion/GENMO__A_Generalist_Model_for_Human_Motion",
+ "note_file": "GENMO__A_Generalist_Model_for_Human_Motion.md",
+ "status": "done",
+ "arxiv": "2505.01425",
+ "pdf_file": "",
+ "route": "Human Motion",
+ "title_cn": ""
}
]
}
\ No newline at end of file