diff --git a/paper/review_report_v2.md b/paper/review_report_v2.md new file mode 100644 index 0000000..45d0f20 --- /dev/null +++ b/paper/review_report_v2.md @@ -0,0 +1,141 @@ +# 论文二次评审:基于神经网络的四旋翼飞行器端到端视觉避障 + +第二次独立评审(完全不参考第一次PR),5人评审组。 + +--- + +## 评审汇总 + +| 评审人 | 分数 | 决定 | +|--------|:----:|:----:| +| **主编** | 73.8/100 | 通过,显著性保留 | +| **方法论评审** | 65/100 | 统计严谨性严重不足 | +| **领域评审** | 85/100 | 小修 | +| **前瞻性评审** | 68/100 | 小修(需补充嵌入式数据) | +| **魔鬼代言人** | — | CRITICAL: 叙事与证据不匹配 | + +--- + +## 跨评审人共识议题 + +### 🔴 高度一致(3+评审人) + +| 议题 | 主编 | 方法论 | 领域 | 前瞻 | DA | +|------|:----:|:------:|:----:|:----:|:--:| +| **无统计显著性检验(取最优而非均值)** | MAJOR | CRITICAL | — | — | MAJOR | +| **"Mamba"标签与内容不匹配(E是CNN)** | — | — | — | — | **CRITICAL** | +| **缺少纯CNN/MLP基线(无SSM对照组)** | — | — | MAJOR | — | **CRITICAL** | +| **嵌入式平台延迟数据缺失(仅RTX 5090)** | — | — | — | **CRITICAL** | — | +| **Mamba-3来源不明** | MAJOR | — | MAJOR | — | — | + +### 🟡 部分一致(2评审人) + +| 议题 | 涉及评审人 | +|------|-----------| +| 缺少端到端延迟分解 | 前瞻(High) + 方法论(Minor) | +| 7m/s数据选择性报告(仅E/B+) | DA(Major) + 方法论(Minor) | +| 树木环境教师0碰撞未充分解释 | DA(Minor) + 领域(中) | +| 仿真缺少传感器噪声/域随机化 | 前瞻(High) + 领域(W5) | +| 数据增强消融结论自相矛盾(B+ vs C/D/E) | DA(Minor) + 方法(Minor) | + +--- + +## 主编评审 + +**分数**: 原创70 | 重要性72 | 质量75 | 清晰度78 + +**关键发现**: +- 实验规模在本科毕设中极高(48组+20+消融) +- E-SSM实验是全文最具说服力的证据 +- "3次取最优"无误差范围是最大缺陷 +- Mamba-3没有引用出处,严重影响可复现性 +- 树木环境教师0碰撞vs学生1-2次的矛盾被框架为"泛化边界" +- "部署"语言过于自信(纯仿真) + +**建议**: 通过,需要在统计报告和Mamba-3引用上整改 + +--- + +## 方法论评审 + +**分数**: 研究设计72 | 统计有效性45 | 可复现性68 + +**核心问题**: +- **CRITICAL**: "取最优"而非均值±标准差,严重偏离ML标准实践 +- MAJOR: 无任何统计显著性检验 +- MAJOR: 仅5个评测种子,碰撞次数的离散整数差异不可靠 +- MAJOR: 评估指标单一(只有碰撞次数,无过程性指标) +- Minor: 推理延迟无方差报告、训练/验证集划分不明确 +- **复现性评分仅68**:代码开源但"取最优"使复现结果无法验证 + +**建议**: 首要任务——改为报告5-10次独立运行的均值±标准差 + +--- + +## 领域评审 + +**分数**: 文献覆盖78 | 理论正确85 | 领域贡献88 + +**核心问题**: +- **MAJOR**: Mamba-3来源不明(无引用),建议更名 +- 中: HiPPO矩阵公式索引混淆、SSD框架论述不足(无数学形式) +- 中: 缺少S4ND、Griffin、S5等关键SSM变体的讨论 +- 中: LSTM vs SSM的延迟对比已修正(新commit),但仍缺公平性能对比 +- 中: 参数量vs MACs/FLOPs不透明 + +**建议**: 小修即可——修正ZOH公式、澄清Mamba-3来源 + +--- + +## 前瞻性评审 + +**分数**: 实际影响78 | 跨学科洞察70 | 部署可行性55 + +**核心问题**: +- **CRITICAL**: 嵌入式平台(Jetson Orin)推理延迟完全缺失 +- High: 端到端延迟未经分解(仅模型推理,缺传感器+预处理+后处理) +- High: 仿真中未加入传感器噪声模型 +- High: 无域随机化训练 +- Med: 运动模糊未建模、因果推理延迟未被讨论 +- Med: RTX 5090不适合作为唯一基准 + +**建议**: 最多小修——但需明确标注所有延迟数据来自RTX 5090 + +--- + +## 魔鬼代言人 + +**最强反论**: "这篇关于Mamba的论文,其核心结论与Mamba无关" + +**关键指控**: +- **CRITICAL**: E的最优性能来自CNN编码器,SSM时序头在T=1下贡献可忽略 +- **CRITICAL**: 缺少纯CNN+MLP基线——无法证明SSM优于MLP +- MAJOR: 7m/s数据选择性报告(仅E/B+,其余4架构缺失) +- MAJOR: Born-again蒸馏失败表明"知识迁移"可能是误解——实质是特征级正则化 +- MAJOR: 无统计检验,1vs2次碰撞的差异可能不显著 +- Minor: 六种架构在编码器和时序头两个维度同时变化,无真正"控制变量" + +**替代解释**: +1. 正则化假说——蒸馏成功来自特征级正则化,与知识迁移无关 +2. 容量假说——B+优于E只因编码器大3.5倍,非MambaVision优势 +3. 梯度稳定假说——B的DNF恢复来自多任务损失稳定梯度,非蒸馏"修复" +4. 多步预测失败——模型学会复制当前速度指令而非真正预测 + +--- + +## Editorial Decision + +### **决定:小修 (Minor Revision)** + +**通过理由**: 论文实验规模、系统性、发现深度在本科毕设中属于优秀水平。核心发现(空间结构保留是蒸馏前提)具有学术价值。E-SSM、Fv5验证实验设计巧妙。 + +**必须整改(答辩前)**: +1. **统计报告**: 即使不重跑所有实验,也需要明确注明"取3次最优"对结论的影响,并至少提供已有数据的完整分布 +2. **Mamba-3来源**: 在全文中更名或补充引用说明 +3. **7m/s数据**: 补充其他4架构在7m/s下的结果(或明确说明未测试的原因) +4. **"部署"语言**: 将所有"部署"替换为"仿真验证",避免暗示真实飞行适用性 +5. **致谢**: 扩展至具体人名 + +**建议答辩时讨论**: +- 纯CNN+MLP基线会怎样表现?(可在论文中作为未来工作提及) +- 仿真到现实的差距具体有多大?(可展示一张Flightmare vs RealSense的深度图对比)