diff --git a/paper/review_report.md b/paper/review_report.md new file mode 100644 index 0000000..a60ae18 --- /dev/null +++ b/paper/review_report.md @@ -0,0 +1,215 @@ +# 论文评审:基于神经网络的四旋翼飞行器端到端视觉避障 + +- **作者**:邢锦文,东北大学信息学院 +- **评审方式**:5人模拟同行评审(主编 + 方法论专家 + 领域专家 + 前瞻性审稿人 + 魔鬼代言人) +- **最终决定**:大修 (Major Revision) + +--- + +## 总体评价 + +本文对六种 Mamba 架构在四旋翼避障任务中进行了系统比较,实验规模(60+轮训练、100+次仿真)和工作量在本科毕设中属于优秀水平。核心发现——"编码器保留空间结构是跨架构蒸馏成功的前提"——具有洞察力,Fv5和E-SSM两组验证实验设计严谨,消融实验覆盖全面。 + +--- + +## 评审得分汇总 + +| 评审人 | 维度 | 分数 | +|--------|------|:----:| +| **主编** | 原创性 / 重要性 / 质量 / 清晰度 | 78 / 72 / 80 / 70 | +| **方法论专家 (R1)** | 研究设计 / 统计有效性 / 可复现性 | 72 / 45 / 78 | +| **领域专家 (R2)** | 文献覆盖 / 理论正确性 / 领域贡献 | 72 / 78 / 65 | +| **前瞻性审稿人 (R3)** | 实际影响 / 跨学科洞察 / 部署可行性 | 82 / 75 / 60 | +| **魔鬼代言人 (DA)** | 最强反驳论证 + CRITICAL/MAJOR/MINOR 问题清单 | — | + +--- + +## 🔴 必须整改(答辩前) + +### 1. 统计报告严重不规范 [CRITICAL] + +**位置**:§4.1 — "每种模型配置独立训练3次,取最优结果进行评测" + +**问题**:取最优而非均值会系统性高估性能,且不报告方差、标准差或置信区间。对于"1次 vs 2次碰撞"这种细粒度比较,没有统计信息无法判断是真差异还是随机噪声。这是本评审中最高优先级的问题。 + +**建议**: +- 改为报告 3-5 次独立训练的 **均值 ± 标准差** +- 对关键配置(E蒸馏、B+蒸馏、教师ViT+LSTM)用5个不同种子重跑 +- 提供箱线图或完整分布(如 [1, 1, 2]) +- 对核心对比进行统计检验(McNemar's test 或 Fisher's exact test) + +### 2. LSTM延迟归因错误 [MAJOR] + +**位置**:§3.2.1(Branch A描述)、§4.2(推理延迟分析段)、表1注释 + +**问题**:论文将架构A(VMamba+LSTM)的24.3ms推理延迟归因于"LSTM时序头在单步预测下无法并行化,每次前向传播需串行计算"。但 PyTorch 的 `nn.LSTM` 在 `seq_len=1` 时是完全向量化的——它等价于一次矩阵乘加运算,不存在串行展开。24.3ms 实际来自 SS2D 编码器的四方向选择性扫描。 + +证据:教师 ViT+LSTM(同样使用 LSTM 头)的推理延迟仅为 9.0ms,说明 LSTM 头本身不是瓶颈。 + +**影响**:此错误支撑了论文中"SSM时序头比LSTM时序头更高效"的核心叙事,但实际对比是 SS2D 编码器与 ViT/CNN 编码器之间的延迟差异。修正后,E(CNN+SSM, 7.1ms)与教师(ViT+LSTM, 9.0ms)的时序头效率差异大幅缩小。 + +**建议**: +- 修正 §3.2.1 中的技术描述 +- 补充控制实验:在相同 CNN 编码器下对比 LSTM vs SSM 头的推理延迟 + +### 3. "DecisionMamba"实为CNN而非Mamba [MAJOR] + +**位置**:摘要、§3.2.5(Branch E)、论文标题 + +**问题**:架构E的三层CNN编码器仅455K参数(占总参21%),Fv5实验已证明单步预测下时序头容量几乎没有贡献(78%参数给时序头反而更差)。E的性能本质上来自那21%的CNN编码器参数,与Mamba架构基本无关。论文将E包装为"Mamba架构"的成功案例,夸大了关于SSM的结论。 + +魔鬼代言人最强反驳:"本文实验设计中,SSM只充当了配角(决策由CNN做出),却宣称自己是主角。" + +**建议**: +- 重命名架构E(如 LiteMamba、ConvMamba 或 CNN+SSM),反映其实质 +- 在摘要和结论中明确说明视觉编码器为CNN而非SSM + +### 4. 端到端延迟被严重低估 [MAJOR] + +**位置**:摘要("推理速度7.1ms")、§4.1.2("约140 FPS")、§5.1("比ViT+LSTM快21%") + +**问题**:论文仅报告模型推理延迟,但完整控制循环远不止此: + +| 环节 | 本文计入? | 典型耗时 | +|:-----|:---------:|:--------:| +| 深度传感器曝光/读出 | ❌ | 8-33ms (30-120fps) | +| 深度图预处理 | ❌ | 0.5-3ms | +| CPU→GPU传输 | ❌ | 0.5-2ms | +| 模型前向推理 | ✅ | 7.1ms | +| 控制分配 | ❌ | 0.5-1ms | +| 执行器响应 | ❌ | 10-30ms | +| **端到端总延迟** | — | **~27-77ms** | + +此外,评测在 RTX 5090(桌面级GPU,~450W TDP)上完成。部署到 Jetson Orin NX(嵌入式,15-25W)后延迟预计膨胀2-5倍。 + +**建议**: +- 提供完整端到端延迟预算表 +- 明确区分"模型推理延迟"和"系统帧率" +- 在Jetson Orin上至少进行一次推理延迟评测 + +### 5. 模板格式与学校规范 [MAJOR] + +**位置**:thesis.tex 第1行 + +**问题**:当前使用 `documentclass{article}` + `xeCJK`,而非东北大学本科毕业论文的标准模板。需确认是否符合学校要求,特别是封面、声明页、中英文摘要分离等。 + +--- + +## 🟡 强烈建议 + +| # | 建议 | 来源 | 优先级 | +|---|------|------|:------:| +| 6 | 补充纯CNN+线性头基线(无SSM,~2M参数),隔离SSM头贡献 | R2 + DA | 高 | +| 7 | 在§4.6明确讨论教师生成训练数据的循环依赖局限 | R1 | 高 | +| 8 | 补充训练损失曲线在不同随机种子下的一致性(目前仅种子42) | R1 | 中 | +| 9 | 扩展致谢至具体人名和资助方(当前仅3行模糊表述) | EIC | 中 | +| 10 | 修正 `shao2025xdistill` 年份标注为 `note = {to appear}` | EIC | 低 | +| 11 | 统一"SSM"术语——区分"SSM数学框架"和"SSM模块名称" | EIC | 低 | +| 12 | 补充连续评估指标(最小障碍物距离、轨迹平滑度) | R1 | 低 | + +--- + +## 🔵 锦上添花 + +| # | 建议 | 来源 | +|---|------|------| +| 13 | E-SSM对照中控制编码器容量变量(CoarseSSM远小于CNN编码器) | DA + R1 | +| 14 | 补充 S4ND (Gu et al., NeurIPS 2022) 参考文献,完善视觉SSM演进链 | R2 | +| 15 | 分析数据增强下SSM隐藏状态的偏移机制(给出机理而非仅观察) | R3 | +| 16 | 讨论不同教师架构是否会改变"空间结构保留"结论 | DA | + +--- + +## 各评审人完整报告 + +### 主编审稿 + +**优势**: +- 实验规模与系统性远超本科论文平均水平(48组主实验 + 20+组消融) +- E-SSM实验的假设驱动设计体现了良好的科研思维训练 +- 代码、数据、模型检查点全部开源,复现性好 + +**不足**(除上面已列出的外): +- 致谢仅三句模糊表述,建议扩展 +- 多处"SSM"同时指代数学框架和具体模块,造成歧义 +- MambaVision的"SSM路径"实为MLP,命名容易误解 + +### 方法论评审 (R1) + +**优势**: +- 实验框架系统性强,正交架构对比设计清晰 +- Fv5和E-SSM两组验证实验以验证假设为直接目的,具有因果解释力 +- 多维度消融覆盖全面,因素排序表(表10)有参考价值 + +**统计报告具体问题**: +- 单随机种子(42)训练,未做种子敏感性分析 +- 碰撞次数为离散指标,粒度不足(缺少最小距离等连续指标) +- 无DAgger基线对比,离线训练的性能上限未知 +- 超参数选择缺乏论证(学习率、批大小等未做敏感性分析) +- 伪标签实验中教师预测误差累积无定量分析 + +### 领域评审 (R2) + +**优势**: +- 核心设计原则提炼具有领域价值("编码器保留空间结构是蒸馏前提") +- 参数分配消融设计巧妙(Fv5实验) +- MambaVision"伪SSM路径"揭露具有学术诚实性 + +**文献覆盖遗漏**: +- S4ND (Gu et al., 2022) — 最早将S4扩展至2D图像的工作 +- SSM在机器人控制中的更广泛应用未被讨论 +- 时序信息对避障必要性的相反证据未被引证 + +### 前瞻性评审 (R3) + +**优势**: +- 速度鲁棒性系统评估具有直接工程意义 +- 参数效率比引入工程评估维度 +- 树木环境泛化测试暴露蒸馏局限且未掩盖负面结果 + +**部署缺口**: +- 无运动模糊、风扰、传感器失效模式建模 +- 无热管理、电池电压效应、振动环境影响讨论 +- 三层sim-to-real适应策略停留在文字层面,无消融实验支撑 + +### 魔鬼代言人 (DA) + +**最强反驳论证**: + +本文的核心主张——"DecisionMamba是最优Mamba架构,跨架构蒸馏的关键是空间结构保留"——面临最根本的挑战:本文没有排除"这不是关于Mamba,而是关于CNN"这一最简单的替代解释。 + +- DecisionMamba的本质是CNN,Mamba仅在不贡献性能的时序头中 +- 蒸馏成功的案例(B+、E)本质是CNN→CNN或伪CNN→CNN的蒸馏 +- 真正的SSM编码器(架构A的SS2D)恰好是蒸馏最失败的案例 +- E-SSM对照实验中CoarseSSM的参数量和随机初始化状态使结论不够干净 + +**Cherry-picking 检查**: +- ✅ 报告"最优"而非"均值±标准差" → 发现问题 +- ✅ "1次 vs 2次碰撞"被当作确定性发现 → 无方差支撑 +- ✅ 仅测试5m/s和7m/s两个速度 → 缺少更高/更低速度的完整剖面 +- ✅ 树木环境教师0碰撞被轻描淡写 → 与"Mamba优于Transformer"叙事矛盾 +- ✅ 缺少非Mamba基线(DroNet、纯LSTM、MLP、PID)→ 结论缺乏锚定 + +--- + +## 最终决定 + +### **大修 (Major Revision) → 重新评审后可接受为本科毕业论文答辩** + +**通过理由**: +- 实验系统性和工作量在本科毕设中属优秀 +- 核心工程发现具有参考价值(尤其是蒸馏边界条件) +- 代码/数据全开源,学术规范意识好 + +**答辩前必须整改**: +1. 统计报告加入方差信息,停止"取最优" +2. 修正LSTM延迟归因错误 +3. 使命名和结论与证据一致(DecisionMamba本质是CNN) +4. 提供完整延迟预算,区分模型延迟与系统帧率 +5. 确认学校模板格式要求 + +--- + +*评审于 2026-05-08 完成* +*评审团队:主编 + 方法论评审 + 领域评审 + 前瞻性评审 + 魔鬼代言人* +*工具:academic-paper-reviewer v1.9.0*