Liber1917 · Liber1917 · May 8, 2026
diff --git a/paper/review_report.md b/paper/review_report.md
@@ -0,0 +1,215 @@
+# 论文评审：基于神经网络的四旋翼飞行器端到端视觉避障
+
+- **作者**：邢锦文，东北大学信息学院
+- **评审方式**：5人模拟同行评审（主编 + 方法论专家 + 领域专家 + 前瞻性审稿人 + 魔鬼代言人）
+- **最终决定**：大修 (Major Revision)
+
+---
+
+## 总体评价
+
+本文对六种 Mamba 架构在四旋翼避障任务中进行了系统比较，实验规模（60+轮训练、100+次仿真）和工作量在本科毕设中属于优秀水平。核心发现——"编码器保留空间结构是跨架构蒸馏成功的前提"——具有洞察力，Fv5和E-SSM两组验证实验设计严谨，消融实验覆盖全面。
+
+---
+
+## 评审得分汇总
+
+| 评审人 | 维度 | 分数 |
+|--------|------|:----:|
+| **主编** | 原创性 / 重要性 / 质量 / 清晰度 | 78 / 72 / 80 / 70 |
+| **方法论专家 (R1)** | 研究设计 / 统计有效性 / 可复现性 | 72 / 45 / 78 |
+| **领域专家 (R2)** | 文献覆盖 / 理论正确性 / 领域贡献 | 72 / 78 / 65 |
+| **前瞻性审稿人 (R3)** | 实际影响 / 跨学科洞察 / 部署可行性 | 82 / 75 / 60 |
+| **魔鬼代言人 (DA)** | 最强反驳论证 + CRITICAL/MAJOR/MINOR 问题清单 | — |
+
+---
+
+## 🔴 必须整改（答辩前）
+
+### 1. 统计报告严重不规范 [CRITICAL]
+
+**位置**：§4.1 — "每种模型配置独立训练3次，取最优结果进行评测"
+
+**问题**：取最优而非均值会系统性高估性能，且不报告方差、标准差或置信区间。对于"1次 vs 2次碰撞"这种细粒度比较，没有统计信息无法判断是真差异还是随机噪声。这是本评审中最高优先级的问题。
+
+**建议**：
+- 改为报告 3-5 次独立训练的 **均值 ± 标准差**
+- 对关键配置（E蒸馏、B+蒸馏、教师ViT+LSTM）用5个不同种子重跑
+- 提供箱线图或完整分布（如 [1, 1, 2]）
+- 对核心对比进行统计检验（McNemar's test 或 Fisher's exact test）
+
+### 2. LSTM延迟归因错误 [MAJOR]
+
+**位置**：§3.2.1（Branch A描述）、§4.2（推理延迟分析段）、表1注释
+
+**问题**：论文将架构A（VMamba+LSTM）的24.3ms推理延迟归因于"LSTM时序头在单步预测下无法并行化，每次前向传播需串行计算"。但 PyTorch 的 `nn.LSTM` 在 `seq_len=1` 时是完全向量化的——它等价于一次矩阵乘加运算，不存在串行展开。24.3ms 实际来自 SS2D 编码器的四方向选择性扫描。
+
+证据：教师 ViT+LSTM（同样使用 LSTM 头）的推理延迟仅为 9.0ms，说明 LSTM 头本身不是瓶颈。
+
+**影响**：此错误支撑了论文中"SSM时序头比LSTM时序头更高效"的核心叙事，但实际对比是 SS2D 编码器与 ViT/CNN 编码器之间的延迟差异。修正后，E（CNN+SSM, 7.1ms）与教师（ViT+LSTM, 9.0ms）的时序头效率差异大幅缩小。
+
+**建议**：
+- 修正 §3.2.1 中的技术描述
+- 补充控制实验：在相同 CNN 编码器下对比 LSTM vs SSM 头的推理延迟
+
+### 3. "DecisionMamba"实为CNN而非Mamba [MAJOR]
+
+**位置**：摘要、§3.2.5（Branch E）、论文标题
+
+**问题**：架构E的三层CNN编码器仅455K参数（占总参21%），Fv5实验已证明单步预测下时序头容量几乎没有贡献（78%参数给时序头反而更差）。E的性能本质上来自那21%的CNN编码器参数，与Mamba架构基本无关。论文将E包装为"Mamba架构"的成功案例，夸大了关于SSM的结论。
+
+魔鬼代言人最强反驳："本文实验设计中，SSM只充当了配角（决策由CNN做出），却宣称自己是主角。"
+
+**建议**：
+- 重命名架构E（如 LiteMamba、ConvMamba 或 CNN+SSM），反映其实质
+- 在摘要和结论中明确说明视觉编码器为CNN而非SSM
+
+### 4. 端到端延迟被严重低估 [MAJOR]
+
+**位置**：摘要（"推理速度7.1ms"）、§4.1.2（"约140 FPS"）、§5.1（"比ViT+LSTM快21%"）
+
+**问题**：论文仅报告模型推理延迟，但完整控制循环远不止此：
+
+| 环节 | 本文计入？ | 典型耗时 |
+|:-----|:---------:|:--------:|
+| 深度传感器曝光/读出 | ❌ | 8-33ms (30-120fps) |
+| 深度图预处理 | ❌ | 0.5-3ms |
+| CPU→GPU传输 | ❌ | 0.5-2ms |
+| 模型前向推理 | ✅ | 7.1ms |
+| 控制分配 | ❌ | 0.5-1ms |
+| 执行器响应 | ❌ | 10-30ms |
+| **端到端总延迟** | — | **~27-77ms** |
+
+此外，评测在 RTX 5090（桌面级GPU，~450W TDP）上完成。部署到 Jetson Orin NX（嵌入式，15-25W）后延迟预计膨胀2-5倍。
+
+**建议**：
+- 提供完整端到端延迟预算表
+- 明确区分"模型推理延迟"和"系统帧率"
+- 在Jetson Orin上至少进行一次推理延迟评测
+
+### 5. 模板格式与学校规范 [MAJOR]
+
+**位置**：thesis.tex 第1行
+
+**问题**：当前使用 `documentclass{article}` + `xeCJK`，而非东北大学本科毕业论文的标准模板。需确认是否符合学校要求，特别是封面、声明页、中英文摘要分离等。
+
+---
+
+## 🟡 强烈建议
+
+| # | 建议 | 来源 | 优先级 |
+|---|------|------|:------:|
+| 6 | 补充纯CNN+线性头基线（无SSM，~2M参数），隔离SSM头贡献 | R2 + DA | 高 |
+| 7 | 在§4.6明确讨论教师生成训练数据的循环依赖局限 | R1 | 高 |
+| 8 | 补充训练损失曲线在不同随机种子下的一致性（目前仅种子42） | R1 | 中 |
+| 9 | 扩展致谢至具体人名和资助方（当前仅3行模糊表述） | EIC | 中 |
+| 10 | 修正 `shao2025xdistill` 年份标注为 `note = {to appear}` | EIC | 低 |
+| 11 | 统一"SSM"术语——区分"SSM数学框架"和"SSM模块名称" | EIC | 低 |
+| 12 | 补充连续评估指标（最小障碍物距离、轨迹平滑度） | R1 | 低 |
+
+---
+
+## 🔵 锦上添花
+
+| # | 建议 | 来源 |
+|---|------|------|
+| 13 | E-SSM对照中控制编码器容量变量（CoarseSSM远小于CNN编码器） | DA + R1 |
+| 14 | 补充 S4ND (Gu et al., NeurIPS 2022) 参考文献，完善视觉SSM演进链 | R2 |
+| 15 | 分析数据增强下SSM隐藏状态的偏移机制（给出机理而非仅观察） | R3 |
+| 16 | 讨论不同教师架构是否会改变"空间结构保留"结论 | DA |
+
+---
+
+## 各评审人完整报告
+
+### 主编审稿
+
+**优势**：
+- 实验规模与系统性远超本科论文平均水平（48组主实验 + 20+组消融）
+- E-SSM实验的假设驱动设计体现了良好的科研思维训练
+- 代码、数据、模型检查点全部开源，复现性好
+
+**不足**（除上面已列出的外）：
+- 致谢仅三句模糊表述，建议扩展
+- 多处"SSM"同时指代数学框架和具体模块，造成歧义
+- MambaVision的"SSM路径"实为MLP，命名容易误解
+
+### 方法论评审 (R1)
+
+**优势**：
+- 实验框架系统性强，正交架构对比设计清晰
+- Fv5和E-SSM两组验证实验以验证假设为直接目的，具有因果解释力
+- 多维度消融覆盖全面，因素排序表（表10）有参考价值
+
+**统计报告具体问题**：
+- 单随机种子（42）训练，未做种子敏感性分析
+- 碰撞次数为离散指标，粒度不足（缺少最小距离等连续指标）
+- 无DAgger基线对比，离线训练的性能上限未知
+- 超参数选择缺乏论证（学习率、批大小等未做敏感性分析）
+- 伪标签实验中教师预测误差累积无定量分析
+
+### 领域评审 (R2)
+
+**优势**：
+- 核心设计原则提炼具有领域价值（"编码器保留空间结构是蒸馏前提"）
+- 参数分配消融设计巧妙（Fv5实验）
+- MambaVision"伪SSM路径"揭露具有学术诚实性
+
+**文献覆盖遗漏**：
+- S4ND (Gu et al., 2022) — 最早将S4扩展至2D图像的工作
+- SSM在机器人控制中的更广泛应用未被讨论
+- 时序信息对避障必要性的相反证据未被引证
+
+### 前瞻性评审 (R3)
+
+**优势**：
+- 速度鲁棒性系统评估具有直接工程意义
+- 参数效率比引入工程评估维度
+- 树木环境泛化测试暴露蒸馏局限且未掩盖负面结果
+
+**部署缺口**：
+- 无运动模糊、风扰、传感器失效模式建模
+- 无热管理、电池电压效应、振动环境影响讨论
+- 三层sim-to-real适应策略停留在文字层面，无消融实验支撑
+
+### 魔鬼代言人 (DA)
+
+**最强反驳论证**：
+
+本文的核心主张——"DecisionMamba是最优Mamba架构，跨架构蒸馏的关键是空间结构保留"——面临最根本的挑战：本文没有排除"这不是关于Mamba，而是关于CNN"这一最简单的替代解释。
+
+- DecisionMamba的本质是CNN，Mamba仅在不贡献性能的时序头中
+- 蒸馏成功的案例（B+、E）本质是CNN→CNN或伪CNN→CNN的蒸馏
+- 真正的SSM编码器（架构A的SS2D）恰好是蒸馏最失败的案例
+- E-SSM对照实验中CoarseSSM的参数量和随机初始化状态使结论不够干净
+
+**Cherry-picking 检查**：
+- ✅ 报告"最优"而非"均值±标准差" → 发现问题
+- ✅ "1次 vs 2次碰撞"被当作确定性发现 → 无方差支撑
+- ✅ 仅测试5m/s和7m/s两个速度 → 缺少更高/更低速度的完整剖面
+- ✅ 树木环境教师0碰撞被轻描淡写 → 与"Mamba优于Transformer"叙事矛盾
+- ✅ 缺少非Mamba基线（DroNet、纯LSTM、MLP、PID）→ 结论缺乏锚定
+
+---
+
+## 最终决定
+
+### **大修 (Major Revision) → 重新评审后可接受为本科毕业论文答辩**
+
+**通过理由**：
+- 实验系统性和工作量在本科毕设中属优秀
+- 核心工程发现具有参考价值（尤其是蒸馏边界条件）
+- 代码/数据全开源，学术规范意识好
+
+**答辩前必须整改**：
+1. 统计报告加入方差信息，停止"取最优"
+2. 修正LSTM延迟归因错误
+3. 使命名和结论与证据一致（DecisionMamba本质是CNN）
+4. 提供完整延迟预算，区分模型延迟与系统帧率
+5. 确认学校模板格式要求
+
+---
+
+*评审于 2026-05-08 完成*
+*评审团队：主编 + 方法论评审 + 领域评审 + 前瞻性评审 + 魔鬼代言人*
+*工具：academic-paper-reviewer v1.9.0*