Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
215 changes: 215 additions & 0 deletions paper/review_report.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,215 @@
# 论文评审:基于神经网络的四旋翼飞行器端到端视觉避障

- **作者**:邢锦文,东北大学信息学院
- **评审方式**:5人模拟同行评审(主编 + 方法论专家 + 领域专家 + 前瞻性审稿人 + 魔鬼代言人)
- **最终决定**:大修 (Major Revision)

---

## 总体评价

本文对六种 Mamba 架构在四旋翼避障任务中进行了系统比较,实验规模(60+轮训练、100+次仿真)和工作量在本科毕设中属于优秀水平。核心发现——"编码器保留空间结构是跨架构蒸馏成功的前提"——具有洞察力,Fv5和E-SSM两组验证实验设计严谨,消融实验覆盖全面。

---

## 评审得分汇总

| 评审人 | 维度 | 分数 |
|--------|------|:----:|
| **主编** | 原创性 / 重要性 / 质量 / 清晰度 | 78 / 72 / 80 / 70 |
| **方法论专家 (R1)** | 研究设计 / 统计有效性 / 可复现性 | 72 / 45 / 78 |
| **领域专家 (R2)** | 文献覆盖 / 理论正确性 / 领域贡献 | 72 / 78 / 65 |
| **前瞻性审稿人 (R3)** | 实际影响 / 跨学科洞察 / 部署可行性 | 82 / 75 / 60 |
| **魔鬼代言人 (DA)** | 最强反驳论证 + CRITICAL/MAJOR/MINOR 问题清单 | — |

---

## 🔴 必须整改(答辩前)

### 1. 统计报告严重不规范 [CRITICAL]

**位置**:§4.1 — "每种模型配置独立训练3次,取最优结果进行评测"

**问题**:取最优而非均值会系统性高估性能,且不报告方差、标准差或置信区间。对于"1次 vs 2次碰撞"这种细粒度比较,没有统计信息无法判断是真差异还是随机噪声。这是本评审中最高优先级的问题。

**建议**:
- 改为报告 3-5 次独立训练的 **均值 ± 标准差**
- 对关键配置(E蒸馏、B+蒸馏、教师ViT+LSTM)用5个不同种子重跑
- 提供箱线图或完整分布(如 [1, 1, 2])
- 对核心对比进行统计检验(McNemar's test 或 Fisher's exact test)

### 2. LSTM延迟归因错误 [MAJOR]

**位置**:§3.2.1(Branch A描述)、§4.2(推理延迟分析段)、表1注释

**问题**:论文将架构A(VMamba+LSTM)的24.3ms推理延迟归因于"LSTM时序头在单步预测下无法并行化,每次前向传播需串行计算"。但 PyTorch 的 `nn.LSTM` 在 `seq_len=1` 时是完全向量化的——它等价于一次矩阵乘加运算,不存在串行展开。24.3ms 实际来自 SS2D 编码器的四方向选择性扫描。

证据:教师 ViT+LSTM(同样使用 LSTM 头)的推理延迟仅为 9.0ms,说明 LSTM 头本身不是瓶颈。

**影响**:此错误支撑了论文中"SSM时序头比LSTM时序头更高效"的核心叙事,但实际对比是 SS2D 编码器与 ViT/CNN 编码器之间的延迟差异。修正后,E(CNN+SSM, 7.1ms)与教师(ViT+LSTM, 9.0ms)的时序头效率差异大幅缩小。

**建议**:
- 修正 §3.2.1 中的技术描述
- 补充控制实验:在相同 CNN 编码器下对比 LSTM vs SSM 头的推理延迟

### 3. "DecisionMamba"实为CNN而非Mamba [MAJOR]

**位置**:摘要、§3.2.5(Branch E)、论文标题

**问题**:架构E的三层CNN编码器仅455K参数(占总参21%),Fv5实验已证明单步预测下时序头容量几乎没有贡献(78%参数给时序头反而更差)。E的性能本质上来自那21%的CNN编码器参数,与Mamba架构基本无关。论文将E包装为"Mamba架构"的成功案例,夸大了关于SSM的结论。

魔鬼代言人最强反驳:"本文实验设计中,SSM只充当了配角(决策由CNN做出),却宣称自己是主角。"

**建议**:
- 重命名架构E(如 LiteMamba、ConvMamba 或 CNN+SSM),反映其实质
- 在摘要和结论中明确说明视觉编码器为CNN而非SSM

### 4. 端到端延迟被严重低估 [MAJOR]

**位置**:摘要("推理速度7.1ms")、§4.1.2("约140 FPS")、§5.1("比ViT+LSTM快21%")

**问题**:论文仅报告模型推理延迟,但完整控制循环远不止此:

| 环节 | 本文计入? | 典型耗时 |
|:-----|:---------:|:--------:|
| 深度传感器曝光/读出 | ❌ | 8-33ms (30-120fps) |
| 深度图预处理 | ❌ | 0.5-3ms |
| CPU→GPU传输 | ❌ | 0.5-2ms |
| 模型前向推理 | ✅ | 7.1ms |
| 控制分配 | ❌ | 0.5-1ms |
| 执行器响应 | ❌ | 10-30ms |
| **端到端总延迟** | — | **~27-77ms** |

此外,评测在 RTX 5090(桌面级GPU,~450W TDP)上完成。部署到 Jetson Orin NX(嵌入式,15-25W)后延迟预计膨胀2-5倍。

**建议**:
- 提供完整端到端延迟预算表
- 明确区分"模型推理延迟"和"系统帧率"
- 在Jetson Orin上至少进行一次推理延迟评测

### 5. 模板格式与学校规范 [MAJOR]

**位置**:thesis.tex 第1行

**问题**:当前使用 `documentclass{article}` + `xeCJK`,而非东北大学本科毕业论文的标准模板。需确认是否符合学校要求,特别是封面、声明页、中英文摘要分离等。

---

## 🟡 强烈建议

| # | 建议 | 来源 | 优先级 |
|---|------|------|:------:|
| 6 | 补充纯CNN+线性头基线(无SSM,~2M参数),隔离SSM头贡献 | R2 + DA | 高 |
| 7 | 在§4.6明确讨论教师生成训练数据的循环依赖局限 | R1 | 高 |
| 8 | 补充训练损失曲线在不同随机种子下的一致性(目前仅种子42) | R1 | 中 |
| 9 | 扩展致谢至具体人名和资助方(当前仅3行模糊表述) | EIC | 中 |
| 10 | 修正 `shao2025xdistill` 年份标注为 `note = {to appear}` | EIC | 低 |
| 11 | 统一"SSM"术语——区分"SSM数学框架"和"SSM模块名称" | EIC | 低 |
| 12 | 补充连续评估指标(最小障碍物距离、轨迹平滑度) | R1 | 低 |

---

## 🔵 锦上添花

| # | 建议 | 来源 |
|---|------|------|
| 13 | E-SSM对照中控制编码器容量变量(CoarseSSM远小于CNN编码器) | DA + R1 |
| 14 | 补充 S4ND (Gu et al., NeurIPS 2022) 参考文献,完善视觉SSM演进链 | R2 |
| 15 | 分析数据增强下SSM隐藏状态的偏移机制(给出机理而非仅观察) | R3 |
| 16 | 讨论不同教师架构是否会改变"空间结构保留"结论 | DA |

---

## 各评审人完整报告

### 主编审稿

**优势**:
- 实验规模与系统性远超本科论文平均水平(48组主实验 + 20+组消融)
- E-SSM实验的假设驱动设计体现了良好的科研思维训练
- 代码、数据、模型检查点全部开源,复现性好

**不足**(除上面已列出的外):
- 致谢仅三句模糊表述,建议扩展
- 多处"SSM"同时指代数学框架和具体模块,造成歧义
- MambaVision的"SSM路径"实为MLP,命名容易误解

### 方法论评审 (R1)

**优势**:
- 实验框架系统性强,正交架构对比设计清晰
- Fv5和E-SSM两组验证实验以验证假设为直接目的,具有因果解释力
- 多维度消融覆盖全面,因素排序表(表10)有参考价值

**统计报告具体问题**:
- 单随机种子(42)训练,未做种子敏感性分析
- 碰撞次数为离散指标,粒度不足(缺少最小距离等连续指标)
- 无DAgger基线对比,离线训练的性能上限未知
- 超参数选择缺乏论证(学习率、批大小等未做敏感性分析)
- 伪标签实验中教师预测误差累积无定量分析

### 领域评审 (R2)

**优势**:
- 核心设计原则提炼具有领域价值("编码器保留空间结构是蒸馏前提")
- 参数分配消融设计巧妙(Fv5实验)
- MambaVision"伪SSM路径"揭露具有学术诚实性

**文献覆盖遗漏**:
- S4ND (Gu et al., 2022) — 最早将S4扩展至2D图像的工作
- SSM在机器人控制中的更广泛应用未被讨论
- 时序信息对避障必要性的相反证据未被引证

### 前瞻性评审 (R3)

**优势**:
- 速度鲁棒性系统评估具有直接工程意义
- 参数效率比引入工程评估维度
- 树木环境泛化测试暴露蒸馏局限且未掩盖负面结果

**部署缺口**:
- 无运动模糊、风扰、传感器失效模式建模
- 无热管理、电池电压效应、振动环境影响讨论
- 三层sim-to-real适应策略停留在文字层面,无消融实验支撑

### 魔鬼代言人 (DA)

**最强反驳论证**:

本文的核心主张——"DecisionMamba是最优Mamba架构,跨架构蒸馏的关键是空间结构保留"——面临最根本的挑战:本文没有排除"这不是关于Mamba,而是关于CNN"这一最简单的替代解释。

- DecisionMamba的本质是CNN,Mamba仅在不贡献性能的时序头中
- 蒸馏成功的案例(B+、E)本质是CNN→CNN或伪CNN→CNN的蒸馏
- 真正的SSM编码器(架构A的SS2D)恰好是蒸馏最失败的案例
- E-SSM对照实验中CoarseSSM的参数量和随机初始化状态使结论不够干净

**Cherry-picking 检查**:
- ✅ 报告"最优"而非"均值±标准差" → 发现问题
- ✅ "1次 vs 2次碰撞"被当作确定性发现 → 无方差支撑
- ✅ 仅测试5m/s和7m/s两个速度 → 缺少更高/更低速度的完整剖面
- ✅ 树木环境教师0碰撞被轻描淡写 → 与"Mamba优于Transformer"叙事矛盾
- ✅ 缺少非Mamba基线(DroNet、纯LSTM、MLP、PID)→ 结论缺乏锚定

---

## 最终决定

### **大修 (Major Revision) → 重新评审后可接受为本科毕业论文答辩**

**通过理由**:
- 实验系统性和工作量在本科毕设中属优秀
- 核心工程发现具有参考价值(尤其是蒸馏边界条件)
- 代码/数据全开源,学术规范意识好

**答辩前必须整改**:
1. 统计报告加入方差信息,停止"取最优"
2. 修正LSTM延迟归因错误
3. 使命名和结论与证据一致(DecisionMamba本质是CNN)
4. 提供完整延迟预算,区分模型延迟与系统帧率
5. 确认学校模板格式要求

---

*评审于 2026-05-08 完成*
*评审团队:主编 + 方法论评审 + 领域评审 + 前瞻性评审 + 魔鬼代言人*
*工具:academic-paper-reviewer v1.9.0*