Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
141 changes: 141 additions & 0 deletions paper/review_report_v2.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,141 @@
# 论文二次评审:基于神经网络的四旋翼飞行器端到端视觉避障

第二次独立评审(完全不参考第一次PR),5人评审组。

---

## 评审汇总

| 评审人 | 分数 | 决定 |
|--------|:----:|:----:|
| **主编** | 73.8/100 | 通过,显著性保留 |
| **方法论评审** | 65/100 | 统计严谨性严重不足 |
| **领域评审** | 85/100 | 小修 |
| **前瞻性评审** | 68/100 | 小修(需补充嵌入式数据) |
| **魔鬼代言人** | — | CRITICAL: 叙事与证据不匹配 |

---

## 跨评审人共识议题

### 🔴 高度一致(3+评审人)

| 议题 | 主编 | 方法论 | 领域 | 前瞻 | DA |
|------|:----:|:------:|:----:|:----:|:--:|
| **无统计显著性检验(取最优而非均值)** | MAJOR | CRITICAL | — | — | MAJOR |
| **"Mamba"标签与内容不匹配(E是CNN)** | — | — | — | — | **CRITICAL** |
| **缺少纯CNN/MLP基线(无SSM对照组)** | — | — | MAJOR | — | **CRITICAL** |
| **嵌入式平台延迟数据缺失(仅RTX 5090)** | — | — | — | **CRITICAL** | — |
| **Mamba-3来源不明** | MAJOR | — | MAJOR | — | — |

### 🟡 部分一致(2评审人)

| 议题 | 涉及评审人 |
|------|-----------|
| 缺少端到端延迟分解 | 前瞻(High) + 方法论(Minor) |
| 7m/s数据选择性报告(仅E/B+) | DA(Major) + 方法论(Minor) |
| 树木环境教师0碰撞未充分解释 | DA(Minor) + 领域(中) |
| 仿真缺少传感器噪声/域随机化 | 前瞻(High) + 领域(W5) |
| 数据增强消融结论自相矛盾(B+ vs C/D/E) | DA(Minor) + 方法(Minor) |

---

## 主编评审

**分数**: 原创70 | 重要性72 | 质量75 | 清晰度78

**关键发现**:
- 实验规模在本科毕设中极高(48组+20+消融)
- E-SSM实验是全文最具说服力的证据
- "3次取最优"无误差范围是最大缺陷
- Mamba-3没有引用出处,严重影响可复现性
- 树木环境教师0碰撞vs学生1-2次的矛盾被框架为"泛化边界"
- "部署"语言过于自信(纯仿真)

**建议**: 通过,需要在统计报告和Mamba-3引用上整改

---

## 方法论评审

**分数**: 研究设计72 | 统计有效性45 | 可复现性68

**核心问题**:
- **CRITICAL**: "取最优"而非均值±标准差,严重偏离ML标准实践
- MAJOR: 无任何统计显著性检验
- MAJOR: 仅5个评测种子,碰撞次数的离散整数差异不可靠
- MAJOR: 评估指标单一(只有碰撞次数,无过程性指标)
- Minor: 推理延迟无方差报告、训练/验证集划分不明确
- **复现性评分仅68**:代码开源但"取最优"使复现结果无法验证

**建议**: 首要任务——改为报告5-10次独立运行的均值±标准差

---

## 领域评审

**分数**: 文献覆盖78 | 理论正确85 | 领域贡献88

**核心问题**:
- **MAJOR**: Mamba-3来源不明(无引用),建议更名
- 中: HiPPO矩阵公式索引混淆、SSD框架论述不足(无数学形式)
- 中: 缺少S4ND、Griffin、S5等关键SSM变体的讨论
- 中: LSTM vs SSM的延迟对比已修正(新commit),但仍缺公平性能对比
- 中: 参数量vs MACs/FLOPs不透明

**建议**: 小修即可——修正ZOH公式、澄清Mamba-3来源

---

## 前瞻性评审

**分数**: 实际影响78 | 跨学科洞察70 | 部署可行性55

**核心问题**:
- **CRITICAL**: 嵌入式平台(Jetson Orin)推理延迟完全缺失
- High: 端到端延迟未经分解(仅模型推理,缺传感器+预处理+后处理)
- High: 仿真中未加入传感器噪声模型
- High: 无域随机化训练
- Med: 运动模糊未建模、因果推理延迟未被讨论
- Med: RTX 5090不适合作为唯一基准

**建议**: 最多小修——但需明确标注所有延迟数据来自RTX 5090

---

## 魔鬼代言人

**最强反论**: "这篇关于Mamba的论文,其核心结论与Mamba无关"

**关键指控**:
- **CRITICAL**: E的最优性能来自CNN编码器,SSM时序头在T=1下贡献可忽略
- **CRITICAL**: 缺少纯CNN+MLP基线——无法证明SSM优于MLP
- MAJOR: 7m/s数据选择性报告(仅E/B+,其余4架构缺失)
- MAJOR: Born-again蒸馏失败表明"知识迁移"可能是误解——实质是特征级正则化
- MAJOR: 无统计检验,1vs2次碰撞的差异可能不显著
- Minor: 六种架构在编码器和时序头两个维度同时变化,无真正"控制变量"

**替代解释**:
1. 正则化假说——蒸馏成功来自特征级正则化,与知识迁移无关
2. 容量假说——B+优于E只因编码器大3.5倍,非MambaVision优势
3. 梯度稳定假说——B的DNF恢复来自多任务损失稳定梯度,非蒸馏"修复"
4. 多步预测失败——模型学会复制当前速度指令而非真正预测

---

## Editorial Decision

### **决定:小修 (Minor Revision)**

**通过理由**: 论文实验规模、系统性、发现深度在本科毕设中属于优秀水平。核心发现(空间结构保留是蒸馏前提)具有学术价值。E-SSM、Fv5验证实验设计巧妙。

**必须整改(答辩前)**:
1. **统计报告**: 即使不重跑所有实验,也需要明确注明"取3次最优"对结论的影响,并至少提供已有数据的完整分布
2. **Mamba-3来源**: 在全文中更名或补充引用说明
3. **7m/s数据**: 补充其他4架构在7m/s下的结果(或明确说明未测试的原因)
4. **"部署"语言**: 将所有"部署"替换为"仿真验证",避免暗示真实飞行适用性
5. **致谢**: 扩展至具体人名

**建议答辩时讨论**:
- 纯CNN+MLP基线会怎样表现?(可在论文中作为未来工作提及)
- 仿真到现实的差距具体有多大?(可展示一张Flightmare vs RealSense的深度图对比)