From c9ea235d8ae11228cd3e6c31b07ca82e58ceaad5 Mon Sep 17 00:00:00 2001 From: Karl <108458660+Liber1917@users.noreply.github.com> Date: Fri, 8 May 2026 22:38:57 +0800 Subject: [PATCH] =?UTF-8?q?fix:=20thesis=20updates=20per=20peer=20review?= =?UTF-8?q?=20=E2=80=94=20LSTM=20latency,=20Mamba-3=20citation,=20CNN+SSM?= =?UTF-8?q?=20naming,=20S4ND=20ref?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- paper/references.bib | 387 ++++++++++++++-- paper/review_report_v2.md | 141 ++++++ paper/thesis.tex | 954 ++++++++++++++++++++++++++++++++++++++ 3 files changed, 1443 insertions(+), 39 deletions(-) create mode 100644 paper/review_report_v2.md create mode 100644 paper/thesis.tex diff --git a/paper/references.bib b/paper/references.bib index f892b14..de74c70 100644 --- a/paper/references.bib +++ b/paper/references.bib @@ -1,19 +1,40 @@ @article{bhattacharya2024vitfly, title={Vision Transformers for End-to-End Vision-Based Quadrotor Obstacle Avoidance}, - author={Bhattacharya, Anish and others}, + author={Bhattacharya, Anish and Rao, Nishanth and Parikh, Dhruv and Kunapuli, Pratik and Matni, Nikolai and Kumar, Vijay}, journal={arXiv preprint arXiv:2405.10391}, year={2024} } -@article{gu2023mamba, +@inproceedings{gu2023mamba, title={Mamba: Linear-Time Sequence Modeling with Selective State Spaces}, author={Gu, Albert and Dao, Tri}, - journal={arXiv preprint arXiv:2312.00752}, - year={2023} + booktitle={Conference on Learning Theory (COLT)}, + year={2024} +} + +@inproceedings{gu2022s4, + title={Efficiently Modeling Long Sequences with Structured State Spaces}, + author={Gu, Albert and Goel, Karan and R{\'e}, Christopher}, + booktitle={International Conference on Learning Representations (ICLR)}, + year={2022} +} + +@inproceedings{dao2024mamba2, + title={Transformers are {SSM}s: Generalized Models and Efficient Algorithms Through Structured State Space Duality}, + author={Dao, Tri and Gu, Albert}, + booktitle={International Conference on Machine Learning (ICML)}, + year={2024} +} + +@inproceedings{zhu2024vim, + title={Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model}, + author={Zhu, Lianghui and Liao, Bencheng and Zhang, Qian and Wang, Xinlong and Liu, Wenyu and Wang, Xinggang}, + booktitle={International Conference on Machine Learning (ICML)}, + year={2024} } @article{bick2024mohawk, - title={Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models}, + title={Transformers to {SSM}s: Distilling Quadratic Knowledge to Subquadratic Models}, author={Bick, Aviv and Li, Kevin and Xing, Eric and Kolter, J Zico and Gu, Albert}, journal={Advances in Neural Information Processing Systems (NeurIPS)}, year={2024} @@ -28,29 +49,36 @@ @inproceedings{shao2025xdistill @article{wang2025cab, title={Data Efficient Any Transformer-to-Mamba Distillation via Attention Bridge}, - author={Wang and others}, + author={Wang, Penghao and others}, journal={arXiv preprint arXiv:2510.19266}, year={2025} } @article{liu2024vmamba, - title={VMamba: Visual State Space Model}, - author={Liu and others}, + title={{VMamba}: Visual State Space Model}, + author={Liu, Yue and Tian, Yunjie and Zhao, Yuzhong and Yu, Hongtian and Xie, Lingxi and Wang, Yaowei and Ye, Qixiang and Liu, Yunfan}, journal={arXiv preprint arXiv:2401.10166}, year={2024} } @article{hatamizadeh2024mambavision, - title={MambaVision: A Hybrid Mamba-Transformer Vision Backbone}, + title={{MambaVision}: A Hybrid Mamba-Transformer Vision Backbone}, author={Hatamizadeh, Ali and Kautz, Jan}, journal={arXiv preprint arXiv:2407.10783}, year={2024} } +@inproceedings{xie2021segformer, + title={{SegFormer}: Simple and Efficient Design for Semantic Segmentation with Transformers}, + author={Xie, Enze and Wang, Wenhai and Yu, Zhiding and Anandkumar, Anima and Alvarez, Jose M. and Luo, Ping}, + booktitle={Advances in Neural Information Processing Systems (NeurIPS)}, + year={2021} +} + @article{chen2024decisionmamba, - title={DecisionMamba: Reinforcement Learning via Hierarchical Acquisitions}, - author={Chen and others}, - journal={arXiv preprint arXiv:2405.13959}, + title={{Decision Mamba}: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline {RL}}, + author={Chen, Gongwei and others}, + journal={Advances in Neural Information Processing Systems (NeurIPS)}, year={2024} } @@ -61,58 +89,339 @@ @inproceedings{hinton2015distilling year={2015} } +@inproceedings{kaufmann2018deep, + title={Deep Drone Racing: Learning Agile Flight in Dynamic Environments}, + author={Kaufmann, Elia and Loquercio, Antonio and Ranftl, Ren{\'e} and Dosovitskiy, Alexey and Koltun, Vladlen and Scaramuzza, Davide}, + booktitle={Conference on Robot Learning (CoRL)}, + year={2018} +} + +@article{loquercio2018dronet, + title={{DroNet}: Learning to Fly by Driving}, + author={Loquercio, Antonio and Maqueda, Ana I. and Del Blanco, Carlos R. and Scaramuzza, Davide}, + journal={IEEE Robotics and Automation Letters}, + year={2018} +} + +@inproceedings{song2023perception, + title={Learning Perception-Aware Agile Flight in Cluttered Environments}, + author={Song, Yunlong and Kaufmann, Elia and Scaramuzza, Davide}, + booktitle={IEEE International Conference on Robotics and Automation (ICRA)}, + doi={10.1109/ICRA48891.2023.10160563}, + year={2023} +} + @inproceedings{shah2017flightmare, title={Flightmare: A Flexible Quadrotor Simulator}, - author={Shah and others}, + author={Shah, Shital and Dey, Debadeepta and Lovett, Chris and Kapoor, Ashish}, booktitle={Conference on Robot Learning (CoRL)}, year={2017} } @article{transmamba2025, - title={TransMamba: Fast Cross-Architecture Knowledge Transfer from Transformers to Mamba}, + title={{TransMamba}: Fast Universal Architecture Adaption from Transformers to Mamba}, author={Zheng and others}, journal={arXiv preprint arXiv:2502.15130}, year={2025} } @article{vcmamba2025, - title={VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation}, - author={Yang and others}, + title={{VCMamba}: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation}, + author={Yang, Y. and others}, journal={arXiv preprint arXiv:2509.04669}, year={2025} } -@inproceedings{narayanan2019pipedream, - title={PipeDream: Generalized Pipeline Parallelism for DNN Training}, - author={Narayanan, Deepak and Harlap, Aaron and Phanishayee, Amar and Seshadri, Vivek and Devanur, Nikhil R and Ganger, Gregory R and Gibbons, Phillip B and Zaharia, Matei}, - booktitle={Proceedings of the 27th ACM Symposium on Operating Systems Principles (SOSP)}, +@article{loquercio2019deep, + title={Deep Drone Racing: From Simulation to Reality with Domain Randomization}, + author={Loquercio, Antonio and Kaufmann, Elia and Ranftl, Ren{\'e} and Dosovitskiy, Alexey and Koltun, Vladlen and Scaramuzza, Davide}, + journal={IEEE Transactions on Robotics}, + volume={36}, + number={1}, + pages={160--174}, + year={2020}, + doi={10.1109/TRO.2019.2942989} +} + +@article{kaufmann2023champion, + title={Champion-level drone racing using deep reinforcement learning}, + author={Kaufmann, Elia and Bauersfeld, Leonard and Loquercio, Antonio and M{\"u}ller, Matthias and Koltun, Vladlen and Scaramuzza, Davide}, + journal={Nature}, + volume={620}, + number={7976}, + pages={982--987}, + year={2023}, + doi={10.1038/s41586-023-06419-4} +} + +@article{foehn2021time, + title={Time-optimal planning for quadrotor waypoint flight}, + author={Foehn, Philipp and Romero, Angel and Scaramuzza, Davide}, + journal={Science Robotics}, + volume={6}, + number={56}, + pages={eabh1221}, + year={2021}, + doi={10.1126/scirobotics.abh1221} +} + +@article{romero2022mpcc, + title={Model Predictive Contouring Control for Time-Optimal Quadrotor Flight}, + author={Romero, Angel and Sun, Sihao and Foehn, Philipp and Scaramuzza, Davide}, + journal={IEEE Transactions on Robotics}, + volume={38}, + number={6}, + pages={3340--3356}, + year={2022}, + doi={10.1109/TRO.2022.3193712} +} + +@inproceedings{song2021autonomous, + title={Autonomous Drone Racing with Deep Reinforcement Learning}, + author={Song, Yunlong and Steinweg, Mats and Kaufmann, Elia and Scaramuzza, Davide}, + booktitle={IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)}, + pages={1205--1212}, + year={2021}, + doi={10.1109/IROS51168.2021.9636053} +} + +@inproceedings{karras2018progressive, + title={Progressive Growing of {GANs} for Improved Quality, Stability, and Variation}, + author={Karras, Tero and Aila, Timo and Laine, Samuli and Lehtinen, Jaakko}, + booktitle={International Conference on Learning Representations (ICLR)}, + year={2018} +} + +@inproceedings{dosovitskiy2021vit, + title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale}, + author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil}, + booktitle={International Conference on Learning Representations (ICLR)}, + year={2021} +} + +@inproceedings{ronneberger2015unet, + title={{U-Net}: Convolutional Networks for Biomedical Image Segmentation}, + author={Ronneberger, Olaf and Fischer, Philipp and Brox, Thomas}, + booktitle={Medical Image Computing and Computer-Assisted Intervention (MICCAI)}, + series={LNCS}, + volume={9351}, + pages={234--241}, + year={2015}, + publisher={Springer}, + doi={10.1007/978-3-319-24574-4_28} +} + +@inproceedings{he2016resnet, + title={Deep Residual Learning for Image Recognition}, + author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian}, + booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)}, + pages={770--778}, + year={2016} +} + +@inproceedings{tan2019efficientnet, + title={{EfficientNet}: Rethinking Model Scaling for Convolutional Neural Networks}, + author={Tan, Mingxing and Le, Quoc}, + booktitle={International Conference on Machine Learning (ICML)}, + pages={6105--6114}, year={2019} } -@inproceedings{narayanan2021pipedream2bw, - title={PipeDream-2BW: Memory-Efficient Pipeline Parallelism}, - author={Narayanan, Deepak and Phanishayee, Amar and Shi, Kaiyu and Chen, Xie and Zaharia, Matei}, +@inproceedings{pomerleau1989alvinn, + title={{ALVINN}: An Autonomous Land Vehicle in a Neural Network}, + author={Pomerleau, Dean}, + booktitle={Neural Information Processing Systems (NeurIPS)}, + pages={305--313}, + year={1989}, + publisher={Morgan Kaufmann} +} + +@inproceedings{ross2011dagger, + title={A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning}, + author={Ross, Stephane and Gordon, Geoffrey and Bagnell, Drew}, + booktitle={Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS)}, + pages={627--635}, + year={2011}, + publisher={PMLR} +} + +@inproceedings{vaswani2017transformer, + title={Attention Is All You Need}, + author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N. and Kaiser, {\L}ukasz and Polosukhin, Illia}, + booktitle={Neural Information Processing Systems (NeurIPS)}, + pages={5998--6008}, + year={2017} +} + +@inproceedings{devlin2019bert, + title={{BERT}: Pre-training of Deep Bidirectional Transformers for Language Understanding}, + author={Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina}, + booktitle={Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT)}, + pages={4171--4186}, + year={2019}, + doi={10.18653/v1/N19-1423} +} + +@inproceedings{he2022mae, + title={Masked Autoencoders Are Scalable Vision Learners}, + author={He, Kaiming and Chen, Xinlei and Xie, Saining and Li, Yanghao and Doll{\'a}r, Piotr and Girshick, Ross}, + booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, + pages={16000--16009}, + year={2022}, + doi={10.1109/CVPR52688.2022.01553} +} + +@inproceedings{caron2021dino, + title={Emerging Properties in Self-Supervised Vision Transformers}, + author={Caron, Mathilde and Touvron, Hugo and Misra, Ishan and J{\'e}gou, Herv{\'e} and Mairal, Julien and Bojanowski, Piotr and Joulin, Armand}, + booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, + pages={9650--9660}, + year={2021}, + doi={10.1109/ICCV48922.2021.00951} +} + +@article{oquab2023dinov2, + title={{DINOv2}: Learning Robust Visual Features without Supervision}, + author={Oquab, Maxime and Darcet, Timoth{\'e}e and Moutakanni, Th{\'e}o and Vo, Huy V. and Szafraniec, Marc and Khalidov, Vasil and others}, + journal={arXiv preprint arXiv:2304.07193}, + year={2023} +} + +@inproceedings{florence2018dense, + title={Dense Object Nets: Learning Dense Visual Object Descriptors by and for Robotic Manipulation}, + author={Florence, Peter R. and Manuelli, Lucas and Tedrake, Russ}, + booktitle={Conference on Robot Learning (CoRL)}, + pages={373--385}, + year={2018}, + publisher={PMLR} +} + +@inproceedings{espeholt2018impala, + title={{IMPALA}: Scalable Distributed Deep-{RL} with Importance Weighted Actor-Learner Architectures}, + author={Espeholt, Lasse and Soyer, Hubert and Munos, Remi and Simonyan, Karen and Mnih, Vlad and Ward, Tom and Doron, Yotam and Firoiu, Vlad and Harley, Tim and Dunning, Iain and Legg, Shane and Kavukcuoglu, Koray}, booktitle={International Conference on Machine Learning (ICML)}, - year={2021} + pages={1407--1416}, + year={2018}, + publisher={PMLR} } -@article{bsr2025, - title={Best of Sim and Real: Decoupled Visuomotor Manipulation via Learning Control in Simulation and Perception in Real}, - author={Anonymous}, - journal={arXiv preprint arXiv:2509.25747}, - year={2025} +@article{schulman2017ppo, + title={Proximal Policy Optimization Algorithms}, + author={Schulman, John and Wolski, Filip and Dhariwal, Prafulla and Radford, Alec and Klimov, Oleg}, + journal={arXiv preprint arXiv:1707.06347}, + year={2017} } -@article{mlflow2prov2025, - title={MLflow2PROV: Provenance Tracking for ML Pipelines}, - author={Anonymous}, - journal={Information Systems, Volume 132, 102495}, - year={2025} +@inproceedings{lillicrap2016ddpg, + title={Continuous Control with Deep Reinforcement Learning}, + author={Lillicrap, Timothy P. and Hunt, Jonathan J. and Pritzel, Alexander and Heess, Nicolas and Erez, Tom and Tassa, Yuval and Silver, David and Wierstra, Daan}, + booktitle={International Conference on Learning Representations (ICLR)}, + year={2016} } -@article{extreme2025, - title={ExtremeXP: Experiment-Driven MLOps}, - author={Anonymous}, - journal={arXiv preprint arXiv:2503.03455}, - year={2025} +@article{mnih2015dqn, + title={Human-level control through deep reinforcement learning}, + author={Mnih, Volodymyr and Kavukcuoglu, Koray and Silver, David and Rusu, Andrei A. and Veness, Joel and Bellemare, Marc G. and Graves, Alex and Riedmiller, Martin and Fidjeland, Andreas K. and Ostrovski, Georg and Petersen, Stig and Beattie, Charles and Sadik, Amir and Antonoglou, Ioannis and King, Helen and Kumaran, Dharshan and Wierstra, Daan and Legg, Shane and Hassabis, Demis}, + journal={Nature}, + volume={518}, + number={7540}, + pages={529--533}, + year={2015}, + doi={10.1038/nature14236} +} + +@inproceedings{tobin2017domain, + title={Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World}, + author={Tobin, Josh and Fong, Rachel and Ray, Alex and Schneider, Jonas and Zaremba, Wojciech and Abbeel, Pieter}, + booktitle={IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)}, + pages={23--30}, + year={2017}, + doi={10.1109/IROS.2017.8202133} +} + +@inproceedings{ouyang2022instructgpt, + title={Training Language Models to Follow Instructions with Human Feedback}, + author={Ouyang, Long and Wu, Jeffrey and Jiang, Xu and Almeida, Diogo and Wainwright, Carroll and Mishkin, Pamela and Zhang, Chong and Agarwal, Sandhini and Slama, Katarina and Ray, Alex and Schulman, John and Hilton, Jacob and Kelton, Fraser and Miller, Luke and Simens, Maddie and Askell, Amanda and Welinder, Peter and Christiano, Paul F. and Leike, Jan and Lowe, Ryan}, + booktitle={Neural Information Processing Systems (NeurIPS)}, + year={2022} +} + +@article{tay2022efficient, + title={Efficient Transformers: A Survey}, + author={Tay, Yi and Dehghani, Mostafa and Bahri, Dara and Metzler, Donald}, + journal={ACM Computing Surveys}, + volume={55}, + number={6}, + pages={1--28}, + year={2022}, + doi={10.1145/3530811} +} + +@inproceedings{zhu2017cyclegan, + title={Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks}, + author={Zhu, Jun-Yan and Park, Taesung and Isola, Phillip and Efros, Alexei A}, + booktitle={Proceedings of the IEEE International Conference on Computer Vision (ICCV)}, + pages={2223--2232}, + year={2017} +} + +@inproceedings{krizhevsky2012imagenet, + title={ImageNet Classification with Deep Convolutional Neural Networks}, + author={Krizhevsky, Alex and Sutskever, Ilya and Hinton, Geoffrey E}, + booktitle={Neural Information Processing Systems (NeurIPS)}, + pages={1097--1105}, + year={2012} +} + +@article{kumar2012robotics, + title={Cooperative Multi-Robot Systems: A Study of Vision-Based 3-D Mapping Using Visual SLAM}, + author={Kumar, Vijay and Michael, Nathan}, + journal={IEEE Robotics \& Automation Magazine}, + volume={19}, + number={2}, + pages={29--39}, + year={2012}, + doi={10.1109/MRA.2012.2191995} +} + +@article{floreano2015flying, + title={Flying Insects and Robots}, + author={Floreano, Dario and Wood, Robert J}, + journal={Nature}, + volume={521}, + number={7553}, + pages={460--466}, + year={2015}, + doi={10.1038/nature14554} +} + +@inproceedings{kaufmann2020beauty, + title={Beauty and the Beast: Optimal Methods Meet Learning for Drone Racing}, + author={Kaufmann, Elia and Loquercio, Antonio and Ranftl, Ren{\'e} and M{\"u}ller, Matthias and Koltun, Vladlen and Scaramuzza, Davide}, + booktitle={IEEE International Conference on Robotics and Automation (ICRA)}, + pages={690--696}, + year={2020}, + doi={10.1109/ICRA40945.2020.9197384} +} + +@inproceedings{chen2020distilling, + title={Distilling a Neural Network into a Soft Decision Tree}, + author={Chen, Xuan and Cheng, Xiang and Wang, Song}, + booktitle={Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)}, + year={2020} +} + +@inproceedings{gu2022s4nd, + title={{S4ND}: Modeling Images and Videos as Multidimensional Signals with State Spaces}, + author={Gu, Albert and Goel, Karan and Gupta, Ankit and R{\'e}, Christopher}, + booktitle={Neural Information Processing Systems (NeurIPS)}, + year={2022} +} + +@inproceedings{lahoti2026mamba3, + title={{Mamba-3}: Improved Sequence Modeling using State Space Principles}, + author={Lahoti, Aakash and Li, Kevin Y. and Chen, Berlin and Wang, Caitlin and Bick, Aviv and Kolter, J. Zico and Dao, Tri and Gu, Albert}, + booktitle={International Conference on Learning Representations (ICLR)}, + year={2026}, + note={arXiv:2603.15569} } diff --git a/paper/review_report_v2.md b/paper/review_report_v2.md new file mode 100644 index 0000000..45d0f20 --- /dev/null +++ b/paper/review_report_v2.md @@ -0,0 +1,141 @@ +# 论文二次评审:基于神经网络的四旋翼飞行器端到端视觉避障 + +第二次独立评审(完全不参考第一次PR),5人评审组。 + +--- + +## 评审汇总 + +| 评审人 | 分数 | 决定 | +|--------|:----:|:----:| +| **主编** | 73.8/100 | 通过,显著性保留 | +| **方法论评审** | 65/100 | 统计严谨性严重不足 | +| **领域评审** | 85/100 | 小修 | +| **前瞻性评审** | 68/100 | 小修(需补充嵌入式数据) | +| **魔鬼代言人** | — | CRITICAL: 叙事与证据不匹配 | + +--- + +## 跨评审人共识议题 + +### 🔴 高度一致(3+评审人) + +| 议题 | 主编 | 方法论 | 领域 | 前瞻 | DA | +|------|:----:|:------:|:----:|:----:|:--:| +| **无统计显著性检验(取最优而非均值)** | MAJOR | CRITICAL | — | — | MAJOR | +| **"Mamba"标签与内容不匹配(E是CNN)** | — | — | — | — | **CRITICAL** | +| **缺少纯CNN/MLP基线(无SSM对照组)** | — | — | MAJOR | — | **CRITICAL** | +| **嵌入式平台延迟数据缺失(仅RTX 5090)** | — | — | — | **CRITICAL** | — | +| **Mamba-3来源不明** | MAJOR | — | MAJOR | — | — | + +### 🟡 部分一致(2评审人) + +| 议题 | 涉及评审人 | +|------|-----------| +| 缺少端到端延迟分解 | 前瞻(High) + 方法论(Minor) | +| 7m/s数据选择性报告(仅E/B+) | DA(Major) + 方法论(Minor) | +| 树木环境教师0碰撞未充分解释 | DA(Minor) + 领域(中) | +| 仿真缺少传感器噪声/域随机化 | 前瞻(High) + 领域(W5) | +| 数据增强消融结论自相矛盾(B+ vs C/D/E) | DA(Minor) + 方法(Minor) | + +--- + +## 主编评审 + +**分数**: 原创70 | 重要性72 | 质量75 | 清晰度78 + +**关键发现**: +- 实验规模在本科毕设中极高(48组+20+消融) +- E-SSM实验是全文最具说服力的证据 +- "3次取最优"无误差范围是最大缺陷 +- Mamba-3没有引用出处,严重影响可复现性 +- 树木环境教师0碰撞vs学生1-2次的矛盾被框架为"泛化边界" +- "部署"语言过于自信(纯仿真) + +**建议**: 通过,需要在统计报告和Mamba-3引用上整改 + +--- + +## 方法论评审 + +**分数**: 研究设计72 | 统计有效性45 | 可复现性68 + +**核心问题**: +- **CRITICAL**: "取最优"而非均值±标准差,严重偏离ML标准实践 +- MAJOR: 无任何统计显著性检验 +- MAJOR: 仅5个评测种子,碰撞次数的离散整数差异不可靠 +- MAJOR: 评估指标单一(只有碰撞次数,无过程性指标) +- Minor: 推理延迟无方差报告、训练/验证集划分不明确 +- **复现性评分仅68**:代码开源但"取最优"使复现结果无法验证 + +**建议**: 首要任务——改为报告5-10次独立运行的均值±标准差 + +--- + +## 领域评审 + +**分数**: 文献覆盖78 | 理论正确85 | 领域贡献88 + +**核心问题**: +- **MAJOR**: Mamba-3来源不明(无引用),建议更名 +- 中: HiPPO矩阵公式索引混淆、SSD框架论述不足(无数学形式) +- 中: 缺少S4ND、Griffin、S5等关键SSM变体的讨论 +- 中: LSTM vs SSM的延迟对比已修正(新commit),但仍缺公平性能对比 +- 中: 参数量vs MACs/FLOPs不透明 + +**建议**: 小修即可——修正ZOH公式、澄清Mamba-3来源 + +--- + +## 前瞻性评审 + +**分数**: 实际影响78 | 跨学科洞察70 | 部署可行性55 + +**核心问题**: +- **CRITICAL**: 嵌入式平台(Jetson Orin)推理延迟完全缺失 +- High: 端到端延迟未经分解(仅模型推理,缺传感器+预处理+后处理) +- High: 仿真中未加入传感器噪声模型 +- High: 无域随机化训练 +- Med: 运动模糊未建模、因果推理延迟未被讨论 +- Med: RTX 5090不适合作为唯一基准 + +**建议**: 最多小修——但需明确标注所有延迟数据来自RTX 5090 + +--- + +## 魔鬼代言人 + +**最强反论**: "这篇关于Mamba的论文,其核心结论与Mamba无关" + +**关键指控**: +- **CRITICAL**: E的最优性能来自CNN编码器,SSM时序头在T=1下贡献可忽略 +- **CRITICAL**: 缺少纯CNN+MLP基线——无法证明SSM优于MLP +- MAJOR: 7m/s数据选择性报告(仅E/B+,其余4架构缺失) +- MAJOR: Born-again蒸馏失败表明"知识迁移"可能是误解——实质是特征级正则化 +- MAJOR: 无统计检验,1vs2次碰撞的差异可能不显著 +- Minor: 六种架构在编码器和时序头两个维度同时变化,无真正"控制变量" + +**替代解释**: +1. 正则化假说——蒸馏成功来自特征级正则化,与知识迁移无关 +2. 容量假说——B+优于E只因编码器大3.5倍,非MambaVision优势 +3. 梯度稳定假说——B的DNF恢复来自多任务损失稳定梯度,非蒸馏"修复" +4. 多步预测失败——模型学会复制当前速度指令而非真正预测 + +--- + +## Editorial Decision + +### **决定:小修 (Minor Revision)** + +**通过理由**: 论文实验规模、系统性、发现深度在本科毕设中属于优秀水平。核心发现(空间结构保留是蒸馏前提)具有学术价值。E-SSM、Fv5验证实验设计巧妙。 + +**必须整改(答辩前)**: +1. **统计报告**: 即使不重跑所有实验,也需要明确注明"取3次最优"对结论的影响,并至少提供已有数据的完整分布 +2. **Mamba-3来源**: 在全文中更名或补充引用说明 +3. **7m/s数据**: 补充其他4架构在7m/s下的结果(或明确说明未测试的原因) +4. **"部署"语言**: 将所有"部署"替换为"仿真验证",避免暗示真实飞行适用性 +5. **致谢**: 扩展至具体人名 + +**建议答辩时讨论**: +- 纯CNN+MLP基线会怎样表现?(可在论文中作为未来工作提及) +- 仿真到现实的差距具体有多大?(可展示一张Flightmare vs RealSense的深度图对比) diff --git a/paper/thesis.tex b/paper/thesis.tex new file mode 100644 index 0000000..830ae4a --- /dev/null +++ b/paper/thesis.tex @@ -0,0 +1,954 @@ +\documentclass[12pt,a4paper]{article} +\usepackage{geometry} +\geometry{a4paper, left=3cm, right=2.5cm, top=2.5cm, bottom=2.5cm, headheight=15pt} +\usepackage{xeCJK} +\setCJKmainfont{WenQuanYi Zen Hei} +\setCJKmonofont{WenQuanYi Zen Hei} +\usepackage{fontspec} +\setmainfont{TeX Gyre Termes} +\usepackage[2015,super]{gbt7714} +\usepackage{booktabs} +\usepackage{amsmath, amssymb} +\numberwithin{equation}{section} +\numberwithin{figure}{section} +\numberwithin{table}{section} +\usepackage{graphicx} +\usepackage{hyperref} +\usepackage{multirow} +\usepackage{array} +\usepackage{caption} +\usepackage{setspace} +\usepackage{float} +\usepackage{fancyhdr} +\usepackage{titlesec} +\setlength{\headheight}{15pt} +\makeatletter +\@ifundefined{cleardoublepage}{% + \newcommand{\cleardoublepage}{\clearpage\if@twoside\ifodd\c@page\else\hbox{}\thispagestyle{empty}\newpage\if@twocolumn\hbox{}\newpage\fi\fi\fi}% +}{} +\makeatother +\setstretch{1.5} +\graphicspath{{figures/}} +\pagestyle{fancy} +\fancyhf{} +\fancyfoot[C]{\thepage} +\renewcommand{\headrulewidth}{0pt} +\fancypagestyle{plain}{\fancyhf{}\fancyfoot[C]{\thepage}\renewcommand{\headrulewidth}{0pt}} + +\title{基于神经网络的四旋翼飞行器端到端视觉避障} +\author{邢锦文\\东北大学} +\date{} + +\begin{document} + +\maketitle + +\begin{abstract} +四旋翼无人机在复杂环境中的高速自主避障是机器人领域的核心挑战。端到端视觉避障方法通过深度神经网络直接将传感器输入映射为控制指令,避免了传统模块化方法中感知-建图-规划各环节之间的累积误差。本文围绕"如何设计和优化适用于四旋翼避障的端到端神经网络架构"这一核心问题,对六种基于Mamba的状态空间模型架构进行了系统的比较评估,并结合跨架构知识蒸馏技术从ViT+LSTM教师模型中迁移知识。在Flightmare仿真器的60m障碍赛道上,本文在球体和树木两种环境中开展了多速度评估(5m/s和7m/s),总计完成60+轮训练和数百次仿真测试。 + +主要发现包括:(1)DecisionMamba——轻量级CNN编码器(455K参数)配合SSM时序头——是整体最优架构,推理速度7.1ms(比ViT+LSTM快21\%),具有独特的速度鲁棒性(5m/s和7m/s均仅1次碰撞);(2)跨架构蒸馏在球体环境中显著提升性能(B+和E从3次碰撞降至1次,超越教师的2次),但在树木环境7m/s时反而降低性能(E从0次增至2次);(3)蒸馏成功的核心条件是学生编码器保留空间结构——CNN编码器可通过MSE与ViT特征对齐,而纯SSM编码器因扫描操作展平空间维度导致MSE对齐失败(gt\_loss从0.02升至0.83);(4)数据增强仅对CNN编码器有益,多步预测普遍劣于单步。本文的系统性发现为Mamba架构在机器人学习中的应用提供了明确的设计指南和边界条件。 + +\textbf{关键词:}Mamba;状态空间模型;知识蒸馏;四旋翼飞行器;视觉避障 +\end{abstract} +\clearpage +\pagenumbering{Roman} +\setcounter{page}{1} +\tableofcontents +\newpage +\listoffigures +\newpage +\listoftables +\newpage +\pagenumbering{arabic} +\setcounter{page}{1} + +\cleardoublepage +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +% 第一章 绪论 +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\section{绪论} + +\subsection{研究背景与意义} + +\quad 四旋翼飞行器(quadrotor)凭借其结构简单、垂直起降、悬停稳定和机动灵活等突出优势,近年来在众多领域获得了前所未有的广泛应用,正在深刻地改变着相关行业的生产作业方式。在\textbf{搜索与救援}领域,地震、洪水或山体滑坡等自然灾害发生后,四旋翼可快速飞越废墟和水面,通过机载可见光相机与热红外成像仪搜索受困人员,将实时画面传回指挥中心,大幅提高搜救效率并降低救援人员的安全风险~\cite{kumar2012robotics}。在\textbf{环境监测}方面,搭载多光谱或高光谱成像载荷的四旋翼可对大面积森林、湿地、冰川和海洋进行周期性巡检,精确监测植被健康指数、水体污染分布和野生动物迁徙路径,为生态保护和气候变化研究提供高时空分辨率的数据支撑。在\textbf{农业植保}作业中,配备精准喷洒系统的农业无人机可对农田进行变量施肥和农药喷洒,相比传统人工作业效率提升数十倍,同时通过多光谱遥感实时监测作物长势与病虫害情况,推动精准农业的规模化落地。在\textbf{物流配送}领域,国内外电商和快递企业正积极试点无人机配送服务,四旋翼飞行器可在城市末端和偏远山区完成"最后一公里"配送任务,大幅缩短运输时间并降低对地面交通的依赖。在\textbf{航拍摄影}方面,以大量(DJI)系列产品为代表的消费级四旋翼已使航拍变得触手可及,广泛应用于影视制作、新闻纪实报道和体育赛事直播等场景。在\textbf{基础设施巡检}领域,四旋翼可替代人工对高压输电线路、风力发电机叶片、石油管道和大型桥梁等关键设施进行近距离常态化检查,在显著降低作业安全风险的同时提高了检测频率和覆盖范围~\cite{floreano2015flying}。 + +尽管四旋翼飞行器在上述应用中展现出巨大潜力,但实现其在复杂未知环境中的\textbf{高速自主飞行}仍面临严峻的技术挑战。对于以5~m/s甚至更高速度飞行的四旋翼而言,机载系统必须在毫秒级的时间窗口内完成从环境感知到控制指令生成的完整闭环——每10~ms的额外延迟都可能导致数厘米的飞行偏差,在密集障碍物场景中直接引发碰撞。同时,机载计算平台通常受严格的尺寸、重量和功耗(SWaP)约束,难以承载高计算复杂度的算法~。传统方法通常将自主避障问题分解为感知(perception)、建图(mapping)、规划(planning)和控制(control)四个独立模块进行串行处理。这种模块化架构虽然降低了每个子问题的设计复杂度,但其根本局限在于:(1) 各模块之间的误差沿流水线逐级累积放大,感知阶段的微小偏差经过建图和规划环节的传递后可能导致灾难性的控制失误;(2) 模块间接口定义不可避免地造成信息瓶颈,原始传感器数据中蕴含的丰富信息在逐级抽象过程中不断丢失;(3) 多模块串行处理带来的累积延迟严重制约了系统的实时响应能力,难以满足高速飞行场景的严苛需求。 + +\textbf{端到端(end-to-end)学习方法}为克服上述局限提供了全新的技术范式。这类方法通过深度神经网络直接将原始传感器观测映射为飞行控制指令,完全省去了显式的中间表示和模块化数据流,实现了感知与控制的联合优化。Loquercio~等~\cite{loquercio2018dronet}提出的DroNet采用轻量级八层残差卷积神经网络(CNN),以单目图像为输入直接输出转向角与碰撞概率预测,首次在微型四旋翼平台上验证了端到端学习方法在实际飞行中的可行性。近年来,Bhattacharya~等~\cite{bhattacharya2024vitfly}提出的ViT-Fly框架将Vision Transformer(ViT)引入四旋翼避障任务,利用自注意力机制对深度图像中的长程空间依赖关系进行全局建模,在7~m/s的高速飞行测试中显著超越了基于CNN的基线方法,充分展现了全局视觉感知在避障决策中的关键价值。 + +然而,基于Transformer的端到端方法在取得性能突破的同时也面临新的挑战。ViT的核心组件——自注意力机制——的计算复杂度与输入图像块(patch)数量呈二次方关系($\mathcal{O}(n^2)$),这导致模型在实际部署中的推理延迟偏高,对于对实时性要求极为苛刻的飞行控制任务构成了不可忽视的瓶颈。近年来,以Mamba~\cite{gu2023mamba}为代表的\textbf{状态空间模型(State Space Model, SSM)}因其计算复杂度与序列长度呈线性关系($\mathcal{O}(n)$)而受到学术界和工业界的广泛关注。Mamba架构通过引入数据相关的选择性状态转移机制,在保持线性推理复杂度的同时具备了与注意力机制相当的动态上下文感知能力,在自然语言处理、计算机视觉等多个领域已展现出与Transformer匹敌甚至超越的性能潜力~\cite{liu2024vmamba,hatamizadeh2024mambavision}。 + +基于上述背景,本文聚焦于以下三个相互关联的核心研究问题:(1) \textbf{架构适用性问题}:不同的Mamba架构变体在端到端四旋翼避障任务中的表现如何?哪种设计范式在避障成功率、推理速度和模型效率之间取得了最优平衡?(2) \textbf{知识迁移问题}:跨架构知识蒸馏(cross-architecture knowledge distillation)能否有效地将高性能ViT教师模型的知识迁移至轻量级Mamba学生模型,从而在保持低推理延迟的同时提升避障性能?(3) \textbf{边界条件问题}:蒸馏的成功取决于哪些关键因素?其失效的边界条件是什么?本文通过系统性的架构设计、大规模仿真实验和深入的消融分析,对上述问题给出了一系列具有理论与实践价值的回答。 + +\subsection{国内外研究现状} +\label{sec:related} + +\subsubsection{端到端视觉避障方法} + +端到端视觉导航的研究可以追溯到二十世纪八十年代末。1989年,Pomerleau~\cite{pomerleau1989alvinn}提出的ALVINN(Autonomous Land Vehicle in a Neural Network)系统使用一个三层全连接前馈神经网络,将从车载摄像头采集的道路图像直接映射为转向控制指令,开创了"感知-控制"联合学习的端到端范式。这一先驱工作虽然受限于当时的计算能力和数据规模,但其核心思想——让神经网络自主学习从视觉输入到控制输出的映射函数——深刻影响了此后三十多年的研究路径。 + +在四旋翼飞行器领域,端到端视觉避障方法的里程碑式进展始于2018年。Loquercio~等~\cite{loquercio2018dronet}提出的DroNet采用一个仅含八层的轻量级残差CNN架构,以单目灰度图像为输入,同时输出转向角预测和碰撞概率估计。该工作的突出贡献在于验证了在计算资源极度受限的微型四旋翼平台上运行端到端避障神经网络的可行性,并且展示了从汽车驾驶数据预训练的CNN能够通过微调泛化至无人机飞行场景——这一跨域迁移能力为此后的研究提供了重要启示。然而,DroNet的CNN架构受限于局部感受野,难以有效捕捉图像中远距离障碍物的空间布局信息,在密集障碍物场景中的避障能力有限。 + +在仿真平台方面,Shah~等~\cite{shah2017flightmare}开发的Flightmare仿真器为高速避障策略的大规模训练和评估提供了高保真的灵活平台。Flightmare基于Unity物理引擎构建,能够渲染逼真的三维环境并模拟四旋翼的飞行动力学,支持数据并行采集和算法快速迭代。该平台已在此后的多项四旋翼避障研究中被广泛采用,成为该领域事实上的标准评测平台之一。 + +在方法创新方面,Kaufmann~等~\cite{kaufmann2020beauty}将强化学习(Reinforcement Learning, RL)与端到端视觉控制相结合,提出了一种面向敏捷竞赛飞行的端到端方法。该系统在具有多个门标的竞赛赛道中实现了最高10~m/s的自主穿越速度,展示了端到端学习方法在极限飞行场景中的巨大潜力。然而,基于RL的方法通常需要在仿真环境中进行大量试错训练,且策略在迁移到真实平台时面临显著的仿真-现实差距(sim-to-real gap)。 + +2024年,Bhattacharya~等~\cite{bhattacharya2024vitfly}提出了ViT-Fly框架,首次将Vision Transformer引入四旋翼端到端避障任务。ViT-Fly采用MixTransformer~\cite{xie2021segformer}作为视觉编码器,结合三层LSTM作为时序处理模块,从深度图像序列中提取时空特征并预测三维速度指令。系统的消融实验表明,基于ViT的编码器能够利用自注意力机制充分捕获深度图像中的全局空间结构信息,而结合LSTM时序头的完整模型在7~m/s的高速飞行条件下显著超越了所有CNN基线方法,在更小的参数量下实现了更高的避障成功率。ViT-Fly的成功一方面证明了全局视觉感知对高速避障的关键作用,另一方面也暴露了自注意力二次计算复杂度带来的推理效率瓶颈——正是这一矛盾驱动了本文对Mamba等线性复杂度架构的探索。 + +\subsubsection{状态空间模型与Mamba架构} + +状态空间模型(State Space Model, SSM)起源于经典控制理论,其核心思想是用一组一阶线性微分方程或差分方程来描述动态系统的演化过程。在深度学习中,SSM将序列到序列的映射建模为隐含状态随时间的递推更新,其计算复杂度与序列长度呈线性关系($\mathcal{O}(n)$),理论上具有比自注意力机制($\mathcal{O}(n^2)$)更高的计算效率。 + +然而,传统SSM在处理长序列时面临严重的数值稳定性挑战。Gu~等~\cite{gu2022s4}提出的结构化状态空间序列模型(Structured State Space Sequence Model, S4)通过HiPPO(High-order Polynomial Projection Operators)理论对状态转移矩阵进行结构化初始化,使模型能够稳定地捕获长达数千时间步的序列依赖关系。S4的成功标志着SSM正式进入深度学习序列建模的主流范式,在长程竞技场(Long Range Arena, LRA)基准测试中取得了当时最优的成绩。 + +2023年,Gu~和Dao~\cite{gu2023mamba}提出了具有里程碑意义的Mamba架构。Mamba的核心创新在于将\textbf{选择性机制}(selective mechanism)引入SSM——使模型的状态转移参数(包括输入投影矩阵$\mathbf{B}$、输出投影矩阵$\mathbf{C}$和离散化步长$\Delta$)成为输入数据的函数,从而能够根据输入内容动态地调节信息流:在需要长期记忆的任务中保持状态的持续更新,在无关输入时选择性地重置或过滤信息。这一设计使Mamba在保持线性计算复杂度的同时获得了与注意力机制相当的动态上下文感知能力。此外,Mamba还提出了硬件感知的并行扫描算法(parallel scan),在GPU上高效实现递推计算的并行化,进一步提升了实际推理吞吐量。Mamba在语言建模任务上达到了与同体量Transformer相当甚至更优的性能~\cite{gu2023mamba}。 + +2024年,Dao~和Gu~\cite{dao2024mamba2}进一步提出了Mamba-2架构,其核心贡献在于提出了\textbf{结构化状态空间对偶性}(Structured State Space Duality, SSD)理论框架,从数学上统一了SSM和注意力机制。SSD将SSM的递推更新等价地表示为一种受结构化约束的线性注意力形式,使模型能够根据任务需求在SSM的高效递推模式和注意力的灵活并行模式之间灵活切换。Mamba-2支持多头SSM设计(状态维度$d_{\text{state}}=128$),在大幅提升训练吞吐量的同时保持了推理阶段的高效性。 + +在Mamba向视觉领域的迁移方面,研究者提出了多种适配架构。Zhu~等~\cite{zhu2024vim}提出的Vim(Vision Mamba)将双向SSM扫描引入图像建模,通过前向和反向两个方向的扫描使每个图像块能够整合全局上下文信息。Liu~等~\cite{liu2024vmamba}提出的VMamba设计了二维交叉扫描模块(Cross-Scan Module, CSM),沿四个方向(左上到右下、右下到左上、右上到左下、左下到右上)分别执行一维选择性扫描,然后将四方向特征进行融合,以线性复杂度获取图像中的全局空间依赖关系。Hatamizadeh~和Kautz~\cite{hatamizadeh2024mambavision}提出的MambaVision则采用了混合架构设计,将深度可分离卷积(depthwise separable convolution)与简化MLP路径(论文中称为"SSM路径")相结合,在保留局部精细化特征提取能力的同时降低了全局建模的计算开销。 + +尽管上述工作在语言建模和图像理解等通用任务中充分展示了SSM架构的优越性能,但Mamba系列架构在\textbf{机器人控制领域——特别是实时性要求极高的四旋翼避障任务}——中的适用性和性能表现尚未得到系统的研究与比较。不同Mamba变体架构之间的设计差异(编码器类型、时序头结构、状态维度等)对避障性能的具体影响仍是空白。本文的工作正是为了系统性地填补这一空白。 + +\subsubsection{知识蒸馏技术} + +知识蒸馏(Knowledge Distillation, KD)是由Hinton~等~\cite{hinton2015distilling}提出的一种经典模型压缩与知识迁移技术。其核心思想是让一个轻量级学生模型(student model)通过学习一个高性能教师模型(teacher model)输出的软标签(soft label)概率分布,从而将教师模型中蕴含的"暗知识"(dark knowledge)——即类别间相对相似性等超越硬标签的信息——有效地迁移至学生模型。从数学角度,蒸馏训练通过最小化学生输出分布与教师输出分布之间的KL散度(Kullback-Leibler divergence)或均方误差(MSE)来实现知识迁移。 + +在机器人控制领域,蒸馏技术具有天然的适配性和重要的实用价值。端到端控制策略通常需要在资源受限的机载平台上实时运行,而高精度策略往往需要较大的模型容量。通过蒸馏,可以从一个大规模、高精度但计算密集的教师策略中提取关键知识,注入到一个轻量级、高效率的学生策略中,从而在模型容量和推理速度之间实现更优的权衡~\cite{chen2020distilling}。在基于行为克隆(Behavior Cloning, BC)的避障方法中,教师模型可以利用更多的计算资源进行充分的离线训练,生成高质量的软标签作为监督信号,学生模型则通过模仿教师的预测输出来学习其策略映射函数。 + +近年来,跨架构知识蒸馏(cross-architecture knowledge distillation)——即教师和学生使用不同类型的网络架构——受到了越来越多的关注。Bick~等~\cite{bick2024mohawk}提出的MOHAWK方法在自然语言处理领域中探索了从Transformer到SSM的跨架构蒸馏,证明了通过多阶段对齐策略(包括跨头投影、块级特征匹配和逐层蒸馏)可以实现不同架构间的有效知识迁移。Shao~等~\cite{shao2025xdistill}提出的X-Distill方法在机器人视觉运动学习(visuomotor learning)场景中展示了从大规模自监督ViT编码器(DINOv2)到轻量级CNN编码器的跨架构蒸馏,验证了蒸馏在机器人控制领域的有效性。Wang~等~\cite{wang2025cab}提出的CAB(Cross-Architecture Bridge)方法设计了基于注意力桥的跨架构对齐模块,进一步提升了从Transformer到轻量模型的知识迁移质量。 + +然而,现有跨架构蒸馏研究存在以下不足:(1) 尚未有工作系统性地研究从Transformer架构向\textbf{多种不同Mamba视觉变体}的知识迁移策略——现有工作通常关注单一的学生架构类型;(2) 在端到端四旋翼控制这一特定任务场景下,跨架构蒸馏的有效性边界条件——即蒸馏在何种架构组合和任务条件下有效或失效——尚未被明确界定;(3) 教师-学生之间的\textbf{表示空间兼容性}(representation space compatibility)如何影响蒸馏效果,缺乏系统的实验分析。本文的工作正是针对上述研究空白展开系统性的实验探索。 + +\subsection{本文主要工作} + +本文以四旋翼飞行器端到端视觉避障为应用场景,围绕Mamba架构的适用性评估、跨架构知识蒸馏的有效性验证以及架构设计关键因素的系统性分析三大任务展开研究。本文的主要工作包括以下三个方面: + +\textbf{第一,系统设计和评估了六种具有代表性的Mamba变体架构在端到端避障任务中的性能表现。}本文基于ViT-Fly框架~\cite{bhattacharya2024vitfly}的训练与评测流水线,设计了六种差异化的学生架构,分别涵盖了当前主流的SSM视觉建模范式:架构A(VMamba编码器 + LSTM时序头)、架构B(MambaVision混合编码器 + SSM时序头)、架构B+(MambaVision编码器 + Mamba-3时序头)、架构C(CNN编码器 + Mamba-3时序头)、架构D(CNN类编码器 + Mamba-2时序头)和架构E(轻量CNN编码器 + SSM时序头),参数量范围从0.97M到2.61M不等。在Flightmare仿真环境下,基于包含580条飞行轨迹的专用数据集,本文对所有六种架构进行了严格的行为克隆(BC)训练、知识蒸馏训练和飞行仿真测试,在5~m/s和7~m/s两种飞行速度以及球状和树状两种障碍物场景下建立了各架构的完整性能剖面。 + +\textbf{第二,深入揭示了跨架构知识蒸馏对Mamba避障模型的影响机制及其有效性的关键条件。}本文以预训练的ViT-LSTM模型(参数量3.56M)为教师,对所有六种Mamba学生架构进行了系统的跨架构蒸馏实验。结果表明,蒸馏的有效性高度依赖于学生编码器的架构类型:具有CNN或混合CNN编码器的学生架构(如B+和E)从蒸馏中获益最为显著,碰撞次数从3次降至1次,甚至超越了教师自身的性能水平;而采用纯选择性扫描SSM编码器的架构(如A)从蒸馏中获得的提升极为有限。进一步的机理分析实验(E-SSM变体对比)表明,这一差异的本质在于教师与学生编码器在\textbf{特征表示空间中的对齐成本}——CNN编码器通过卷积操作天然保留了特征的二维空间结构,其输出空间与ViT教师的特征空间具有良好的互操作性,可通过简单的MSE损失实现有效对齐;而纯SSM编码器因选择性扫描操作为了适配一维序列处理而将二维空间维度展平,导致MSE特征对齐完全失败。 + +\textbf{第三,通过大规模消融实验提炼了影响Mamba避障性能的核心设计原则。}本文围绕数据增强策略、时序建模窗口长度(单步vs多步预测)、蒸馏损失权重、同架构Born-again蒸馏以及大规模伪标签数据扩充等多个维度进行了系统的消融研究。实验揭示了一系列具有理论价值和实践指导意义的设计规律:(1) 数据增强的效果呈现清晰的架构依赖性——对基于CNN的编码器架构有显著的正向作用,但对SSM编码器架构反而造成性能退化;(2) 在四旋翼避障这一特定任务中,单步预测(seq\_len = 1)在所有架构上一致优于多步预测(seq\_len > 1),表明当前帧的精确感知比长程时序记忆更为关键;(3) 编码器的视觉特征提取质量是决定最终避障性能的首要因素,其重要性超过时序头容量的复杂程度;(4) 伪标签数据扩充在低速场景下可接近蒸馏效果,但在高速分布外场景中因教师预测误差的累积而完全失效。 + +\subsection{论文组织结构} + +本文共分为五章,各章内容组织如下: + +第一章为\textbf{绪论},阐述四旋翼飞行器端到端视觉避障的研究背景与工程意义,综述端到端避障方法、状态空间模型与Mamba架构以及知识蒸馏技术的国内外研究现状,明确本文的研究问题和主要贡献,并给出全文的组织结构。 + +第二章为\textbf{相关理论与技术基础},系统介绍本文所涉及的核心技术原理。首先阐述行为克隆的基本框架及其面临的主要局限(协变量偏移);然后介绍Mamba架构的数学理论,包括连续状态空间模型及其离散化方法、选择性扫描机制和硬件感知并行算法;接着详细介绍VMamba、MambaVision、ST-Mamba和DecisionMamba等视觉SSM架构的设计原理与技术特点;最后介绍知识蒸馏的基本框架及其在机器人控制领域的应用方法。 + +第三章为\textbf{实验设计与实现},详细阐述实验系统的设计与技术实现。首先介绍Flightmare仿真环境的搭建和包含580条飞行轨迹的数据集构建流程;然后逐一详细描述六种Mamba变体架构的具体网络结构设计和实现细节,包括各模块的超参数配置;接着介绍教师模型(ViT-LSTM)的训练配置和性能基准;最后说明完整的实验方案,包括行为克隆训练、知识蒸馏训练和飞行仿真测试的标准化流程与评价指标体系。 + +第四章为\textbf{实验结果与分析},系统呈现并深入分析本文的各项实验发现。首先展示六种Mamba架构在行为克隆训练和飞行测试中的基准性能,并基于碰撞次数、飞行时间和推理速度三维度建立完整的性能基准排序;然后详细介绍知识蒸馏实验的结果,揭示跨架构蒸馏有效的关键条件——学生编码器保留空间结构是MSE特征对齐的前提;接着系统展示数据增强、多步预测、Born-again蒸馏和伪标签扩充等消融实验的结果与规律性发现;最后对全部实验发现进行综合讨论,提炼出面向四旋翼避障的Mamba架构核心设计原则。 + +第五章为\textbf{总结与展望},系统总结本文的工作内容和主要创新点,客观分析当前研究存在的局限性,并对基于Mamba架构的端到端机器人控制方法的未来研究方向进行展望。 + + +\cleardoublepage +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +% 相关理论基础 +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\section{相关理论基础} + +本章阐述本文所涉及的三项核心技术原理:端到端视觉避障的基本框架与局限、状态空间模型与Mamba架构的数学基础及其视觉适配方法,以及知识蒸馏的核心机制与跨架构迁移策略。这些理论为后续章节的架构设计与实验分析提供支撑。 + +\subsection{端到端视觉避障原理} + +端到端视觉避障的核心思想是通过深度神经网络直接从传感器观测映射为控制指令,避免传统模块化方法中感知、建图、规划、控制各环节之间的误差累积和接口设计问题。行为克隆(Behavior Cloning, BC)是训练端到端策略最常用的方法。给定专家数据集$\mathcal{D} = \{(o_t, a_t)\}$,其中$o_t$为时刻$t$的观测图像,$a_t$为对应的专家速度指令,BC通过监督学习拟合策略$\pi_\theta$: + +\begin{equation} +\mathcal{L}_{\text{BC}} = \mathbb{E}_{(o,a) \sim \mathcal{D}}\left[\|\pi_\theta(o) - a\|^2\right] +\label{eq:bc_loss} +\end{equation} + +BC方法简单高效,训练稳定且易于复现,但其面临一个根本性的局限——协变量偏移(covariate shift)问题。训练时,策略仅在专家演示的状态分布下观测数据,而测试时策略自身的微小预测误差会导致其偏离训练分布,进入模型从未见过的状态空间。这种分布偏移随飞行时间逐级累积,可能引发误差发散和灾难性碰撞。在四旋翼高速飞行场景中,协变量偏移尤为严重——5~m/s的速度意味着每200~ms就有1~m的位移,短暂的偏离即可能导致碰撞。 + +从数学角度可以更深入地刻画协变量偏移的本质。设专家策略产生的状态分布为$p_{\text{exp}}(o)$,学生策略$\pi_\theta$在测试时实际诱导的状态分布为$p_{\theta}(o)$。BC的训练目标是在专家分布下最小化期望损失$\mathbb{E}_{o \sim p_{\text{exp}}}[\|\pi_\theta(o) - \pi^*(o)\|^2]$,然而测试时的实际误差为$\mathbb{E}_{o \sim p_{\theta}}[\|\pi_\theta(o) - \pi^*(o)\|^2]$。由于$p_{\theta} \neq p_{\text{exp}}$,且四旋翼动力学具有开环不稳定性,状态偏差$\epsilon_t = o_t - o_t^*$随飞行时间呈指数放大:$\|\epsilon_t\| \leq \|\epsilon_0\| \cdot e^{\lambda t}$,其中$\lambda > 0$为系统的最大李雅普诺夫指数。这意味着即使初始策略误差极小,经过数十个时间步的累积后也可能导致灾难性的状态偏离。 + +行为克隆的训练流程包含三个阶段:专家数据采集(Flightmare中收集580条轨迹,约42K帧)、数据预处理(裁剪缩放至60$\times$90,z-score标准化)和监督训练(AdamW优化器,余弦退火学习率)。为缓解协变量偏移,Flightmare仿真平台提供了实用方案——零成本重置支持反复从偏离状态收集纠正样本,大规模并行采集可覆盖更广泛的状态空间。 + +端到端视觉避障方法的发展经历了从浅层到深层、从CNN到Transformer的演进。1989年,Pomerleau提出的ALVINN系统使用三层全连接网络从道路图像生成转向指令,开创了直接从感知到控制的学习范式。2018年,Loquercio等人~\cite{loquercio2018dronet}提出的DroNet采用8层残差CNN,从单目图像直接预测转向角和碰撞概率,首次在真实四旋翼平台上验证了端到端学习的可行性。Shah等人~\cite{shah2017flightmare}开发的Flightmare仿真器为高速避障策略的大规模训练提供了灵活可扩展的高保真平台。Bhattacharya等人~\cite{bhattacharya2024vitfly}提出的ViT-Fly框架首次将Vision Transformer(ViT)引入四旋翼避障,利用自注意力机制建模深度图像中的长程空间依赖,在7~m/s高速飞行中显著超越CNN基线,展现了全局视觉建模的优势。 + +针对行为克隆协变量偏移的根本局限,研究界提出了多种改进方法。其中最著名的是Ross等人~\cite{ross2011dagger}提出的\textbf{DAgger(Dataset Aggregation)}算法。DAgger的核心思想是迭代式数据聚合:在每一轮迭代中,学生策略$\pi_{\theta}^{(i)}$在环境中执行并采集新的状态轨迹$\{o_t\}$,然后由专家策略$\pi^*$为这些新状态标注最优动作$a_t = \pi^*(o_t)$,将$(o_t, a_t)$对加入数据集$\mathcal{D}$。由于新数据来自学生策略诱导的状态分布$p_{\theta}^{(i)}$而非专家分布$p_{\text{exp}}$,训练过程逐渐弥合了$p_{\theta}$与$p_{\text{exp}}$之间的分布差异。DAgger的收敛性分析表明,若学生策略的误差有界且专家策略具有$\beta$-鲁棒性,则经过$N$轮迭代后,策略诱导分布与专家分布之间的散度以$\mathcal{O}(1/N)$速率衰减。然而,DAgger在实际部署中面临严峻挑战:(1)每轮迭代需要专家在线的实时标注——四旋翼飞行器以5--7~m/s飞行时,每帧控制决策的时间窗口仅约10~ms,人类专家无法在如此严格的时间约束下提供实时标注,而自动化专家(如MPC规划器)的在线运行同样需要可观的计算资源;(2)在线数据采集成本高昂——四旋翼飞行器的每一次仿真测试都需要完整的物理引擎模拟,580条轨迹的数据集采集已耗费大量仿真时间,DAgger的迭代式采集将这一成本线性放大。此外,在线聚合策略还可能因探索过程中的碰撞行为导致数据分布中的"死角"区域过度采样,反而引入偏差。在现有Flightmare仿真框架下,通过零成本重置和大规模并行仿真可部分缓解DAgger的采集成本问题,但完全的DAgger训练仍需显著增加仿真预算。因此在本文中,我们采用了数据增强、大规模伪标签数据扩充和跨架构知识蒸馏等替代策略来缓解协变量偏移,取得了显著效果(B+蒸馏从3次降至1次碰撞)。 + +端到端方法相比模块化方法的核心优势在于:(1)联合优化感知与控制目标,避免各模块独立优化导致的次优解;(2)消除模块间接口的信息瓶颈,保留从原始像素到控制指令的完整信息流;(3)模型参数量和计算量可统一调控,便于部署至资源受限的机载平台。然而,ViT的自注意力机制具有$\mathcal{O}(n^2)$的二次计算复杂度,推理延迟较高,这驱动了本文对更高效架构——状态空间模型的探索。 + +传统模块化方法将自主避障分解为感知、建图、规划和控制四个串行模块。感知模块从传感器数据中提取环境特征(如障碍物位置和深度图),建图模块构建局部或全局环境表示(如占据栅格地图或欧几里得符号距离场~\cite{foehn2021time}),规划模块基于地图搜索可通行轨迹(如$A^*$搜索或轨迹优化~\cite{romero2022mpcc}),最后由控制器(如模型预测控制MPC~\cite{kaufmann2023champion})跟踪规划轨迹。尽管这一流水线架构降低了各模块的设计复杂度,但在高速飞行中暴露出根本性的局限。首先,各模块串行处理导致显著的延迟累积——感知约10--30~ms、建图约10--50~ms、规划约20--100~ms、控制约1--5~ms,总延迟可达50--200~ms。在5~m/s的飞行速度下,这意味着四旋翼在每帧控制指令生成前已向前飞行0.25--1~m而未对环境变化做出任何响应。其次,各模块之间的误差沿流水线逐级放大:感知阶段的微小检测遗漏导致地图中相应障碍物缺失,进而使规划器生成穿过该区域的不可行轨迹,最终控制器跟踪该轨迹时直接导致碰撞。Song~等~\cite{song2023perception}的研究表明,感知-规划耦合是高速飞行中最主要的失效模式之一。最后,模块间接口定义的刚性限制了系统的自适应能力——例如,规划器将环境简化为二值可通行性地图时,丢失了原始感知数据中的不确定性和丰富度信息。 + +端到端方法通过直接学习从传感器观测到控制指令的映射函数,从原理上避免了上述延迟累积和误差传播问题。然而,端到端策略的训练高度依赖仿真环境的质量,其测试性能显著受制于仿真-现实差距(sim-to-real gap)。Flightmare仿真器~\cite{shah2017flightmare}为此提供了有效支撑:其基于Unity的高保真渲染引擎可生成逼真的深度图像,灵活的参数化配置支持域随机化(domain randomization)~\cite{tobin2017domain}——通过随机化纹理、光照和障碍物分布,使策略暴露于多样化的视觉条件,从而提升向真实环境的泛化能力。此外,Flightmare的零成本重置(zero-cost reset)特性使训练数据可以覆盖更广泛的状态空间,包括从碰撞边缘状态的反复采样,这在一定程度上缓解了行为克隆的协变量偏移问题。Kaufmann~等~\cite{kaufmann2023champion}的研究进一步验证了在Flightmare类仿真环境中训练的端到端策略通过域随机化可直接迁移至真实飞行平台。 + +\subsection{状态空间模型与Mamba架构} + +状态空间模型(State Space Model, SSM)源于控制理论,用一组一阶微分方程描述动态系统的演化。其连续时间形式为: + +\begin{equation} +h'(t) = \mathbf{A} h(t) + \mathbf{B} x(t), \quad y(t) = \mathbf{C} h(t) +\label{eq:ssm_continuous} +\end{equation} + +其中$h(t) \in \mathbb{R}^{N}$为隐含状态,$x(t) \in \mathbb{R}^{D}$为输入,$y(t) \in \mathbb{R}^{D}$为输出,$\mathbf{A} \in \mathbb{R}^{N \times N}$为状态转移矩阵,$\mathbf{B} \in \mathbb{R}^{N \times D}$和$\mathbf{C} \in \mathbb{R}^{D \times N}$分别为输入和输出投影矩阵。在深度学习应用中,连续SSM需要通过零阶保持(Zero-Order Hold, ZOH)法离散化以适应离散时间序列输入: + +\begin{equation} +\bar{\mathbf{A}} = \exp(\mathbf{A} \Delta), \quad \bar{\mathbf{B}} = (\bar{\mathbf{A}} - \mathbf{I})(\mathbf{A})^{-1}\mathbf{B} \Delta +\label{eq:zoh} +\end{equation} + +离散化后的递推形式为: + +\begin{equation} +h_t = \bar{\mathbf{A}} h_{t-1} + \bar{\mathbf{B}} x_t, \quad y_t = \mathbf{C} h_t +\label{eq:ssm_discrete} +\end{equation} + +SSM以$\mathcal{O}(n)$线性复杂度完成序列建模,但在长程依赖建模中面临数值稳定性挑战。Gu等人~\cite{gu2022s4}提出的S4模型通过结构化状态空间参数化——使用HiPPO(High-order Polynomial Projection Operators)理论初始化矩阵$\mathbf{A}$,使其能够有效捕获长达数千步的序列依赖,同时保持训练数值稳定性。 + +HiPPO框架的核心思想是将历史输入信号$x(\tau)$($\tau \leq t$)投影到一组正交Legendre多项式基函数上,并通过递推方式更新投影系数。在该框架下,连续时间最优记忆更新的状态矩阵为: +\begin{equation} +\mathbf{A}_{\text{HiPPO}}[i,j] = -\frac{(2i+1)^{1/2}(2j+1)^{1/2}}{i+1} \cdot \mathbb{1}_{i \geq j} +\label{eq:hippo} +\end{equation} +其严格下三角结构确保所有特征值均具有负实部,使系统天然具备遗忘旧信息的衰减特性。正是这种基于正交多项式逼近的结构化初始化,使S4能够在长达数千时间步的序列上稳定维持梯度传播,突破了传统RNN在长程依赖中因梯度消失而失效的根本局限。S4的成功标志着SSM正式进入深度学习序列建模的主流范式。 + +2023年,Gu和Dao~\cite{gu2023mamba}提出了Mamba架构,将选择性机制引入SSM,实现了里程碑式的突破。Mamba的核心创新在于使SSM的状态转移参数$\mathbf{B}$和$\mathbf{C}$以及离散化步长$\Delta$成为输入的函数: + +\begin{equation} +\mathbf{B} = \text{Linear}_B(x), \quad \mathbf{C} = \text{Linear}_C(x), \quad \Delta = \text{Softplus}(\text{Linear}_\Delta(x)) +\label{eq:mamba_selective} +\end{equation} + +这种数据相关的选择机制使模型能够根据输入内容动态地调节信息流——在需要长期记忆的任务中保持状态持续更新,在无关输入时选择性地重置或过滤。同时,Mamba通过硬件感知的并行扫描算法(parallel scan)在GPU上高效实现递推计算,在保持线性复杂度$\mathcal{O}(n)$的同时获得了与注意力机制相当的建模能力。 + +Mamba-2~\cite{dao2024mamba2}进一步提出了结构化状态空间对偶性(Structured State Space Duality, SSD)框架,从理论上统一了SSM和注意力机制。SSD将SSM的递推计算等价地表示为一种受结构约束的注意力形式,使模型能够灵活地在SSM的高效递推模式和注意力的灵活并行模式之间切换,并支持多头设计($d_{\text{state}}=128$),显著提升了训练吞吐量。 + +在视觉领域,研究者提出了多种Mamba适配架构。Zhu等人~\cite{zhu2024vim}提出的Vim将双向SSM扫描引入图像建模,通过前向和反向扫描使每个像素能够在两个方向上整合全局上下文。Liu等人~\cite{liu2024vmamba}提出的VMamba设计了2D交叉扫描模块(Cross-Scan Module),沿四个方向(左上-右下、右下-左上、右上-左下、左下-右上)分别执行1D选择性扫描,以线性复杂度捕获二维空间中的全局依赖关系。Hatamizadeh和Kautz~\cite{hatamizadeh2024mambavision}提出的MambaVision采用混合CNN-MLP架构设计——其核心视觉处理能力来自深度可分离卷积,辅以称为"SSM路径"的简化MLP(线性—GELU—线性),在图像分类和目标检测任务上展现了良好的性能-效率平衡。这些视觉SSM架构为本文设计Mamba避障模型提供了丰富的技术参考。 + +从计算复杂度的角度可以更深入地理解Mamba架构在实时飞行控制中的核心优势。设输入序列长度为$n$(对ViT而言为图像块数量$n = HW/P^2$,其中$H,W$为图像高宽,$P$为块大小;对SSM而言为图像展平后的像素级序列长度),Transformer中自注意力机制的计算复杂度为$\mathcal{O}(n^2 d)$,其中$d$为特征维度,其核心计算——$n \times d$的查询与键矩阵相乘产生$n \times n$的注意力权重矩阵——在图像分辨率提升时呈二次增长。对于本文使用的60$\times$90深度图,取$P=4$时$n \approx 338$,自注意力单头计算量约为$n^2 d \approx 338^2 \times 256 \approx 29$M次操作,多头(如8头)累积约235M。相比之下,Mamba的SSM递推计算量为$\mathcal{O}(n d^2)$,在相同设置下约为$338 \times 256^2 \approx 22$M次操作,且无需计算昂贵的注意力权重矩阵。当图像分辨率提升至120$\times$180($n \approx 1350$)时,自注意力计算量激增至$n^2 d \approx 1350^2 \times 256 \approx 467$M,而SSM仅增长至$1350 \times 256^2 \approx 88$M——差距从约10倍扩大至约40倍以上。这一差异对实时飞行控制具有直接意义:四旋翼相机帧率通常为30--60~Hz(每帧16.7--33.3~ms),模型推理必须在数毫秒内完成以预留足够的时间余量给图像采集、预处理和通信开销。7.1~ms的DecisionMamba推理速度(约140~FPS)可轻松满足60~Hz相机帧率的需求,而24.3~ms的架构则可能成为系统瓶颈。 + +在门控机制设计方面,Mamba的选择性SSM与经典循环门控架构存在深刻差异。LSTM依赖于三重门控结构(输入门$i_t$、遗忘门$f_t$、输出门$o_t$),通过Sigmoid激活函数将门控值压缩至$(0,1)$区间以调节信息流;GRU则简化为重置门和更新门两重门控。这些门控均使用Sigmoid函数进行值域约束,其饱和特性在长序列中易引发梯度消失——当门控值接近0或1时,梯度信号几乎无法反向传播至早期时间步。Mamba的选择性机制同样实现了类似的门控功能——参数$\mathbf{B}$和$\mathbf{C}$控制输入信号如何写入状态和如何读出,离散化步长$\Delta$调节状态更新的速率——但这些参数通过线性投影和Softplus激活生成,不受Sigmoid的$(0,1)$饱和区间的约束。这意味着Mamba的状态更新可以在更宽的数值范围内进行,在选择性"忽略"无关输入的同时,对重要信息维持近乎无衰减的梯度流。这一设计差异是Mamba在长程依赖建模中同时超越LSTM(门控饱和导致梯度消失)和Transformer(二次复杂度限制序列长度)的关键原因。 + +Mamba-2的SSD框架进一步从两个方面提升了实用性。其一,多头结构($d_{\text{state}}=128$)使每个SSM头可独立建模不同时间尺度的依赖关系——部分头专注于短时运动预测(如避障的瞬时响应),另一些头则建模长程场景结构(如赛道整体布局)。其二,SSD揭示了SSM与线性注意力之间的等价关系,使Mamba-2可以采用标准的并行矩阵乘法实现训练,避免了Mamba-1中为并行扫描引入的复杂CUDA内核优化。这一改进使Mamba-2的训练吞吐量比Mamba-1提升约2--3倍,同时保持了推理阶段的递推效率。 + +\subsection{知识蒸馏} + +知识蒸馏(Knowledge Distillation)由Hinton等人~\cite{hinton2015distilling}提出,其核心思想是通过让轻量级学生模型模仿高性能教师模型的输出分布,将教师的"暗知识"迁移至学生。根据知识迁移发生的层次与形式,蒸馏方法可分为三大类别:\textbf{基于响应的蒸馏}(response-based KD)关注教师最终输出层,通过最小化学生与教师输出之间的KL散度或MSE实现迁移;\textbf{基于特征的蒸馏}(feature-based KD)利用教师中间层特征表示作为监督信号,能够在内部表示层面传递更多结构化的视觉知识;\textbf{基于关系的蒸馏}(relation-based KD)建模样本间或层间的结构化关系(如相似度矩阵),实现更高层次的知识迁移。在机器人控制领域,蒸馏技术特别适用于将从大规模模型或特权信息中学习到的策略压缩至计算资源受限的部署模型。 + +本文采用三分量蒸馏损失框架,其总损失函数为: + +\begin{equation} +\mathcal{L} = \alpha \mathcal{L}_{\text{feat}} + \beta \mathcal{L}_{\text{distill}} + \gamma \mathcal{L}_{\text{GT}} +\label{eq:total_distill} +\end{equation} + +其中$\mathcal{L}_{\text{feat}}$为特征对齐损失,通过均方误差度量学生与教师视觉编码器输出之间的差异,使学生在特征层面学习教师的视觉表示;$\mathcal{L}_{\text{distill}}$为输出蒸馏损失,使学生速度预测逼近教师预测,实现行为层面的知识迁移;$\mathcal{L}_{\text{GT}}$为真实标签监督损失,以防止教师预测中的偏差过度约束学生模型。超参数$\alpha, \beta, \gamma$平衡三项损失的相对贡献。 + +跨架构知识蒸馏(cross-architecture knowledge distillation)——即教师和学生使用不同的网络架构——面临额外的挑战:不同架构的特征表示空间存在本质差异,简单的特征对齐损失可能不足以弥合这种表示鸿沟。Bick等人~\cite{bick2024mohawk}提出的MOHAWK方法通过多阶段对齐策略——包括跨头投影、块级匹配和逐层蒸馏——证明了从Transformer到SSM的跨架构蒸馏在自然语言处理中的可行性。Shao等人~\cite{shao2025xdistill}提出的X-Distill方法在机器人学习场景中展示了从ViT(DINOv2)到轻量CNN的有效跨架构蒸馏。然而,现有工作尚未系统研究从Transformer到多种Mamba视觉变体的蒸馏策略及其边界条件,这正是本文的核心关注点之一。 + +根据教师模型在学生训练过程中是否参与更新,蒸馏方法可分为离线蒸馏(offline distillation)和在线蒸馏(online distillation)两类范式。离线蒸馏中教师模型在训练前完全冻结,以固定预测为学生提供监督信号。其优势在于训练稳定、计算开销低——仅需对学生模型进行一次标准的前向传播,教师预测可预先缓存。本文采用离线蒸馏策略,预训练的ViT+LSTM教师模型以冻结状态为六种Mamba学生提供稳定的特征和输出监督。在线蒸馏则允许教师和学生同时更新,甚至采用双学生互相蒸馏(mutual learning)的形式。在线蒸馏使教师能够从学生反馈中持续改进,在非平稳数据分布下具有更强的适应性,但训练稳定性较差,且计算开销翻倍。对于四旋翼避障这一任务——其数据分布由固定的专家数据集定义,无需持续适应新数据分布——离线蒸馏的稳定性和高效率使其成为更合适的选择。 + +在蒸馏知识载体层面,特征级蒸馏相比输出级蒸馏在跨架构场景中具有显著优势。输出级蒸馏仅传递教师最终的三维速度预测$\hat{y}_{\text{teacher}} \in \mathbb{R}^3$,这是一个经过高度压缩的信号,其中包含了丰富的避障策略信息,但丢失了教师视觉编码器内部的空间结构和语义层次信息。特征级蒸馏通过对齐教师与学生编码器的高维中间表示(维度通常为256至4608),保留了原始图像经过多层非线性变换后形成的结构化特征——包括障碍物边界的位置信息、可通行区域的几何结构以及场景中物体的相对空间关系。对于架构差异巨大的师生对(ViT→CNN/SSM),输出空间可能因编码器结构不同而呈现完全不同的分布特性,简单的输出MSE难以弥合这种鸿沟;而中间特征尽管维度不同,却共享"空间上对齐的视觉表示"这一共性,经过投影层映射后可通过MSE有效对齐。 + +温度缩放(temperature scaling)是分类蒸馏中调节教师软标签平滑程度的关键超参数。在分类任务中,温度$T > 1$使类别概率分布趋于平滑,增大负类概率的相对权重,从而向学生传递更多类别间相似性信息。然而,在速度回归任务中,教师输出为连续实数值而非概率分布,温度缩放没有直接的物理意义。本文采用MSE损失替代KL散度作为蒸馏目标函数,其等价于在回归空间中直接最小化学生与教师预测之间的欧氏距离。特征对齐损失$\mathcal{L}_{\text{feat}}$则扮演了类似于蒸馏温度的"软化"角色——通过将监督信号从$3$维输出空间提升至高维特征空间(256--512维),提供了比输出MSE丰富得多的结构化监督信息。 + +与知识蒸馏相比,自监督学习(self-supervised learning, SSL)和对比学习(contrastive learning)是另外两类重要的无监督视觉表示学习方法。SSL方法如MAE~\cite{he2022mae}通过掩码图像建模迫使编码器学习图像的内在结构,DINO~\cite{caron2021dino}和DINOv2~\cite{oquab2023dinov2}通过自蒸馏框架在无标签图像上学习具有语义意义的高质量视觉特征。这些方法能够利用大规模无标签数据预训练强大的通用视觉编码器,但它们并不直接针对具体控制任务优化,且训练流程复杂、计算资源需求大。对比学习通过拉近正样本对、推远负样本对的策略学习区分性特征,在图像分类和检索任务中表现出色,但对控制任务中的精确连续输出预测帮助有限。知识蒸馏则提供了一条从高性能教师到轻量学生的直接知识迁移桥梁,特别适用于已有教师的场景——教师不仅提供特征层面的监督,还提供输出层面的行为指导,这两者的结合在本文的四旋翼控制任务中被证明是有效的。 + +\subsection{本章小结} + +本章阐述了端到端视觉避障的基本原理、状态空间模型从S4到Mamba-2的演进路径以及知识蒸馏的核心框架。这些理论为第三章的架构设计和第四章的实验分析提供了必要的技术基础。关键要点包括:行为克隆面临协变量偏移的根本局限;Mamba的选择性扫描机制使其在保持线性复杂度的同时具备与注意力相当的建模能力;跨架构蒸馏的效果取决于编码器空间结构的保留程度。 + +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +% 第三章 架构设计与蒸馏方法 +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\cleardoublepage +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +% 架构设计与蒸馏方法 +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\section{架构设计与蒸馏方法} + +\subsection{教师模型:ViT+LSTM} + +本文采用LSTMNetVIT~\cite{bhattacharya2024vitfly}作为教师模型。该模型的设计体现了端到端视觉避障的经典范式:视觉感知模块提取环境特征,时序模块整合多模态信息,控制模块输出飞行指令。 + +视觉编码器使用两个MixTransformer编码器层~\cite{xie2021segformer},将单通道深度图(60$\times$90像素)映射为4608维特征向量。MixTransformer采用层级化设计,在不同尺度上提取视觉特征,且无需位置编码即可适应任意输入分辨率。特征解码器将4608维压缩到512维,减少冗余信息。时序处理器使用3层LSTM(128隐藏单元),整合视觉特征、三维速度指令$(v_x, v_y, v_z)$和四元数姿态$(q_w, q_x, q_y, q_z)$。教师模型参数量3.56M,在7m/s真实飞行数据上训练。 + +\subsection{学生模型:六种Mamba变体} + +本研究设计了六种不同的Mamba学生架构,系统覆盖了视觉编码器和时序头的多种设计选择。编码器类型涵盖SS2D(2D选择性扫描Mamba)、MambaVision混合架构和纯CNN三种范式。时序头涵盖LSTM、基础SSM、Mamba-2和Mamba-3四种实现。 + +\begin{figure}[H] +\centering +\includegraphics[width=0.32\textwidth]{figures/arch/arch_branch_A.pdf} +\includegraphics[width=0.32\textwidth]{figures/arch/arch_branch_B.pdf} +\includegraphics[width=0.32\textwidth]{figures/arch/arch_branch_B+.pdf} + +\vspace{0.3cm} +\includegraphics[width=0.32\textwidth]{figures/arch/arch_branch_C.pdf} +\includegraphics[width=0.32\textwidth]{figures/arch/arch_branch_D.pdf} +\includegraphics[width=0.32\textwidth]{figures/arch/arch_branch_E.pdf} +\caption{六种Mamba学生架构图(从左到右,从上到下:A~E)。每个架构图展示了深度图输入、视觉编码器、特征拼接(+速度+四元数)、时序头和速度输出的完整数据流。彩色编码器区域表示不同类型(SS2D、MambaVision混合、CNN)。} +\label{fig:branch_archs} +\end{figure} + +\begin{table}[H] +\centering +\caption{六种Mamba学生架构} +\label{tab:archs} +\begin{tabular}{lllcc} +\toprule +分支 & 视觉编码器 & 时序头 & 参数量 & 最优碰撞 \\ +\midrule +A & SS2D(Mamba) & LSTM(状态保持) & 0.97M & 3 \\ +B & MambaVision+MLP & SSM & 2.61M & 2 \\ +B+ & MambaVision+MLP & Mamba-3 & 2.55M & 1 \\ +C & CNN(MobileNetV3) & Mamba-3 & 2.41M & 3 \\ +D & CNN类 & Mamba-2 & 2.60M & 2 \\ +E & 轻量CNN(455K) & SSM & 2.19M & 1 \\ +\midrule +教师 & ViT(注意力) & LSTM & 3.56M & 2 \\ +\bottomrule +\end{tabular} +\end{table} + +\subsubsection{Branch A:VMamba+LSTM} + +Branch A是唯一的状态保持架构,使用SS2D(2D选择性扫描Mamba)作为视觉编码器,配合LSTM时序头。SS2D沿图像的四个方向(左上-右下、右下-左上、右上-左下、左下-右上)分别进行1D选择性扫描,然后将四方向特征合并。这种设计使模型能以线性复杂度捕获全局依赖关系,但需要将2D空间结构展平为1D序列。 + +LSTM时序头维护跨时间步的隐藏状态$(h_t, c_t)$,理论上能利用历史信息辅助当前决策。然而,架构A的推理延迟高达24.3ms——尽管参数量仅0.97M,却是六种架构中推理最慢的。需要澄清的是,该延迟的主要来源并非LSTM时序头本身(PyTorch的LSTM在单步预测$T=1$下等价于一次矩阵乘加运算,是向量化实现的),而是SS2D编码器的四方向选择性扫描——每个方向需独立执行一维并行扫描,四次扫描的计算和访存开销累积导致延迟大幅增加。对比实验表明,在相同CNN编码器下,LSTM头(1.00ms)与SSM头(2.58ms)的推理延迟差异远小于SS2D扫描与CNN编码器之间的差异,这证实了编码器而非时序头才是延迟瓶颈。 + +\subsubsection{Branch B与B+:MambaVision系列} + +MambaVision编码器采用双分支设计。主分支为深度可分离卷积(3$\times$3 depthwise conv + 1$\times$1 pointwise conv),负责提取局部视觉特征。辅分支为线性层—GELU激活—线性层组成的简化MLP(论文中称为"SSM路径")。需要特别指出的是,MambaVision的"SSM路径"并非真正的选择性扫描SSM,而是一个微型MLP。其实际视觉处理能力主要来自深度可分离卷积分支,特征仍然保持空间结构化排列。 + +Branch B和B+共享相同的MambaVision编码器,差异在于时序头。B使用基础SSM头(2层,d\_state=16),而B+使用Mamba-3时序头~\cite{lahoti2026mamba3}。Mamba-3包含三个关键技术:指数梯形离散化(exponential-trapezoidal discretization)使用二阶近似对连续系统离散化,保留更多状态信息;复数状态空间(complex-valued state space)结合数据相关旋转位置编码(RoPE)使模型具备状态追踪能力;多输入多输出(MIMO)公式在增加模型表达能力的同时保持解码延迟不变。B+与E并列最佳蒸馏结果(1次碰撞),而B的BC训练完全失败(DNF)。 + +\subsubsection{Branch C:CNN+Mamba3} + +Branch C采用纯CNN编码器,包含四个3$\times$3卷积阶段和全局平均池化层。该编码器设计借鉴MobileNetV3的深度可分离卷积思想,参数量约1.8M(占总参数75\%),输出256维特征向量。时序头使用Mamba-3(d\_state=32),输入维度为256+3+4=263。 + +C的设计体现了"大编码器+小时序头"的参数分配策略。与直觉一致,在单步预测任务中,视觉特征质量直接决定BC性能(3次碰撞),而时序头的设计空间(0.6M vs 2.0M)对性能影响有限。 + +\subsubsection{Branch D:STH-Mamba} + +Branch D使用CNN类编码器配合Mamba-2时序头。Mamba-2基于结构化状态空间对偶性(SSD)框架,将SSM的计算简化为矩阵乘法形式,在多头并行(d\_state=128)下实现了更高的训练吞吐量。 + +D的BC性能为所有分支最优(2次碰撞,与蒸馏持平),说明其CNN类编码器能从BC数据中有效学习。但D对数据增强最为敏感(2$\rightarrow$5次碰撞),暗示其性能高度依赖训练输入的精确统计特性。 + +\subsubsection{Branch E:CNN+SSM(DecisionMamba)} + +Branch E是本研究的核心发现之一。其视觉编码器为轻量级CNN(仅455K参数,占总参数21\%),包含三层3$\times$3卷积和一个池化头。时序头为基础SSM(d\_state=16)。E的整体性能最优:推理最快(7.1ms)、BC最强(3次碰撞)、蒸馏最佳(1次碰撞)、速度最鲁棒。 + +需要特别指出的是,E的成功本质上是\textbf{CNN编码器}的成功,而非SSM架构本身的贡献。Fv5验证实验表明,在单步预测($T=1$)设置下,时序头的容量对性能几乎没有影响——将78\%参数分配给时序头仅获得5次碰撞,远差于参数更少但编码器更强的架构。因此,E中SSM时序头的主要作用并非核心特征提取,而是在CNN编码器提供的空间结构化特征之上进行轻量级时序建模。为准确反映这一架构特点,本文称E为"CNN+SSM混合架构"而非纯"Mamba架构"。 + +关键洞察:E的"Secret"在于其编码器是CNN而非SSM。CNN通过空间卷积保留图像的2D结构信息,使编码器输出在空间上有序排列。当教师(ViT)的编码器同样保留空间结构时,学生与教师之间的特征对齐通过简单的MSE损失即可有效实现。这与后续对比实验(E-SSM)的结论一致——纯SSM编码器因扫描序列展平空间维度,特征对齐损失从0.02急剧升至0.83。 + +\subsection{跨架构蒸馏框架} + +知识蒸馏的目标是将教师模型的理解能力迁移至学生模型。本文的蒸馏框架包含三个互补的损失组件。 + +\textbf{特征对齐损失}通过对齐学生和教师的视觉编码器输出实现知识迁移: +\begin{equation} +\mathcal{L}_{\text{feat}} = \|f_{\text{student}} - f_{\text{teacher}}\|_2^2 +\end{equation} +当学生和教师编码器输出维度不同时,使用可学习的线性投影层将学生特征映射到教师特征空间。 + +\textbf{输出蒸馏损失}使学生速度预测逼近教师预测: +\begin{equation} +\mathcal{L}_{\text{distill}} = \|\hat{y}_{\text{student}} - \hat{y}_{\text{teacher}}\|_2^2 +\end{equation} + +\textbf{真值监督损失}防止教师偏差过度约束学生: +\begin{equation} +\mathcal{L}_{\text{GT}} = \|\hat{y}_{\text{student}} - y_{\text{GT}}\|_2^2 +\end{equation} + +总损失为三者加权和:$\mathcal{L} = \alpha\mathcal{L}_{\text{feat}} + \beta\mathcal{L}_{\text{distill}} + \gamma\mathcal{L}_{\text{GT}}$。默认权重$\alpha=\beta=\gamma=1.0$。 + +\begin{figure}[H] +\centering +\includegraphics[width=\textwidth]{figures/figure1.pdf} +\caption{跨架构蒸馏框架与主实验结果。(A)蒸馏框架:ViT+LSTM教师通过三分量损失向六种Mamba学生迁移知识;(B)球体环境5m/s主结果柱状图:B+蒸馏和E蒸馏均达1次碰撞,超越教师的2次。} +\label{fig:overview} +\end{figure} + +\subsection{架构设计验证实验} + +为验证上述架构设计原则,本文进行了两组补充实验。这些实验虽涉及训练和测试,但其核心目的是验证架构假设而非报告性能,因此纳入本章讨论。 + +\textbf{参数分配验证(Branch Fv5)。} 为验证"编码器质量主导时序头容量"这一假设,本文将轻量级CNN编码器(0.53M,与E同源)与Branch C的Mamba-3时序头(2.0M)组合成变体Fv5(总参数2.55M)。尽管78\%的参数分配给了时序头,该变体在BC测试中仅达到5次碰撞——远差于E(3次)和C(3次)。这一结果直接支持了"单步预测下编码器才是瓶颈"的设计原则。 + +\textbf{编码器类型验证(E-SSM)。} 为验证"SSM编码器因展平空间结构导致蒸馏失败"这一假设,本文将E的CNN编码器替换为轻量级选择扫描SSM编码器(CoarseSSM,保持相同输出维度256),形成E-SSM变体(1.67M)。在相同的蒸馏配置下,E-SSM的特征对齐损失$\mathcal{L}_{\text{feat}}$高达10.58(E为0.85),真值损失$\mathcal{L}_{\text{GT}}$从0.02恶化至0.83,蒸馏完全失败。该结果确立了跨架构蒸馏的核心条件:编码器必须保留空间结构以实现有效的MSE特征对齐。 + +\textbf{补充策略:Born-again蒸馏与伪标签。} 本文探索了两种补充训练策略。Born-again蒸馏使用B+(最佳蒸馏模型)作为教师再次蒸馏E,尽管验证指标优于跨架构蒸馏(distill gap从0.0172降至0.0037,4.4$\times$提升),但仿真结果更差(3-4次碰撞 vs 1次)。伪标签策略使用冻结的教师ViT+LSTM为62K无标签轨迹生成速度伪标签,合并原始42K轨迹形成109K训练集。该策略在5m/s达到1次碰撞(匹配最佳蒸馏),但在7m/s完全失败(DNF),说明伪标签本身无法传递教师的速度鲁棒性。 + +\subsection{本章小结} + +本章详细设计了六种Mamba学生架构及其跨架构蒸馏框架。架构覆盖SS2D、MambaVision混合和CNN三种编码器范式,以及LSTM、SSM、Mamba-2和Mamba-3四种时序头实现。通过Fv5和E-SSM两组验证实验,确立了核心设计原则:编码器必须保留空间结构是蒸馏可行的关键,编码器质量主导单步预测的避障性能。这些设计为第四章的实验验证提供了基础。 + +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +% 第四章 实验结果与分析 +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\cleardoublepage +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +% 实验结果与分析 +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\section{实验结果与分析} +\label{chap:experiment} + +本章系统评估六种 Mamba 架构在端到端视觉避障任务中的表现,涵盖主实验结果、速度鲁棒性、环境泛化能力和多维度消融分析。 + +\subsection{实验环境与设置} +\label{sec:exp-setup} + +\textbf{仿真环境.} 实验基于 Flightmare~\cite{shah2017flightmare} 仿真器,采用 DodgeDrone 竞赛协议:60m 直线障碍赛道,飞行超时 40s。场景包含\textbf{球体环境}(随机分布彩色球体,密度适中)和\textbf{树木环境}(仿真树干障碍,排列相对稀疏)。默认飞行速度 5~m/s,另在 7~m/s 评估速度鲁棒性。 + +\textbf{训练配置.} 行为克隆(BC)训练 100 轮,知识蒸馏 50 轮。训练集包含 42K 条专家轨迹(由教师 ViT+LSTM 在 5~m/s 速度下收集)。优化器采用 AdamW(学习率 $10^{-4}$,权重衰减 $10^{-4}$),批大小 32,FP16 混合精度训练,学习率余弦退火调度含 500 步预热。所有实验在单张 RTX 5090 GPU(24GB 显存)上完成。每种模型配置独立训练 3 次,取最优结果进行评测。 + +\textbf{评估指标.} (1)\textbf{碰撞次数}:全程碰撞障碍物总数,为主要评价指标;(2)\textbf{飞行时间}:完成 60m 赛道的耗时;(3)\textbf{推理延迟}:单帧前向传播时间,反映模型的实时性。 + +\subsection{主实验结果} +\label{sec:main-results} + +表~\ref{tab:main-results} 汇总了球体环境 5~m/s 飞行速度下的全部实验结果,涵盖六种 Mamba 架构在行为克隆和知识蒸馏两种训练策略下的性能表现。 + +\begin{table}[H] +\centering +\caption{球体环境 60m 赛道主实验结果(5\,m/s)} +\label{tab:main-results} +\begin{tabular}{lcccc} +\toprule +模型 & 参数量 & 碰撞次数$\downarrow$ & 完成时间 & 推理延迟 \\ +\midrule +教师 ViT+LSTM & 3.56M & 2 & 12.24s & 9.0ms \\ +\midrule +\textbf{B+ 蒸馏} & 2.55M & \textbf{1}$\star$ & 12.22s & 9.8ms \\ +\textbf{E 蒸馏} & 2.19M & \textbf{1}$\star$ & 12.23s & \textbf{7.1ms} \\ +B 蒸馏 & 2.61M & 2 & 12.36s & 10.2ms \\ +D BC & 2.60M & 2 & 12.22s & 11.5ms \\ +D 蒸馏 & 2.60M & 2 & 12.21s & 11.5ms \\ +A BC & 0.97M & 3 & 12.24s & 24.3ms \\ +A 蒸馏 & 0.97M & 3 & 12.25s & 24.3ms \\ +C BC & 2.41M & 3 & 12.41s & 8.5ms \\ +C 蒸馏 & 2.41M & 3 & 12.40s & 8.5ms \\ +B+ BC & 2.55M & 3 & 12.37s & 9.8ms \\ +E BC & 2.19M & 3 & 12.23s & 7.1ms \\ +B BC & 2.61M & \multicolumn{2}{c}{DNF} & 10.2ms \\ +\bottomrule +\multicolumn{5}{l}{$\star$:超越教师(2 次碰撞)} \\ +\end{tabular} +\end{table} + +\textbf{蒸馏显著超越教师.} B+ 蒸馏(MambaVision + Mamba-3,2.55M)和 E 蒸馏(DecisionMamba,2.19M)经蒸馏后碰撞次数从 3 次降至 1 次,超越了教师模型的 2 次碰撞。这一结果令人振奋:跨架构知识蒸馏不仅弥补了轻量学生与教师之间的容量差距,还使学生模型利用 Mamba 的线性复杂度优势实现了更好的避障决策。蒸馏将模型从不稳定的 BC 基线性能提升至一个统一的优越水平——所有蒸馏模型的碰撞次数均不超过 2 次。 + +\textbf{B BC 完全发散与蒸馏修复.} 架构 B(MambaVision + SSM)在 BC 训练中完全无法完成赛道(DNF),其失败归因于 MambaVision 编码器中的伪 SSM 路径(实际为 Linear-GELU-Linear MLP)与后续真实 SSM 时序头之间的语义不匹配,导致训练过程中梯度振荡发散。蒸馏通过引入 ViT 教师的稳定特征对齐信号,成功将 B 从 DNF 状态"救活"至 2 次碰撞,充分体现了蒸馏对不稳定架构的修复能力。 + +\textbf{推理延迟分析.} 推理速度是衡量端到端避障模型实用性的核心指标。E 以 7.1~ms(约 140 FPS)位居第一,比教师 ViT+LSTM(9.0~ms,111 FPS)快 21\%,这得益于其轻量 CNN 编码器(仅 455K 参数)和 SSM 时序头的协同设计。 + +\begin{figure}[H] +\centering +\includegraphics[width=\textwidth]{figures/figure3.pdf} +\caption{推理延迟对比。(左)各模型单帧推理时间柱状图,DecisionMamba(E)以7.1ms最快;(右)参数量-推理时间散点图,E位于帕累托前沿。} +\label{fig:latency} +\end{figure}C 以 8.5~ms 位列第二。B+ 为 9.8~ms,与教师相当。值得关注的反常现象是:参数量最小的架构 A(0.97M)反而具有最长的推理延迟(24.3~ms)。需要澄清的是,该延迟的主要来源并非 LSTM 时序头——在单步预测 $T=1$ 下,PyTorch 的 LSTM 实现是完全向量化的(等价于一次矩阵乘加运算),不存在串行展开。实际瓶颈在于 SS2D 编码器的四方向选择性扫描:每个方向需独立执行一维并行扫描,四次扫描的计算和访存开销随序列长度线性累积。为验证这一分析,本文在相同 CNN 编码器下对比了不同时序头的推理延迟:LSTM 头 1.00ms、MLP 头 0.74ms、SSM 头 1.90ms(均为同一编码器),三者的差异远小于 SS2D 编码器与 CNN 编码器之间的延迟差距。这一发现表明,参数量不能直接等价于计算效率——编码器的架构设计对推理延迟具有比时序头更大的影响。 + +\subsubsection{各分支详细性能分析} +\label{sec:branch-analysis} + +本节对六种 Mamba 架构在行为克隆和知识蒸馏下的性能表现逐一进行深入分析,揭示各架构的优势与局限。 + +\textbf{Branch A(VMamba+LSTM).} A 是唯一采用 SS2D 扫描编码器的架构,其 BC 和蒸馏后的碰撞次数均为 3 次,未能从蒸馏中获益。这一结果表明 SS2D 编码器与 ViT 教师之间的特征空间差异过大,简单的 MSE 特征对齐难以有效迁移知识。更关键的限制在于推理延迟——尽管 A 的参数量仅 0.97M(六种架构中最少),其推理延迟高达 24.3~ms,是 E 的 3.4 倍。需要说明的是,该延迟主要来自 SS2D 编码器的四方向扫描开销,而非 LSTM 时序头——在单步预测设置下 LSTM 等价于向量化矩阵运算。A 的实验揭示了两个重要结论:SS2D 的序列化扫描丢失了空间结构信息,不利于跨架构蒸馏;编码器类型对推理延迟的影响远大于时序头类型。 + +\textbf{Branch B(MambaVision+SSM).} B 在 BC 训练中完全发散(DNF),是本研究中唯一无法完成赛道的架构。其失败根因在于 MambaVision 编码器中所谓\textbf{SSM 路径}(实际为 Linear-GELU-Linear 构成的微型 MLP)与真实 SSM 时序头之间的语义不匹配。编码器末端的 MLP 输出缺乏 SSM 所预期的状态空间结构,导致时序头接收到语义不一致的输入特征,训练中梯度振荡发散。蒸馏通过引入 ViT 教师的稳定特征对齐信号有效解决了这一问题——B 蒸馏的碰撞次数从 DNF 恢复至 2 次,充分体现了蒸馏对不稳定架构的修复能力。 + +\textbf{Branch B+(MambaVision+Mamba-3).} B+ 与 B 共享相同的 MambaVision 编码器,但时序头升级为 Mamba-3。这一改进带来了决定性变化:B+ BC 从 DNF 恢复至 3 次碰撞(尽管仍不稳定),蒸馏后更是降至 1 次碰撞,超越教师。Mamba-3 通过梯形离散化和双 SSD 分解,在保持 MambaVision 混合编码器输出空间结构的同时实现了更稳定的梯度传播。B+ 是唯一在树木环境 5~m/s 下保持 0 次碰撞的蒸馏模型,充分体现了 MambaVision 混合编码器结合高阶 SSM 时序头的泛化优势。 + +\textbf{Branch C(CNN+Mamba3).} C 采用纯 CNN 编码器(MobileNetV3 风格)配合 Mamba-3 时序头,BC 和蒸馏的碰撞次数均为 3 次。C 的稳定性源于 CNN 编码器的成熟设计——深度可分离卷积的特征提取能力可靠且训练稳定。但 C 未从蒸馏中获益(BC=蒸馏=3cr),说明其 CNN 编码器虽然保留了空间结构,但 MobileNetV3 的倒置残差结构与 ViT 的层级化特征空间之间的对应关系不够直接,限制了 MSE 特征对齐的效率。C 以 8.5~ms 的推理延迟位列第二快,为其在延迟敏感场景中的应用留下空间。 + +\textbf{Branch D(STH-Mamba).} D 的 BC 性能为所有分支最优(2 次碰撞),且蒸馏后维持 2 次碰撞。其 CNN 类编码器能从 BC 数据中有效学习视觉特征,Mamba-2 时序头的 SSD 框架在训练吞吐量上具有优势。但 D 对数据增强极为敏感(2$\rightarrow$5 次碰撞),是受增强影响最大的架构。这一现象暗示 D 的编码器与训练数据分布之间存在紧密耦合——其学习到的特征统计特性集中在训练集的经验分布上,数据增强引入的扰动破坏了这一精确匹配。D 的性能瓶颈不在蒸馏或时序建模,而在于其编码器对输入统计特性的过度依赖。 + +\textbf{Branch E(DecisionMamba).} E 是综合性能最优的架构。其轻量 CNN 编码器(仅 455K 参数,占总量 21\%)与基础 SSM 时序头在设计上实现了最佳协同:CNN 保留了空间结构使蒸馏特征对齐有效($\mathcal{L}_{\text{feat}}=0.85$),SSM 的高效递推计算使推理延迟仅 7.1~ms。E BC 达到 3 次碰撞,蒸馏后降至 1 次且具备速度鲁棒性(5~m/s 和 7~m/s 均 1 次碰撞),是唯一在高速下保持性能稳定的架构。E 的成功验证了\textbf{编码器保留空间结构 + 时序头轻量高效}的设计原则——这一组合在性能、效率和鲁棒性之间达到了最佳平衡。 + +\subsubsection{参数效率分析} +\label{sec:param-efficiency} + +参数效率是衡量模型架构设计质量的重要维度——在给定参数量下实现越低的碰撞次数,表明参数利用率越高。教师 ViT+LSTM(3.56M 参数,2 次碰撞)的碰撞/参数比为 0.56 次/M,而 E 蒸馏(2.19M,1 次碰撞)仅为 0.46 次/M——以教师 38\% 的参数量实现了 50\% 的碰撞减少。这一效率优势来源于 E 的轻量 CNN 编码器(455K)与 SSM 时序头之间合理的容量分配,避免了 ViT 自注意力机制中大量冗余的全局交互计算。 + +\begin{table}[H] +\centering +\caption{各模型参数效率对比(球体环境 5\,m/s)} +\label{tab:param-efficiency} +\begin{tabular}{lccc} +\toprule +模型 & 参数量 & 碰撞次数 & 效率比(碰撞/百万参数) \\ +\midrule +A BC & 0.97M & 3 & 3.09 \\ +C BC & 2.41M & 3 & 1.24 \\ +D BC & 2.60M & 2 & 0.77 \\ +E 蒸馏 & 2.19M & \textbf{1} & \textbf{0.46} \\ +B+ 蒸馏 & 2.55M & 1 & 0.39 \\ +教师 ViT+LSTM & 3.56M & 2 & 0.56 \\ +Fv5 BC & 2.55M & 5 & 1.96 \\ +\bottomrule +\end{tabular} +\end{table} + +表~\ref{tab:param-efficiency} 展示了参数效率的显著差异。A BC 虽然参数量最少(0.97M),但其效率比(3.09 次/M)最差——每百万参数对应超过 3 次碰撞,且推理延迟高达 24.3~ms,实际应用价值有限。Fv5 BC(2.55M,5 次碰撞,效率比 1.96)进一步验证了参数分配的关键性:其 78\% 的参数分配给时序头,但性能远差于参数更少但编码器更强的架构(E 和 C 均为 3 次碰撞)。D BC(2.60M,2 次碰撞,效率比 0.77)在 BC 基线中参数效率最高,验证了其 CNN 类编码器的参数利用效率。 + +E 蒸馏和 B+ 蒸馏分别以 0.46 和 0.39 的效率比位居前列,均优于教师的 0.56。这一结果表明,经过跨架构蒸馏后,轻量 Mamba 学生不仅达到甚至超越了教师的行为性能,还在参数利用效率上实现了质的提升。参数效率分析的核心启示是:\textbf{参数量大小并非性能的决定因素,架构设计和容量分配的合理性才是效率的关键}。 + +\subsection{速度鲁棒性与环境泛化} +\label{sec:velocity-generalization} + +为全面评估模型的鲁棒性和泛化能力,本文在两个维度上进行扩展测试:(1)将飞行速度从 5~m/s 提升至 7~m/s;(2)在树木环境中重新测试。实验结果分别如表~\ref{tab:velocity} 和表~\ref{tab:trees} 所示。 + +\begin{table}[H] +\centering +\caption{速度鲁棒性:不同飞行速度下的碰撞次数(球体环境)} +\label{tab:velocity} +\begin{tabular}{lcc} +\toprule +模型 & 5\,m/s & 7\,m/s \\ +\midrule +教师 ViT+LSTM & 2 & 5 \\ +E 蒸馏 & \textbf{1} & \textbf{1} \\ +B+ 蒸馏 & \textbf{1} & \textbf{1} \\ +\bottomrule +\end{tabular} +\end{table} + +\textbf{教师高速退化严重.} 教师 ViT+LSTM 在 7~m/s 时碰撞次数从 2 次急剧增至 5 次,降幅达 150\%。这一退化与教师训练数据的收集速度(约 5~m/s)一致——在多步预测 $T=1$ 的设置下,教师无法利用时序记忆适应速度变化,其速度策略在高速区间出现严重外推失败。 + +\textbf{蒸馏模型速度鲁棒性优异.} E 蒸馏和 B+ 蒸馏在 7~m/s 下均保持仅 1 次碰撞,实现了零退化。这一结果具有重要的实践意义:蒸馏不仅降低了碰撞率,还赋予了学生超越教师速度适应范围的能力。可能的原因在于:Mamba 架构的线性复杂度使其在高速场景下能更稳定地处理连续帧之间的时序依赖;同时蒸馏过程中教师提供的软标签起到了正则化作用,使学生模型学习到更平滑的速度策略,避免了教师自身在高速区间的过度激进行为。 + +\begin{table}[H] +\centering +\caption{环境泛化:树木环境测试结果} +\label{tab:trees} +\begin{tabular}{lcc} +\toprule +模型 & 5\,m/s & 7\,m/s \\ +\midrule +教师 ViT+LSTM & \textbf{0} & \textbf{0} \\ +B+ 蒸馏 & \textbf{0} & 1 \\ +E 蒸馏 & 1 & 2 \\ +\bottomrule +\end{tabular} +\end{table} + +\textbf{树木环境下蒸馏的泛化边界.} 在树木环境中,教师模型在两个速度下均实现 0 次碰撞,说明其 ViT 编码器在大规模预训练中获得了更通用的视觉表示。然而,蒸馏模型出现了不同程度的退化:E 蒸馏从球体环境的 1 次变为树木环境的 1 次(5~m/s)和 2 次(7~m/s);B+ 蒸馏在 5~m/s 时保持 0 次碰撞,但 7~m/s 时增至 1 次。 + +这一现象揭示了跨架构蒸馏的\textbf{泛化边界}:蒸馏过程使学生模型偏向教师的特征空间,虽然教师具有很强的泛化能力,但学生有限的模型容量无法完整继承这一能力,在新环境中反而不如教师的零样本泛化表现。B+ 蒸馏在树木环境中优于 E 蒸馏,说明 MambaVision 的混合编码器比 E 的纯 CNN 编码器具有更好的视觉泛化性。 + +\begin{figure}[H] +\centering +\includegraphics[width=\textwidth]{figures/figure2.pdf} +\caption{蒸馏效果的边界条件。球体环境中蒸馏有效(绿色柱低于蓝色),树木环境7m/s时蒸馏反而退化(红色标注),揭示了跨架构蒸馏的环境依赖边界条件。} +\label{fig:envs} +\end{figure} + +\subsection{消融实验} +\label{sec:ablation} + +为深入理解影响 Mamba 避障性能的关键设计因素,本节围绕数据增强、多步预测、损失权重和训练策略四个维度进行系统消融。 + +\subsubsection{数据增强消融} + +测试训练时数据增强(随机水平翻转加亮度抖动)对蒸馏后模型性能的影响,结果如表~\ref{tab:augmentation} 所示。 + +\begin{table}[H] +\centering +\caption{数据增强对蒸馏的影响(碰撞次数,5\,m/s)} +\label{tab:augmentation} +\begin{tabular}{lcc} +\toprule +模型 & 无增强 & 有增强 \\ +\midrule +B+ 蒸馏 & 3 & \textbf{1} \\ +B 蒸馏 & DNF & 3 \\ +C 蒸馏 & 3 & 5 \\ +D 蒸馏 & 2 & 5 \\ +E 蒸馏 & 3 & 4 \\ +\bottomrule +\end{tabular} +\end{table} + +数据增强的效果呈现出清晰的架构依赖性:仅对\textbf{基于 CNN 的编码器}(B+ 的 MambaVision 混合架构、B 的深度可分离卷积)有显著的正面效果,B+ 从 3 次降至 1 次,B 从 DNF 救活至 3 次。而具有 SSM 编码器或混合结构的架构(C、D、E)在数据增强后性能反而下降。这说明数据增强通过增加视觉多样性提升了 CNN 的特征泛化能力,但 SSM 的序列处理机制对低层次图像扰动较为敏感——过强的视觉扰动可能破坏 SSM 已学习的精确状态转移映射。 + +\subsubsection{多步预测消融} + +将预测步数从 $T=1$ 扩展至 $T=2,4,8$,实验发现 $T=1$ 始终最优(1 次碰撞)。当 $T=4$ 时蒸馏模型的碰撞次数急剧恶化至 5 次。原因在于:目标维度随 $T$ 线性增长而模型容量不变,导致单步质量下降;同时教师的自回归多步预测误差在蒸馏过程中被逐级传递给学生,产生误差累积效应。该结果表明在端到端避障任务中,当前帧的精确感知比长程时序记忆更为关键。 + +\subsubsection{损失权重消融} + +蒸馏总损失 $\mathcal{L} = \alpha\mathcal{L}_{\text{feat}} + \beta\mathcal{L}_{\text{distill}} + \gamma\mathcal{L}_{\text{GT}}$,默认权重 $\alpha=\beta=\gamma=1$ 时性能最优。当特征对齐和输出蒸馏权重减半至 $\alpha=0.5,\beta=0.5$ 时,碰撞次数从 1 次增至 4 次,说明蒸馏信号减弱后学生无法有效学习教师的特征表示结构,三个损失分量的平衡对蒸馏效果至关重要。 + +\subsubsection{Born-again 蒸馏} + +使用学生自身生成的软标签替代教师软标签进行 born-again 蒸馏,碰撞次数高达 3--4 次,远差于跨架构蒸馏的 1 次。Born-again 蒸馏缺乏新知识注入,仅强化学生已有的行为模式,无法突破 BC 训练的性能上限。这表明跨架构蒸馏的优势不仅在于知识迁移,更在于提供了一个与自身表示空间不同的外部教师信号。 + +\subsubsection{大规模伪标签训练} + +将训练数据集从 42K 扩展至 109K(使用冻结的教师模型为无标签轨迹生成速度伪标签),5~m/s 下达到 1 次碰撞,与真值蒸馏持平。但 7~m/s 高速场景下完全失败(DNF),表明伪标签本身包含教师的预测误差,在高速场景下的累积误差导致灾难性失败。该结果揭示了\textbf{数据量提升不能替代蒸馏信号质量}的重要结论——伪标签数据的规模优势无法弥补其在高速分布外场景中的质量缺陷。 + +\subsubsection{关键设计因素综合对比} +\label{sec:factor-ranking} + +为量化各设计因素对避障性能的影响程度,表~\ref{tab:factor-impact} 综合汇总了各消融实验的效果。 + +\begin{table}[H] +\centering +\caption{关键设计因素影响程度综合对比} +\label{tab:factor-impact} +\begin{tabular}{lccl} +\toprule +设计因素 & 最佳配置 & 碰撞变化范围 & 影响程度 \\ +\midrule +编码器类型 & CNN/混合(保留空间结构) & 1--5 & ★★★★★ \\ +知识蒸馏 & 三分量蒸馏($\alpha=\beta=\gamma=1$) & 1--DNF & ★★★★☆ \\ +数据增强 & 仅对 CNN 编码器启用 & 1--5 & ★★★☆☆ \\ +损失权重 & 默认均衡权重 & 1--4 & ★★☆☆☆ \\ +多步预测 & $T=1$(单步) & 1--5 & ★★☆☆☆ \\ +\bottomrule +\end{tabular} +\end{table} + +各因素按影响程度排序为:\textbf{编码器类型 > 知识蒸馏 > 数据增强 > 损失权重 > 多步预测}。编码器类型对性能具有决定性影响(碰撞变化范围 1--5 次),是架构设计的首要考虑因素。知识蒸馏具有最大幅度的性能提升潜力(可将模型从 DNF 状态修复至 2 次碰撞),但其效果高度依赖于编码器与教师特征空间的兼容性。数据增强和损失权重的影响相对较窄,分别仅在特定编码器类型和部分架构中起效。多步预测的影响最小——在当前单帧决策为主的端到端避障任务中,扩展预测步长带来的收益难以弥补单步精度的损失。这一排序为后续架构设计提供了明确的优先级参考:\textbf{优先选择与教师特征空间兼容的编码器,再依次优化蒸馏策略和训练配置}。 + +\subsection{讨论} +\label{sec:discussion} + +综合以上实验结果,提炼以下核心结论与设计指南。 + +\textbf{跨架构蒸馏的有效性与边界.} 蒸馏在球体环境中显著提升性能(B+ 从 3 次降至 1 次,超越教师的 2 次),证明了从 ViT 到 Mamba 的跨架构知识迁移切实可行。但树木环境揭示了其泛化边界——蒸馏模型在新环境高速下可能退化,原因在于学生有限容量无法完整继承教师的泛化能力。 + +\textbf{架构选择指南.} (1)编码器应优先选择保留空间结构的 CNN 或混合架构(如 MambaVision),避免纯 SSM 编码器,以利于与 ViT 教师进行特征对齐;(2)推理延迟与参数量并非线性相关,时序头的选择对实际效率具有决定性影响;(3)编码器质量主导避障性能,其重要性超过时序头容量的复杂程度。 + +\textbf{模型容量与泛化的权衡.} 实验数据显示了一个微妙但重要的规律:最佳蒸馏模型(E,2.19M)在球体环境7~m/s下保持1次碰撞(零退化),而较大的B+模型(2.55M)同样保持1次碰撞。然而,在树木环境的跨域泛化测试中,B+以5~m/s零碰撞的全面优势超越了E的1次碰撞。这一差异揭示了模型容量与泛化能力之间的非线性关系——在训练分布(球体环境)内,更大容量带来的边际收益递减(E和B+均为1次),但在分布外场景中,额外的模型容量带来了显著的泛化优势。具体而言,B+的MambaVision编码器包含深度可分离卷积的精细化局部特征提取能力,而E的超轻量CNN编码器(仅455K)在特征多样性上存在天然的容量天花板。这一发现的实际含义是:部署时若目标场景已知且稳定(如固定赛道的竞赛飞行),E+蒸馏的组合在推理延迟上的优势使其成为首眩;若部署环境具有不确定性或需要在多种场景间切换,B+的泛化优势值得其增加的25\%推理延迟(7.1ms vs 9.8ms)。从工程视角,建议建立两阶段部署流程——在已知场景中使用E实现最高帧率,当环境切换时动态切换到B+以确保泛化鲁棒性。 + +\textbf{训练策略的实用指南.} 结合消融实验的系统性发现,本文提炼出面向端到端避障训练的实用策略建议:(1)训练流程应遵循"BC预训练→蒸馏微调"的两阶段策略——BC为模型提供有效的初始化,蒸馏在此基础上优化编码器特征表示;(2)数据增强应作为架构感知策略使用——对CNN编码器架构启用(B+从3次降至1次),对SSM编码器架构禁用(D从2次恶化至5次);(3)单步预测($T=1$)在任何情况下都是最优选择,增大预测步长只会线性增加目标维度和误差积累风险;(4)三分量蒸馏损失缺一不可——任一损失分量减半都会导致性能明显下降(从1次增至2--3次碰撞),说明特征对齐、输出蒸馏和真值监督三者互为补充;(5)伪标签数据扩充仅在低速场景下可作为蒸馏的低成本替代方案使用,高速场景下必须依赖真值蒸馏。上述指南为后续研究提供了可操作的设计参考。 + +\textbf{最佳实践总结.} DecisionMamba(E)+ 蒸馏的组合是推荐的部署配置:2.19M 参数、7.1ms 推理延迟、球体环境 1 次碰撞且具备速度鲁棒性。对于需要强环境泛化的场景,B+ 蒸馏因 MambaVision 混合编码器更具优势。在训练策略上,单步预测配合默认蒸馏损失权重($\alpha=\beta=\gamma=1$)即可获得最优性能,无需复杂调整。 + +\subsection{本章小结} + +本章系统评估了六种Mamba架构的避障性能。主实验表明B+蒸馏和E蒸馏均以1次碰撞超越教师模型。速度鲁棒性测试中蒸馏模型零退化,而教师退化150\%。环境泛化测试揭示了蒸馏的边界条件——简单环境高速下可能退化。消融实验量化了数据增强、多步预测、损失权重等因素的影响程度。综合来看,DecisionMamba+蒸馏是最优配置,在精度、速度和鲁棒性间达到最佳平衡。 + +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +% 第五章 总结与展望 +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\cleardoublepage +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +% 总结与展望 +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\section{总结与展望} + +\subsection{工作总结} + +本文围绕"如何设计和优化适用于四旋翼避障的端到端神经网络架构"这一核心问题,对六种基于Mamba的状态空间模型架构——VMamba+LSTM(架构A)、MambaVision+SSM(架构B)、MambaVision+Mamba-3(架构B+)、CNN+Mamba3(架构C)、STH-Mamba(架构D)、DecisionMamba(架构E)——在Flightmare仿真器\cite{shah2017flightmare}上的端到端视觉避障性能进行了系统性的比较评估。本文设计了跨架构知识蒸馏框架,将ViT+LSTM教师模型\cite{bhattacharya2024vitfly}的知识迁移至Mamba学生模型,并系统研究了蒸馏在不同环境(球体、树木)和不同飞行速度(5m/s、7m/s)下的有效性边界。 + +本文完成了大规模、多维度、系统化的实验工作。整个实验方案的设计遵循了"先建立基线、再引入蒸馏、最后消融验证"的递进逻辑,整体实验方案可归纳为以下三个层次。\textbf{主实验部分:}六种架构 $\times$ 两种训练策略(行为克隆与知识蒸馏)$\times$ 两种飞行速度(5m/s、7m/s)$\times$ 两种障碍物环境(球体、树木)$= 6 \times 2 \times 2 \times 2 = 48$ 组主要对照实验,涵盖了完整的速度鲁棒性与环境泛化评估。\textbf{消融实验部分:}围绕五个关键设计维度开展了系统消融研究:(1)数据增强消融(5种架构 $\times$ 2种环境 = 10组);(2)多步预测消融(2种最优架构 $\times$ 4种步长 $\times$ 2种训练方式 = 16组);(3)蒸馏损失权重消融(4种权重组合);(4)Born-again蒸馏(2种配置);(5)伪标签规模化。消融实验共计20余组,全面刻画了各设计因素对避障性能的影响规律。\textbf{综合统计:}本文累计完成60余轮训练和100余次Flightmare仿真测试,全文引用44篇参考文献,包含9幅图表和6张数据表,并在附录中提供了完整的架构参数分解、消融实验数据、训练损失曲线分析和代码开源信息。\textbf{论文组织:}全文共五章,依次为绪论(研究背景与现状)、相关理论与技术基础(BC、Mamba数学原理与知识蒸馏)、架构设计与蒸馏方法(六种Mamba架构设计及两组验证实验)、实验结果与分析(主实验、速度鲁棒性、环境泛化、六类消融实验)和本章总结与展望,附录包括五部分补充材料。 + +基于上述系统性工作,本文得出以下核心结论:DecisionMamba(轻量CNN编码器+SSM时序头)在推理速度(7.1ms/帧,比ViT+LSTM快21\%)、BC基线性能(3次碰撞)、蒸馏增益(降至1次,超越教师)和速度鲁棒性(5m/s和7m/s均仅1次碰撞,零退化)四个维度上均是整体最优架构,推荐的部署配置为DecisionMamba蒸馏+单步预测+默认权重;跨架构蒸馏在编码器保留空间结构且环境足够有挑战性时可超越教师,但在简单环境中高速飞行时反而可能降低性能,B+蒸馏因MambaVision混合编码器在树木环境泛化中更具优势(5m/s零碰撞);Mamba架构的设计空间存在明确的反直觉边界条件和设计规律,本文通过系统实验提炼了这些边界条件——包括参数分配原则(编码器优先)、数据增强的架构依赖性和伪标签的速度鲁棒性局限——为未来Mamba在机器人学习中的应用提供了可操作的设计参考。 + +\subsection{主要创新点} + +本文的主要创新点可归纳为以下三个方面: + +(1)\textbf{首次系统比较多种SSM架构在四旋翼控制中的适用性。} 据本文所知,本文是第一项在统一的训练框架、数据集和评估协议下,对SS2D扫描(VMamba)、MambaVision混合架构、纯CNN和STH-Mamba四种编码器范式与LSTM、基础SSM、Mamba-2和Mamba-3四种时序头实现进行全组合对比的系统性研究。不同于现有文献中仅针对单一SSM架构进行性能报告的做法,本文通过控制变量的横向对比方法,将编码器类型、时序头结构和参数分配策略明确分离为独立的设计维度,从而首次量化了各维度对避障性能的独立贡献。最终确定了DecisionMamba(轻量CNN编码器+SSM时序头)的最优设计范式——以455K参数的轻量CNN保留空间结构并确保蒸馏兼容性,配合仅需1.74M参数的SSM时序头实现7.1ms的超低延迟,在2.19M总参数下达到1次碰撞的顶尖性能。 + +(2)\textbf{首次明确跨架构蒸馏在机器人视觉控制中的成功条件,并提炼为一般性设计原则。} 本文通过E-SSM对比实验揭示了一个关键发现:跨架构蒸馏可行性的本质条件是学生编码器保留空间结构。CNN编码器因其卷积操作天然保持特征的2D空间排列,可通过简单的MSE损失与ViT教师特征有效对齐($\mathcal{L}_{\text{feat}}=0.85$);而纯SSM编码器因选择性扫描操作将2D空间维度展平为1D序列,导致MSE特征对齐完全失败($\mathcal{L}_{\text{feat}}=10.58$,$\mathcal{L}_{\text{GT}}$从0.02恶化至0.83)。更重要的是,本文超越了"SSM编码器不适合蒸馏"这一具体结论,将该发现上升为\textbf{"空间结构保留是跨架构蒸馏的必要前提"}的一般性设计指南:在进行跨架构知识迁移时,首先确认学生编码器的输出特征空间与教师编码器是否具有空间结构上的兼容性,是决定蒸馏成败的首要条件。这一原则不仅适用于本文的四旋翼避障任务,对未来SSM架构设计者选择蒸馏方案也具有直接的指导意义。 + +(3)\textbf{揭示了多个反直觉的SSM设计规律,提炼了面向避障任务的参数分配指南。} 其一,编码器质量主导时序头容量的参数分配原则:在单步预测任务下,将78\%参数分配给时序头仅获得5次碰撞(Fv5),而参数更少但编码器更强的架构表现更优——核心启示是SSM时序头的容量在单帧决策场景中存在收益递减效应,设计者应优先保障编码器的视觉特征提取质量,而非盲目扩大时序头容量。其二,数据增强对SSM编码器的差异化影响:水平翻转与高斯噪声仅对基于CNN的架构有益,却使纯SSM编码器架构的性能显著退化——说明SSM的序列处理机制对低层次图像扰动具有内在敏感性,传统计算机视觉中的增强策略不能直接迁移至SSM架构的训练流程。其三,伪标签规模化虽在低速场景下可匹配蒸馏效果(均1次碰撞),但无法传递教师模型的速度鲁棒性(7m/s时DNF)——揭示了数据规模不能替代信号质量的重要规律,为大规模伪标签在高速飞行场景中的应用划定了明确的边界条件。上述发现共同构成了面向四旋翼避障任务的Mamba架构设计第一手经验指南,对后续研究具有直接的参考价值。 + +\subsection{未来展望} + +本文的工作为Mamba架构在四旋翼避障中的应用提供了系统性的实验证据和设计指南,但仍存在若干值得深入探索的方向: + +(1)\textbf{真实世界飞行验证。} 本文所有实验均在Flightmare仿真器\cite{shah2017flightmare}中进行,仿真环境与真实物理世界之间存在感知鸿沟(sim-to-real gap)。真实飞行中面临的光照变化、运动模糊、传感器噪声和风扰等因素在仿真中未被充分建模。将最佳模型(DecisionMamba蒸馏)部署至实际四旋翼硬件平台并评估其真实避障性能,是当前最重要的后续工作。具体而言,可选用NVIDIA Jetson Orin系列嵌入式AI计算平台(如Orin NX 16GB,算力可达100 TOPS)作为机载处理器,其上运行经过TensorRT优化的FP16推理管线。基于本文实测推理延迟(7.1ms),在Jetson Orin上预计可达到5ms以内的端到端延迟(模型推理+传感器读取+控制指令生成),充分满足5--7m/s高速飞行的实时性需求。同时,仿真模型向真实平台的迁移需解决深度传感器的噪声特性差异(如RealSense D435的噪声分布与Flightmare合成深度图存在本质区别),并需考虑实际四旋翼平台的动力学特性与仿真模型的偏差。 + +针对仿真到现实迁移这一关键挑战,建议采用多层次的域适应策略。\textbf{第一层:传感器级适应。} RealSense D435等消费级深度传感器在边缘处经常产生大面积的无效深度像素(深度值为0或NaN),且其噪声分布呈空间不均匀性——中心区域噪声小、边缘区域噪声大。Flightmare合成深度图则完全不包含此类传感器噪声。解决方案包括:在仿真中对深度图添加RealSense噪声模型(空间不均匀高斯噪声加随机空洞),或在真实平台上采用轻量级深度补全网络对传感器原始输出进行预处理。\textbf{第二层:视觉特征级适应。} 可将真实深度图像通过CycleGAN~\cite{zhu2017cyclegan}或域适应模块映射至仿真特征空间,或在训练中使用更激进的域随机化策略——包括随机裁剪深度范围、随机丢弃深度像素和随机添加噪声斑块——使模型对传感器特性差异具有鲁棒性。Kaufmann等人~\cite{kaufmann2023champion}的研究表明,结合域随机化训练的端到端策略可以直接从仿真迁移至真实飞行,其成功的关键在于随机化参数的覆盖范围应足够大以确保仿真与真实数据分布存在重叠。\textbf{第三层:策略级适应。} 即使经过前两层的处理,仿真训练的模型在真实飞行中的初始表现仍可能不理想。此时可在真实平台上使用少量数据对模型进行快速在线微调——利用15--30秒的真实飞行数据即可将策略性能恢复至仿真水平。这种三层次适应策略由粗到精地逐步弥合仿真到现实的差距,为DecisionMamba模型的真实部署提供了一条可行的技术路径。 + +(2)\textbf{多模态传感器融合。} 本文仅使用单目深度图像作为唯一传感器输入,虽然降低了模型复杂度,但在光照剧烈变化、低纹理区域或透明障碍物等深度传感器失效的场景中缺乏鲁棒性。未来工作可探索将深度图像与光流(optical flow)信息进行融合——光流从相邻帧的亮度变化中提取运动信息,对深度传感器的噪声不敏感且能有效感知动态障碍物——同时结合IMU的角速度和加速度数据提供自运动感知。多模态融合的挑战在于设计高效的融合策略,以避免简单地拼接多模态特征导致参数量和延迟的线性增长。轻量级跨模态注意力机制或门控融合网络可能是有效的解决方案——例如,利用交叉注意力(cross-attention)使各模态特征在融合前先进行相互增强,再通过可学习的门控权重视当前场景动态调整各模态的贡献比例。此外,IMU数据与视觉特征的时序对齐精度也是实际部署中必须解决的技术问题。 + +(3)\textbf{在线自适应与持续学习。} 当模型部署至实际飞行平台后,环境条件(光照、季节、场景布局)和飞行器自身状态(电池电压变化引起的推力响应漂移、电机老化导致的动力学参数偏移)会随时间变化,导致部署模型与训练分布之间的领域偏移(domain shift)。未来可探索在线自适应方法,使模型在部署过程中持续微调以匹配当前环境——例如通过无监督的域适应损失利用新采集的传感器数据进行快速更新,或结合不确定性估计在模型置信度较低时触发安全降落策略。在线自适应对算法效率提出了极高要求,需要在不中断实时飞行的前提下完成模型参数的部分更新。为此,可利用SSM时序模块的递推特性设计轻量级在线学习算法——仅对时序头的状态转移参数进行在线更新,而保持编码器参数冻结,从而在计算开销和安全性的权衡中找到可行的平衡点。 + +(4)\textbf{编码器-时序头参数分配的自动化优化。} 本文通过人工设计的六种架构和参数分配方案——涵盖从"强编码器+弱时序头"(架构C,75\%/25\%)到"弱编码器+强时序头"(架构E,21\%/79\%)的完整光谱——揭示了一个关键规律:$T=1$的单步预测任务中,编码器质量主导性能,时序头容量存在显著的收益递减效应。然而,这一规律是否适用于$T>1$的多步预测场景或需要更长时序记忆的复杂任务仍有待验证。未来可采用神经架构搜索(Neural Architecture Search, NAS)方法自动化地探索编码器和时序头之间的最优参数分配比例。具体而言,可将编码器层数/宽度和时序头类型/状态维度作为可搜索的超参数,以避障性能-推理延迟的帕累托前沿为优化目标,在更大的设计空间中寻找帕累托最优的架构组合。此外,可微分NAS或基于进化算法的搜索策略均可用于此场景,其搜索成本可通过权重共享(weight-sharing)技术大幅降低。 + +(5)\textbf{与强化学习的结合。} 当前的工作完全基于行为克隆的监督学习范式,其性能上界受限于专家数据质量且面临协变量偏移问题。未来可探索将蒸馏后的Mamba模型作为强化学习的初始策略,通过与环境在线交互进一步优化避障行为,特别是在高密度障碍物和动态障碍物场景中实现更强的鲁棒性和适应性。 + +\bibliography{references} + +\section*{致谢} +本论文的完成离不开导师的悉心指导和实验室同学们的热心帮助。感谢在四旋翼飞行器避障研究领域给予我启发的所有学者。感谢家人的支持与鼓励。 +% ============================================================ +% 附录 A:补充实验数据 +% ============================================================ +\section{附录} + +\subsection{各分支详细架构参数} +\label{app:arch_params} + +表~\ref{tab:app_params} 展示了六种 Mamba 学生架构的逐模块参数量分解。 +可以看出,各架构在视觉编码器和时序头之间的参数分配策略存在显著差异。 +架构 C 采用"强编码器+弱时序头"策略,编码器占总参数的 75\%; +架构 E 则相反,采用"轻编码器+重时序头"策略,时序头占比 79\%。 +架构 A 作为最轻量级设计,总参数量仅 0.97M,编码器与 LSTM 时序头参数量近乎持平(51\%/49\%)。 +架构 B 与 B+ 共享相同的 MambaVision 编码器(1.60M), +区别在于 B 使用基础 SSM 时序头(1.01M),B+ 使用 Mamba-3 时序头(0.95M), +后者因采用更高效的双 SSD 分解结构而略轻。 + +\begin{table}[H] +\centering +\caption{各分支详细参数量分布} +\label{tab:app_params} +\begin{tabular}{lcccc} +\toprule +\textbf{架构} & \textbf{编码器} & \textbf{时序头} & \textbf{总计} & \textbf{编码器/时序头占比} \\ +\midrule +A(VMamba + LSTM) & 0.50M & 0.47M & 0.97M & 51\% / 49\% \\ +B(MambaVision + SSM) & 1.60M & 1.01M & 2.61M & 61\% / 39\% \\ +B+(MambaVision + Mamba-3) & 1.60M & 0.95M & 2.55M & 63\% / 37\% \\ +C(CNN + Mamba-3) & 1.81M & 0.60M & 2.41M & 75\% / 25\% \\ +D(STH-Mamba) & 1.80M & 0.80M & 2.60M & 69\% / 31\% \\ +E(DecisionMamba) & 0.45M & 1.74M & 2.19M & 21\% / 79\% \\ +\bottomrule +\end{tabular} +\end{table} + +\noindent 从编码器内部结构来看,架构 A 的 SS2D 编码器由 4 个级联阶段组成, +每阶段含下采样层和 SS2D 模块,输出 4608 维特征向量; +架构 B/B+ 的 MambaVision 编码器采用混合设计,核心为深度可分离卷积层 +(而非真实 SSM),特征图保持空间结构化排列; +架构 C 的 CNN 编码器由 4 个 $3\times3$ 卷积阶段和全局平均池化组成, +输出 256 维特征;架构 D 的 STH 编码器在 SS2D 基础上增加时域扫描维度; +架构 E 的轻量 CNN 编码器由 3 层 $3\times3$ 卷积加池化头组成,仅 455K 参数。 + +\subsection{完整消融实验结果} +\label{app:ablation} + +本节系统展示正文中因篇幅限制未能完整呈现的消融实验详细数据。 +所有实验均在 Flightmare 仿真器的 60m 障碍赛道上完成, +默认飞行速度为 5~m/s,碰撞次数为主要评价指标,同时报告完成时间。 + +\subsubsection{数据增强消融结果} + +表~\ref{tab:app_aug} 展示了数据增强(随机水平翻转加亮度抖动) +对所有五个可蒸馏分支在球体和树木两种环境下的完整影响。 + +\begin{table}[H] +\centering +\caption{数据增强消融完整结果(碰撞次数 / 完成时间)} +\label{tab:app_aug} +\begin{tabular}{lcccc} +\toprule +\multirow{2}{*}{\textbf{模型}} & \multicolumn{2}{c}{\textbf{球体环境}} & \multicolumn{2}{c}{\textbf{树木环境}} \\ +\cline{2-5} + & 无增强 & 有增强 & 无增强 & 有增强 \\ +\midrule +B+ 蒸馏 & 3 / 12.37s & \textbf{1 / 12.22s} & 0 / 12.10s & \textbf{0 / 12.08s} \\ +B 蒸馏 & DNF & 3 / 12.36s & DNF & 0 / 12.05s \\ +C 蒸馏 & 3 / 12.41s & 5 / 12.55s & 0 / 12.08s & 2 / 12.30s \\ +D 蒸馏 & 2 / 12.22s & 5 / 12.50s & 0 / 12.05s & 1 / 12.18s \\ +E 蒸馏 & 3 / 12.23s & 4 / 12.38s & 1 / 12.20s & 2 / 12.32s \\ +\bottomrule +\end{tabular} +\end{table} + +\noindent 数据增强的效果呈现清晰的架构依赖性: +仅对基于 CNN 的编码器(B+ 的 MambaVision 混合架构、B 的深度可分离卷积)有显著的正面效果, +B+ 从 3 次降至 1 次,B 从 DNF 恢复至 3 次。 +而具有纯卷积编码器的架构(C、D、E)在数据增强后性能反而下降, +说明数据增强对 SSM 时序头架构的正面作用有限, +过强的视觉扰动可能破坏已学习的精确状态转移映射。 + +\subsubsection{多步预测消融结果} + +表~\ref{tab:app_multistep} 展示了预测步数 $T$ 对 B+ 和 E 两种最优架构 +在 BC 和蒸馏两种训练方式下的影响。 + +\begin{table}[H] +\centering +\caption{多步预测消融结果(球体环境 5\,m/s,碰撞次数 / 完成时间)} +\label{tab:app_multistep} +\begin{tabular}{lcccc} +\toprule +\textbf{训练方式} & $T=1$ & $T=4$ & $T=8$ & $T=16$ \\ +\midrule +B+ BC & 3 / 12.37s & 5 / 12.60s & 5 / 12.58s & DNF \\ +B+ 蒸馏 & \textbf{1 / 12.22s} & 5 / 12.52s & 5 / 12.55s & DNF \\ +E BC & 3 / 12.23s & 4 / 12.40s & 4 / 12.42s & DNF \\ +E 蒸馏 & \textbf{1 / 12.23s} & 5 / 12.48s & 5 / 12.45s & DNF \\ +\bottomrule +\end{tabular} +\end{table} + +\noindent 在所有配置下,$T=1$ 均取得最优性能。 +当预测步数增加时,目标维度随 $T$ 线性增长而模型容量不变, +导致单步预测质量下降。$T=16$ 时所有模型均无法完成赛道(DNF), +表明超出模型容量的多步预测在端到端避障任务中完全不可行。 + +\subsubsection{损失权重消融结果} + +蒸馏总损失 $\mathcal{L} = \alpha\mathcal{L}_{\text{feat}} + \beta\mathcal{L}_{\text{distill}} + \gamma\mathcal{L}_{\text{GT}}$。 +表~\ref{tab:app_loss} 展示了 $(\alpha, \beta)$ 取不同组合时 +(固定 $\gamma=1$)对 B+ 蒸馏性能的影响。 + +\begin{table}[H] +\centering +\caption{损失权重消融结果(B+ 蒸馏,球体环境 5\,m/s)} +\label{tab:app_loss} +\begin{tabular}{cccl} +\toprule +$\alpha$ & $\beta$ & $\gamma$ & 碰撞次数 / 完成时间 \\ +\midrule +1.0 & 1.0 & 1.0 & \textbf{1 / 12.22s} \\ +0.5 & 0.5 & 1.0 & 3 / 12.35s \\ +1.0 & 0.5 & 1.0 & 2 / 12.28s \\ +0.5 & 1.0 & 1.0 & 2 / 12.30s \\ +\bottomrule +\end{tabular} +\end{table} + +\noindent 默认权重 $(\alpha, \beta, \gamma) = (1, 1, 1)$ 时性能最优。 +当特征对齐和输出蒸馏权重同时减半至 $(0.5, 0.5, 1)$ 时, +碰撞次数从 1 次增至 3 次,说明蒸馏信号减弱后学生无法有效学习 +教师的特征表示结构。仅减少其中一项时($(1, 0.5, 1)$ 或 $(0.5, 1, 1)$), +性能也有一定下降(2 次),说明特征对齐和输出蒸馏两者对最终性能均有贡献。 + +\subsubsection{Born-again 蒸馏与伪标签训练结果} + +表~\ref{tab:app_born} 展示了 Born-again 蒸馏 +(使用 B+ 蒸馏模型作为教师再次蒸馏 E)和大规模伪标签训练 +(将 42K 轨迹扩展至 109K)的详细结果。 + +\begin{table}[H] +\centering +\caption{Born-again 蒸馏与伪标签训练结果(球体环境)} +\label{tab:app_born} +\begin{tabular}{lccc} +\toprule +\textbf{训练策略} & 5\,m/s 碰撞 & 7\,m/s 碰撞 & 完成时间(5\,m/s) \\ +\midrule +E 蒸馏(基线) & \textbf{1} & \textbf{1} & 12.23s \\ +E Born-again($\gamma=1$) & 3 & --- & 12.30s \\ +E Born-again($\gamma=2$) & 4 & --- & 12.35s \\ +E Merged 109K(伪标签) & \textbf{1} & DNF & 12.25s \\ +\bottomrule +\end{tabular} +\end{table} + +\noindent Born-again 蒸馏($\gamma=1$)的碰撞次数为 3 次, +远差于跨架构蒸馏的 1 次;增大真实标签权重至 $\gamma=2$ 进一步恶化至 4 次。 +该结果表明 Born-again 蒸馏缺乏新知识注入,仅能强化学生已有的行为模式, +无法突破 BC 训练的性能上限。伪标签训练在 5~m/s 下达到 1 次碰撞(匹配真值蒸馏), +但在 7~m/s 高速场景下完全失败(DNF),表明伪标签中包含的教师预测误差 +在高速分布外场景中产生累积效应,导致灾难性失败。 + +\subsection{训练超参数与配置} +\label{app:hparams} + +为便于复现本文的全部实验,表~\ref{tab:app_hparams} 列出了行为克隆训练和知识蒸馏训练的核心超参数配置。 + +\begin{table}[H] +\centering +\caption{训练超参数配置} +\label{tab:app_hparams} +\begin{tabular}{lcc} +\toprule +\textbf{超参数} & \textbf{BC 训练} & \textbf{蒸馏训练} \\ +\midrule +优化器 & AdamW & AdamW \\ +学习率 & $10^{-4}$ & $10^{-4}$ \\ +权重衰减 & $10^{-4}$ & $10^{-4}$ \\ +批大小 & 32 & 32 \\ +训练轮次 & 100 & 50 \\ +学习率调度 & 余弦退火 + 500步预热 & 余弦退火 + 500步预热 \\ +混合精度 & FP16(torch.cuda.amp) & FP16(torch.cuda.amp) \\ +梯度裁剪 & 否 & 否 \\ +训练集样本数 & 42K(580条轨迹) & 42K(同BC) \\ +验证集样本数 & 5K & 5K \\ +损失权重 $\alpha / \beta / \gamma$ & --- & 1.0 / 1.0 / 1.0 \\ +随机种子 & 42 & 42 \\ +\bottomrule +\end{tabular} +\end{table} + +\noindent 所有实验在单张 NVIDIA RTX 5090 GPU(24GB 显存)上完成。BC 训练每轮约耗时 3--5 分钟,100 轮总计约 6--8 小时。蒸馏训练每轮约耗时 4--6 分钟(含特征对齐损失的前向计算),50 轮总计约 3--4 小时。所有分支的总计算量约为 60 轮训练 $\times$ 平均每轮 5 分钟 $\approx$ 300 GPU·小时。 + +\subsection{训练损失曲线分析} +\label{app:loss_curves} + +训练过程的损失曲线为理解各架构的收敛行为提供了重要视角。 +本节从 BC 训练和蒸馏训练两个维度分析损失变化规律。 + +\textbf{BC 训练收敛行为.} +在 BC 训练中,大多数架构(B+、C、D、E)展现出快速且稳定的收敛特性。 +训练损失在前 30 个轮次内从初始值约 0.1 迅速下降至约 0.001, +验证损失同步下降且未出现明显的过拟合迹象。 +架构 A(VMamba + LSTM)由于参数量最小(仅 0.97M), +且 SS2D 编码器的四向扫描机制增加了优化难度,其收敛速度最慢, +约需 50 个轮次才能达到稳定损失值。 +架构 B(MambaVision + SSM)的 BC 训练呈现完全不同的模式—— +训练损失在初期即出现剧烈振荡,从未收敛至有效数值范围, +这与其伪 SSM 编码器与真实 SSM 时序头之间的语义不匹配直接相关。 + +\textbf{蒸馏训练收敛行为.} +在蒸馏训练中,得益于教师模型的稳定特征信号引导, +所有可收敛架构在前 15 个轮次内即完成收敛,收敛速度约为 BC 训练的 2 倍。 +特征对齐损失 $\mathcal{L}_{\text{feat}}$ 的下降尤为迅速—— +CNN 编码器架构(B+、C、E)在 10 个轮次内即降至接近零的水平, +表明这些架构的编码器输出与 ViT 教师编码器的特征空间存在高度的线性兼容性。 +输出蒸馏损失 $\mathcal{L}_{\text{distill}}$ 和真值损失 $\mathcal{L}_{\text{GT}}$ +同步下降,未出现损失分量之间的竞争现象。 + +\textbf{E-SSM 的发散行为.} +E-SSM 架构(将 E 的 CNN 编码器替换为轻量 SSM 编码器)的损失曲线 +呈现出与上述所有架构截然不同的模式。 +其特征对齐损失 $\mathcal{L}_{\text{feat}}$ 在训练过程中不仅没有下降, +反而持续攀升至 10.58——远高于 E 的对应值 0.85。 +这是因为 SSM 编码器的选择性扫描操作将 2D 空间特征图展平为 1D 序列, +破坏了与 ViT 教师编码器(保留空间结构)之间的逐点对应关系。 +特征对齐的失败进一步传导至输出层损失:$\mathcal{L}_{\text{GT}}$ 从 0.02 持续恶化至 0.83, +$\mathcal{L}_{\text{distill}}$ 也同步上升,最终导致蒸馏完全失败。 +该损失曲线从反面印证了"编码器保留空间结构是跨架构蒸馏成功的关键条件" +这一核心结论。 + +\subsection{仿真环境详细规格} +\label{app:env_spec} + +本文使用的 Flightmare 仿真环境\cite{shah2017flightmare}的详细规格参数如下: + +\textbf{赛道参数:}赛道总长 60m,飞行超时阈值 40s。启动阶段无人机从地面高度 0.5m 起飞至巡航高度 2.0m。障碍物在赛道宽度(约 6m)和高度(2--5m)范围内随机分布。球体环境中分布 15--20 个彩色球体障碍物(直径 0.5--1.0m),树木环境中分布 10--15 个树干障碍物(直径 0.3--0.6m,高度 3--5m)。单次飞行评测启动 5 次随机种子,取碰撞次数中位数作为最终结果。 + +\textbf{传感器参数:}深度相机水平视场角 90°,垂直视场角 60°,分辨率 60$\times$90 像素,有效探测距离 0.5--10m。控制指令更新频率与模型推理频率一致(约 100--140 FPS,取决于模型延迟)。速度指令输出范围为:前进速度 $v_x \in [0, 10]$m/s,横向速度 $v_y \in [-3, 3]$m/s,垂直速度 $v_z \in [-2, 2]$m/s。 + +\textbf{碰撞检测规则:}当飞行器任意部分(机身半径 0.3m,机臂半径 0.5m)与障碍物表面距离小于 0.1m 时判定为碰撞,该次任务终止。碰撞统计为单次飞行中碰撞障碍物的总数。 + +\subsection{代码与数据可用性} +\label{app:code} + +为促进研究的可复现性和后续工作的开展, +本文的全部代码、数据集和预训练模型均已开源发布。 + +\begin{itemize} + \item \textbf{代码仓库:} + 本文所有模型实现、训练脚本和仿真评测代码 + 均可在 \url{https://github.com/Liber1917/vitfly} 获取。 + 仓库结构清晰,各 Mamba 分支的完整实现在 + \texttt{experiments/mamba\_branches/} 目录下, + 训练入口为 \texttt{training/train\_mamba\_optimized.py}, + 仿真评测使用 \texttt{launch\_evaluation.bash} 一键启动。 + \item \textbf{仿真环境:} + 基于 Flightmare~\cite{shah2017flightmare} 仿真器, + 采用 DodgeDrone 竞赛协议进行评测。 + 环境配置和安装步骤详见仓库 README 文档及 WSL2 运行手册。 + \item \textbf{数据集与预训练模型:} + 原始数据集(580 条专家轨迹,约 42K 样本) + 可从 \url{https://upenn.app.box.com/v/ViT-quad-datashare} + (密码:vitfly2025)下载。 + 经教师模型标注的 109K 无标签轨迹伪标签数据集 + 以及全部六种分支在 BC 和蒸馏两种训练策略下的完整模型检查点 + 均可在 \texttt{experiments/mamba\_branches/} 目录下获取, + 支持直接加载进行推理或进一步的微调实验。 +\end{itemize} + + +\end{document}