超级搬运蚁 — 一站式视频下载、AI字幕生成、本地视频识别、多平台发布工作台
基于 AntBot 项目,整合 videoqwen3.5 本地视频识别能力和 social-auto-upload 多平台发布能力。
-
🧠 本地视频识别 (Qwen3-VL)
- 基于 Qwen3-VL 大模型的本地视频理解
- 支持 2B/4B/8B 三种模型大小
- 自动生成 SRT 字幕,支持风格学习
- 长视频自动分段处理,上下文保持一致
- Windows/macOS/Linux 全平台支持
-
📤 多平台发布 (social-auto-upload)
- 支持 8+ 平台:视频号、抖音、小红书、TikTok、YouTube、Bilibili、快手、百家号
- 一键多平台同步发布
- 支持定时发布、话题标签、描述文案
-
🔄 双引擎字幕生成
- Gemini 浏览器自动化(原有)
- Qwen3-VL 本地推理(新增)
- 自动模式:优先本地,回退云端
- ✅ 视频下载(yt-dlp 自动探测与回退)
- ✅ Gemini 字幕生成(浏览器自动化)
- ✅ 视频剪辑与配音(auto_dub_web)
- ✅ Playwright 自动发布(视频号/抖音)
- ✅ 语音克隆(Voicebox)
- ✅ 远程控制页面
- ✅ 多用户隔离
- ✅ fnOS/NAS Docker 部署
antbot-pro/
├── src/
│ ├── main/ # Electron 主进程
│ │ ├── index.js # 应用入口
│ │ ├── taskRunner.js # 任务编排引擎
│ │ ├── ipc.js # IPC 通信
│ │ ├── preload.js # 预加载脚本
│ │ └── services/
│ │ ├── config.js # 配置管理
│ │ ├── downloader.js # 视频下载
│ │ ├── subtitleEngine.js # 字幕生成引擎 (Gemini + Qwen3-VL)
│ │ ├── videoRecognition.js # 本地视频识别服务
│ │ ├── socialUpload.js # 多平台发布服务
│ │ ├── publisher.js # 发布服务 (Playwright + 多平台)
│ │ ├── editor.js # 视频剪辑
│ │ └── ... # 其他服务
│ ├── renderer/ # 桌面端 UI
│ └── remote/ # 远程控制页面
├── vendors/
│ ├── video_recognition/ # Qwen3-VL 视频识别服务
│ │ ├── service.py # Python 服务入口
│ │ ├── config.py # 模型配置
│ │ └── core/ # 核心模块
│ ├── social_upload/ # 多平台发布服务
│ │ └── service.py # Python 服务入口
│ └── auto_dub_web/ # 剪辑/配音服务
└── scripts/
└── test-antbot-pro.js # 测试脚本
- Node.js 20+
- Python 3.10+(用于视频识别和多平台发布)
- ffmpeg(视频处理)
- macOS / Windows / Linux
# 克隆项目
git clone <repo-url>
cd antbot-pro
# 安装 Node.js 依赖
npm install
# 安装 Python 依赖(视频识别)
cd vendors/video_recognition
pip install -r requirements.txt
cd ../..
# 安装 social-auto-upload(可选,多平台发布)
git clone https://github.com/dreammis/social-auto-upload.git vendors/social-auto-upload
cd vendors/social-auto-upload
pip install -r requirements.txt
cd ../..npm run devnode scripts/test-antbot-pro.js在设置页面可以配置字幕生成引擎:
| 配置项 | 值 | 说明 |
|---|---|---|
subtitle.engine |
gemini |
使用 Gemini 浏览器自动化(默认) |
subtitle.engine |
qwen3vl |
使用本地 Qwen3-VL 模型 |
subtitle.engine |
auto |
自动选择(优先本地) |
subtitle.qwen3vlModel |
2B/4B/8B |
Qwen3-VL 模型大小 |
| 配置项 | 值 | 说明 |
|---|---|---|
multiPlatform.enabled |
true/false |
是否启用多平台发布 |
multiPlatform.platforms |
["douyin", "videoChannel", ...] |
目标平台列表 |
multiPlatform.accountDir |
路径 | 账号配置目录 |
| 平台 | Key | 说明 |
|---|---|---|
| 视频号 | videoChannel |
微信视频号 |
| 抖音 | douyin |
抖音创作者平台 |
| 小红书 | xiaohongshu |
小红书 |
| TikTok | tiktok |
TikTok |
| YouTube | youtube |
YouTube |
| Bilibili | bilibili |
B站 |
| 快手 | kuaishou |
快手 |
| 百家号 | baijiahao |
百家号 |
- 在设置页登录视频号、抖音、Gemini
- 输入任务(支持批量)
- 自动执行:下载 → 字幕 → 剪辑 → 发布
- 在设置中选择字幕引擎为
qwen3vl - 选择模型大小(推荐 2B 起步)
- 首次使用会自动下载模型
- 后续任务自动使用本地模型生成字幕
- 在设置中启用多平台发布
- 选择目标平台
- 配置 social-auto-upload 账号
- 发布时自动同步到所有平台
{url} {output} {timeRange} {taskName} {original}
{url} {timeRange} {output} {prompt}
{taskName} {original} {inputVideo} {subtitleFile} {outputVideo} {voiceId} {voiceSpeed} {subtitleColor} {subtitleStroke}
{video} {scheduleAt} {taskName} {platform} {original}
本版本修复了以下问题:
- 字幕引擎解耦 - 将字幕生成从 gemini.js 解耦到 subtitleEngine.js,支持多引擎
- Windows Python 路径 - videoRecognition.js 和 socialUpload.js 增加了完整的 Windows Python 路径检测
- 配置验证 - 增加了配置项的类型验证和默认值处理
- 错误处理 - 改进了 Python 子进程的错误捕获和日志转发
- 模型缓存 - Qwen3-VL 模型加载后缓存在内存,避免重复加载
- 自动释放 - 切换模型时自动释放之前的模型,节省 GPU 内存
- 分段处理 - 长视频自动分段,每段独立处理,支持上下文传递
- 并行下载 - 支持 yt-dlp 多线程下载
# 运行完整测试
node scripts/test-antbot-pro.js
# 测试视频识别服务
cd vendors/video_recognition
python service.py /path/to/video.mp4 --model 2B --output test.srtUNLICENSED
- AntBot - 原始项目
- videoqwen3.5 - 视频识别能力
- social-auto-upload - 多平台发布能力
- Qwen3-VL - 视觉语言模型