中文 | English
一个基于 FastAPI 的综合语音 AI 平台,支持 ASR(中英文语音识别)、TTS(预设/克隆声音合成)、语音增强、会议纪要和视频字幕添加。
- SenseVoice (中文): 针对中文音频的高精度识别。
- Whisper (英文): 英文及多语言识别的行业标准。
- 接口:
POST /api/asr
- 预设模式: 使用内置的高质量说话人进行合成。
- 克隆模式: 通过参考音频片段模仿特定说话人的声音。
- 接口:
POST /api/tts
- 降噪: 消除音频背景噪音。
- 接口:
POST /api/enhance
- 转录: 生成带时间戳的分段文本。
- 总结: 利用大语言模型 (LLM) 提取要点和摘要。
- 接口:
/api/meeting/transcribe,/api/meeting/summarize
- 自动字幕: 自动生成字幕并嵌入到视频文件中。
- 接口:
POST /api/video/subtitles
为了使 TTS 功能正常运行,您需要手动下载模型文件:
- 前往 GitHub Releases 下载
archive.tar。 - 手动解压
archive.tar。 - 将解压出的文件放入项目目录下的
checkpoints/kokoro目录中。 checkpoints/kokoro目录的内容应包含以下三个文件:config-v1.1-zh.jsonkokoro-v1.1-zh.onnxvoices-v1.1-zh.bin
本平台可通过 Docker 轻松部署。
如果您对代码进行了修改或想在本地运行:
# 使用 docker compose 构建镜像
docker compose build
# 启动服务
docker compose up如果您只想快速运行而不修改代码:
# 拉取最新镜像
docker pull sonsii/speech-platform:latest
# 启动服务
docker compose up您可以通过环境变量自定义平台的行为。
如果要在不同的端口运行(例如 9000):
API_PORT=9000 docker compose up默认使用 cpu。如果要使用 GPU(需安装 NVIDIA Container Toolkit):
DEVICE=cuda docker compose upAPI_PORT=9000 DEVICE=cuda docker compose up如果您希望在本地开发环境直接运行(推荐 Python 3.10):
# 创建并激活虚拟环境 (以 venv 为例)
python3.10 -m venv venv
source venv/bin/activatepip install -r requirements.txt# 启动生产模式
python run.py
# 或者以开发模式启动 (支持热重载)
python run.py --reload- 后端框架: FastAPI
- Python 版本: 3.10
- 项目存储:
outputs/: 生成的音频和视频文件。checkpoints/: AI 模型文件(按需自动下载)。
- 环境变量:
API_PORT: 暴露的服务端口(默认8000)。DEVICE: 计算设备(cpu或cuda)。
Tip
建议使用 Docker 挂载卷以在容器重启后保留模型。详情请参考 docker-compose.yml。
