Skip to content

Asstar-X/AsVox

Repository files navigation

中文 | English

Speech AI (语音AI) 平台

一个基于 FastAPI 的综合语音 AI 平台,支持 ASR(中英文语音识别)、TTS(预设/克隆声音合成)、语音增强、会议纪要和视频字幕添加。

Preview


核心功能

1. 语音转文字 (ASR)

  • SenseVoice (中文): 针对中文音频的高精度识别。
  • Whisper (英文): 英文及多语言识别的行业标准。
  • 接口: POST /api/asr

2. 文字转语音 (TTS)

  • 预设模式: 使用内置的高质量说话人进行合成。
  • 克隆模式: 通过参考音频片段模仿特定说话人的声音。
  • 接口: POST /api/tts

3. 语音增强

  • 降噪: 消除音频背景噪音。
  • 接口: POST /api/enhance

4. 智能会议纪要

  • 转录: 生成带时间戳的分段文本。
  • 总结: 利用大语言模型 (LLM) 提取要点和摘要。
  • 接口: /api/meeting/transcribe, /api/meeting/summarize

5. 视频处理

  • 自动字幕: 自动生成字幕并嵌入到视频文件中。
  • 接口: POST /api/video/subtitles

模型安装 (必读)

为了使 TTS 功能正常运行,您需要手动下载模型文件:

  1. 前往 GitHub Releases 下载 archive.tar
  2. 手动解压 archive.tar
  3. 将解压出的文件放入项目目录下的 checkpoints/kokoro 目录中。
  4. checkpoints/kokoro 目录的内容应包含以下三个文件:
    • config-v1.1-zh.json
    • kokoro-v1.1-zh.onnx
    • voices-v1.1-zh.bin

Docker 部署

本平台可通过 Docker 轻松部署。

1. 本地构建 (推荐)

如果您对代码进行了修改或想在本地运行:

# 使用 docker compose 构建镜像
docker compose build

# 启动服务
docker compose up

2. 云镜像构建 (使用预构建镜像)

如果您只想快速运行而不修改代码:

# 拉取最新镜像
docker pull sonsii/speech-platform:latest

# 启动服务
docker compose up

3. 配置说明

您可以通过环境变量自定义平台的行为。

指定端口

如果要在不同的端口运行(例如 9000):

API_PORT=9000 docker compose up

指定设备 (CPU/GPU)

默认使用 cpu。如果要使用 GPU(需安装 NVIDIA Container Toolkit):

DEVICE=cuda docker compose up

同时设置

API_PORT=9000 DEVICE=cuda docker compose up

本地安装 (非 Docker)

如果您希望在本地开发环境直接运行(推荐 Python 3.10):

1. 创建虚拟环境

# 创建并激活虚拟环境 (以 venv 为例)
python3.10 -m venv venv
source venv/bin/activate

2. 安装依赖

pip install -r requirements.txt

3. 启动服务

# 启动生产模式
python run.py

# 或者以开发模式启动 (支持热重载)
python run.py --reload

技术细节

  • 后端框架: FastAPI
  • Python 版本: 3.10
  • 项目存储:
    • outputs/: 生成的音频和视频文件。
    • checkpoints/: AI 模型文件(按需自动下载)。
  • 环境变量:
    • API_PORT: 暴露的服务端口(默认 8000)。
    • DEVICE: 计算设备(cpucuda)。

Tip

建议使用 Docker 挂载卷以在容器重启后保留模型。详情请参考 docker-compose.yml

About

一个基于 FastAPI 的语音AI平台,支持 ASR(中英文语音识别)、TTS(预设/克隆声音合成)、语音增强、会议纪要和视频字幕添加。

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors