Speech AI (语音AI) 平台

中文 | English

Speech AI (语音AI) 平台

一个基于 FastAPI 的综合语音 AI 平台，支持 ASR（中英文语音识别）、TTS（预设/克隆声音合成）、语音增强、会议纪要和视频字幕添加。

核心功能

1. 语音转文字 (ASR)

SenseVoice (中文): 针对中文音频的高精度识别。
Whisper (英文): 英文及多语言识别的行业标准。
接口: POST /api/asr

2. 文字转语音 (TTS)

预设模式: 使用内置的高质量说话人进行合成。
克隆模式: 通过参考音频片段模仿特定说话人的声音。
接口: POST /api/tts

3. 语音增强

降噪: 消除音频背景噪音。
接口: POST /api/enhance

4. 智能会议纪要

转录: 生成带时间戳的分段文本。
总结: 利用大语言模型 (LLM) 提取要点和摘要。
接口: /api/meeting/transcribe, /api/meeting/summarize

5. 视频处理

自动字幕: 自动生成字幕并嵌入到视频文件中。
接口: POST /api/video/subtitles

模型安装 (必读)

为了使 TTS 功能正常运行，您需要手动下载模型文件：

前往 GitHub Releases 下载 archive.tar。
手动解压 archive.tar。
将解压出的文件放入项目目录下的 checkpoints/kokoro 目录中。
checkpoints/kokoro 目录的内容应包含以下三个文件：
- config-v1.1-zh.json
- kokoro-v1.1-zh.onnx
- voices-v1.1-zh.bin

Docker 部署

本平台可通过 Docker 轻松部署。

1. 本地构建 (推荐)

如果您对代码进行了修改或想在本地运行：

# 使用 docker compose 构建镜像
docker compose build

# 启动服务
docker compose up

2. 云镜像构建 (使用预构建镜像)

如果您只想快速运行而不修改代码：

# 拉取最新镜像
docker pull sonsii/speech-platform:latest

# 启动服务
docker compose up

3. 配置说明

您可以通过环境变量自定义平台的行为。

指定端口

如果要在不同的端口运行（例如 9000）：

API_PORT=9000 docker compose up

指定设备 (CPU/GPU)

默认使用 cpu。如果要使用 GPU（需安装 NVIDIA Container Toolkit）：

DEVICE=cuda docker compose up

同时设置

API_PORT=9000 DEVICE=cuda docker compose up

本地安装 (非 Docker)

如果您希望在本地开发环境直接运行（推荐 Python 3.10）：

1. 创建虚拟环境

# 创建并激活虚拟环境 (以 venv 为例)
python3.10 -m venv venv
source venv/bin/activate

2. 安装依赖

pip install -r requirements.txt

3. 启动服务

# 启动生产模式
python run.py

# 或者以开发模式启动 (支持热重载)
python run.py --reload

技术细节

后端框架: FastAPI
Python 版本: 3.10
项目存储:
- outputs/: 生成的音频和视频文件。
- checkpoints/: AI 模型文件（按需自动下载）。
环境变量:
- API_PORT: 暴露的服务端口（默认 8000）。
- DEVICE: 计算设备（cpu 或 cuda）。

Tip

建议使用 Docker 挂载卷以在容器重启后保留模型。详情请参考 docker-compose.yml。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
api		api
assets		assets
checkpoints		checkpoints
config		config
core		core
front		front
outputs		outputs
pipelines		pipelines
utils		utils
.DS_Store		.DS_Store
.dockerignore		.dockerignore
Dockerfile		Dockerfile
README.md		README.md
README_EN.md		README_EN.md
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt
run.py		run.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Speech AI (语音AI) 平台

核心功能

1. 语音转文字 (ASR)

2. 文字转语音 (TTS)

3. 语音增强

4. 智能会议纪要

5. 视频处理

模型安装 (必读)

Docker 部署

1. 本地构建 (推荐)

2. 云镜像构建 (使用预构建镜像)

3. 配置说明

指定端口

指定设备 (CPU/GPU)

同时设置

本地安装 (非 Docker)

1. 创建虚拟环境

2. 安装依赖

3. 启动服务

技术细节

About

Uh oh!

Releases 1

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Speech AI (语音AI) 平台

核心功能

1. 语音转文字 (ASR)

2. 文字转语音 (TTS)

3. 语音增强

4. 智能会议纪要

5. 视频处理

模型安装 (必读)

Docker 部署

1. 本地构建 (推荐)

2. 云镜像构建 (使用预构建镜像)

3. 配置说明

指定端口

指定设备 (CPU/GPU)

同时设置

本地安装 (非 Docker)

1. 创建虚拟环境

2. 安装依赖

3. 启动服务

技术细节

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages