Skip to content
LeonXu edited this page Apr 24, 2026 · 19 revisions

子曰 SpeakOut

macOS 离线优先 AI 语音输入系统。当前版本:v1.8.4

下载

系统要求:macOS 13+ (Ventura 及以上);首次安装后授权输入监控/辅助功能/麦克风三项权限。

功能概览

语音输入

  • 三种工作模式 — 纯离线(隐私优先)/ 智能(离线 ASR + AI 润色)/ 云端(高精度)
  • 8 款离线 ASR 模型 — SenseVoice、Paraformer、Whisper Large-v3、FireRedASR 等
  • 6 家云端 ASR — 阿里云百炼、Groq、OpenAI、火山引擎、讯飞、腾讯云
  • 两种触发方式 — 按住说话(PTT)或单击切换(Toggle),可共用一个键
  • 预分段识别 — 3 秒停顿触发后台解码,减少最终等待时间
  • 11 种语言 — 中英日韩粤 + 西法德俄葡,支持自动检测和实时口译

⚡ 超能力(热键驱动)

  • 闪念笔记 — 独立热键,语音保存为 Markdown,按天归档到自定义目录
  • AI 梳理 — 选中文字按快捷键,LLM 深度重组逻辑并追加在原文下一行
  • 即时翻译 — 按住说话自动翻译为目标语言
  • 纠错反馈 — 改完识别结果按反馈键,LLM 对比录音自动学入词汇表
  • AI 一键调试 — 截屏+语音描述 bug,一键发送到 Claude Code / Cursor

AI 润色与 LLM

  • 12 家 LLM 服务商 — 百炼、DeepSeek、豆包、OpenAI、Claude、智谱、Kimi、MiniMax、Gemini、讯飞、Groq、Ollama 本地
  • 专业词汇注入 — 行业词典 + 个人词库术语进 LLM prompt,实现领域感知
  • 打字机模式(Alpha) — 流式 LLM 输出逐字进光标
  • LLM 性能对比 — 各服务商延迟实测

技术栈

组件 技术
框架 Flutter/Dart
原生层 Objective-C (CGEventTap + AudioQueue Ring Buffer)
离线 ASR Sherpa-ONNX v1.12.33
云端 ASR WebSocket (阿里云/火山/讯飞/腾讯) + REST (Groq/OpenAI)
LLM 12 家服务商 OpenAI 兼容 / Anthropic / Gemini / Ollama 本地
后端 Cloudflare Workers (Hono) — 许可证、额度、版本检查

Wiki 目录

Clone this wiki locally