Fun-ASR-Nano-2512是阿里通义实验室前天刚发布的最新的一款语音识别转文字模型,支持31种语言,延迟低,我基于FunAudioLLM/Fun-ASR-Nano-2512模型制作了最新实时语音识别转文字热词版免安装一键启动整合包
首先将网盘内的软件压缩包下载到本地电脑上并解压,然后双击启动软件.exe
先选择识别结果保存位置,路径中不要有非英文字符和空格
音量阈值:如果环境中有噪音的话,可能会影响识别结果,导致输出无效内容
有些用户可能不知道如何设置该值,软件提供了个音量检测功能。先启动软件不要说话,如果还没说话,黑色终端窗口里就显示音量数值,就说明检测到环境噪音了,查看音量数值一般是多少,在软件设置里音量阈值大于该值即可。
静音时长:静音多长时间后认为说完一句话,软件开始识别内容。如果说话语速快的话,可降低该值。
针对部分电脑无法联网情况,软件支持离线使用
视频教程及效果演示:https://www.youtube.com/watch?v=iA_WCAPU4pY
软件只支持win10或11系统电脑
使用前先更新英伟达显卡驱动到最新版
默认使用GPU处理较快,没有英伟达显卡的话会使用CPU处理,速度略慢
软件运行路径中不要有非英文字符和空格