Vosk是开源的语音识别工具包。Vosk支持的事情包括:
-
支持十九种语言 - 中文,英语,印度英语,德语,法语,西班牙语,葡萄牙语,俄语,土耳其语,越南语,意大利语,荷兰人,加泰罗尼亚语,阿拉伯, 希腊语, 波斯语, 菲律宾语,乌克兰语, 哈萨克语。
-
移动设备上脱机工作-Raspberry Pi,Android,iOS。
-
使用简单的 pip3 install vosk 安装。
-
每种语言的手提式模型只有是50Mb, 但还有更大的服务器模型可用。
-
提供流媒体API,以提供最佳用户体验(与流行的语音识别python包不同)。
-
还有用于不同编程语言的包装器-java / csharp / javascript等。
-
可以快速重新配置词汇以实现最佳准确性。
-
支持说话人识别。
离线语音识别API,适用于Android,iOS,Raspberry Pi和具有Python,Java,C#等
链接: vosk-api github地址
有各语言的使用的示例
基于Vosk和Kaldi库的WebSocket,gRPC和WebRTC语音识别服务器
链接: vosk-server github地址
有各语言的使用的示例
导入依赖包
VoskResult
vosk模型加载
语言识别工具类
jave2 音频处理工具类
https://alphacephei.com/vosk/models
链接: 模型下载地址
链接: Exception: Failed to create a model 原因
vosk模型加载需要服务器有足够的内存
链接: vosk开源语音识别
链接: 基于Whisper的音频转录服务汇总
链接: 几款免费的语音转文字工具推荐
链接: java 离线中文语音文字识别
链接: Asr - python使用vosk进行中文语音识别
链接: NeMo非常强大,覆盖了ASR, NLP, TTS,提供了预训练模型及完整的训练模块。其商业版本为RIVA。
链接: ASRT语音识别文档
ASRT是一个基于深度学习的语音识别工具,可以用于开发最先进的语音识别系统,是由AI柠檬博主(西安电子科技大学 · 西安市大数据与视觉智能重点实验室)从2016年起做的开源语音识别项目,基线为85%识别准确率,在某些条件下可做到95%左右的识别准确率。ASRT包含了语音识别算法服务端(用于训练或部署API服务)和多种平台及编程语言的客户端SDK,支持一句话识别和实时流式识别,相关的代码已经开源在GitHub和Gitee上。
ASRT语音识别系统的API已经为AI柠檬站内搜索引擎提供了语音识别服务,用于该站语音搜索功能的实现。
一些方向和思路:
- 确定语音识别引擎
首先,需要选择一个适合的语音识别引擎。常见的一些引擎有CMU Sphinx、Kaldi、百度语音、讯飞开放平台等等。选定引擎后,需要对其进行配置和训练,使其能够适应自己的应用场景。
- 搭建离线语音识别系统
接下来,需要进行搭建离线语音识别系统的工作。可以通过使用Ubuntu等Linux系统进行安装和配置。在系统中需要安装上一步中选择的语音识别引擎和相关依赖包。
- 提供Web API访问
为了使得离线语音识别系统能够方便地被访问和使用,需要提供相应的Web API。您可以使用Flask等框架搭建Web服务,并在其上下文中调用语音识别引擎进行语音识别工作。
最后,为了保证语音识别的精度和流畅度,还需要进行一系列优化和调试工作,例如声音降噪、语速控制、模型调优等等。希望以上方向可以帮助到您。
2 whisper
Whisper 是一种自动语音识别模型,基于从网络上收集的 680,000 小时多语言数据进行训练。
Whisper是一个语音识别引擎,可以用于开发语音控制应用程序,但它通常用于移动设备和嵌入式设备上,以提供离线语音识别的功能。如果您想使用Java搭建离线语音识别,您可以尝试使用其他语音识别引擎,如CMU Sphinx和Kaldi。 这些引擎都支持离线语音识别,并提供Java API供开发人员使用。
3 Kaldi
开源中文语音识别项目介绍:ASRframe
https://blog.csdn.net/sailist/article/details/95751825
腾讯AI Lab开源轻量级语音处理工具包PIKA
专注E2E语音识别,腾讯AI Lab开源轻量级语音处理工具包PIKA-CSDN社区
有什么开源的python汉语语音转文字项目?
https://blog.csdn.net/devid008/article/details/129656356
离线语音识别第三方服务提供商
1 科大讯飞
https://www.xfyun.cn/service/offline_iat
科大讯飞离线包仅基于安卓,也不支持java离线版
还像可以调用本地dll 实现离线语音
2 百度语音识别
https://ai.baidu.com/tech/speech/realtime_asr
不支持离线