主页 > 学历教育 > 成教 >

Google开源LiveTranscribe的语音引擎,为长篇对话提供字幕

  • 推荐星级:
  • 授课对象:
  • 上课地址:
  • 授课学校:
  • 浏览人数:
课程价格:
  • 课程详情
  • 学校环境
  • 课程评价
本文摘要:发送到无限宽的音频流。此外,倚赖云意味著网络连接、数据成本和延后方面都有潜在问题。 结果,语音引擎在超过超时之前重开并重新启动流催促,还包括在长时间静默期间新的开始不会话并且每当语音中检测到停止时重开。在会话之间,语音引擎还在本地缓冲器音频,然后在新的相连时发送到它。因此,Google防止了切断的句子或单词,并增加了不会话中遗失的文本量。

皇冠集团网站

发送到无限宽的音频流。此外,倚赖云意味著网络连接、数据成本和延后方面都有潜在问题。

结果,语音引擎在超过超时之前重开并重新启动流催促,还包括在长时间静默期间新的开始不会话并且每当语音中检测到停止时重开。在会话之间,语音引擎还在本地缓冲器音频,然后在新的相连时发送到它。因此,Google防止了切断的句子或单词,并增加了不会话中遗失的文本量。70多种语言和方言中挑选出自己适合的为了减少比特率市场需求和成本,Google还评估了有所不同的音频编解码器:FLAC,AMR-WB和Opus。

FLAC(可用编解码器)可以维持准确性,会节省过于多数据,并且具备显著的编解码器延后。AMR-WB可以节省大量数据,但在喧闹的环境中准确度较低。

与此同时,Opus容许数据速率比大多数音乐流媒体服务较低许多倍,同时仍保有音频信号的最重要细节。Google还不会在长时间的静音期间用于语音检测来重开网络连接。

总体而言,该团队需要构建“在不影响准确性的情况下,将数据使用量增加10倍”。为了比Cloud Speech API更进一步增加延后,Live Transcribe用于自定义Opus编码器。

编码器刚好提升了比特率,使“延后在视觉上无法区分发送到未压缩的音频”。Live Transcribe语音引擎功能Google所列了语音引擎的以下功能(不还包括说出人辨识):无限流媒体。

皇冠集团网站

反对70多种语言。可以修改网络遗失(在网络和Wi-Fi之间转换时)。文字会遗失,只不会延后。

强劲的拓展网络损耗。即使网络早已电力供应数小时,也不会新的相连。

当然,没相连就无法展开语音辨识。可以精彩落成和配备Opus,AMR-WB和FLAC编码。

包括文本格式库,用作可视化ASR置信度、发言人ID等。可离线模型拓展。内置反对语音检测器,可在缩短静音期间用作暂停ASR,以节省资金和数据。内置反对扬声器辨识,可根据扬声器编号标记或着色文本。

皇冠集团网站

字幕不会随着对话的了解而调整该文档认为这些库与生产应用程序Live Transcribe中运营的库“完全完全相同”。Google已对其展开了“普遍的现场测试和单元测试”,但测试本身并非开源。

但Google显然获取了APK,因此开发者可以在不建构任何代码的情况下试用该库。((公众号:))via:android.comventurebeat原创文章,予以许可禁令刊登。下文闻刊登须知。


本文关键词:Google,开源,LiveTranscribe,的,语音,引擎,皇冠集团网站,为,长篇

本文来源:皇冠集团网站-www.keithloop.com

网上报名

学校信息

职业资格证即职业资格证书,是表明劳动者具有从事某一职业所必备的学识和技能的证明。它是劳动者求职、任职、开业的资格凭证,是用人单位招聘、录用劳动者的主要依据,也是境外就业、对外劳务合作人员办理技能水平公...

同类课程推荐

返回顶部