本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】业界 | 搜狗知音引擎再进一步,实现语音实时翻译

时间:2017-01-12 19:07来源:本港台现场报码 作者:118开奖 点击:
搜狗在乌镇互联网大会上发布了实时翻译技术,此后,搜狗语音交互中心技术负责人陈伟详细介绍了背后的技术框架和搜狗的多项核心技术。 这次的语音实时翻译技术是在这个大框架

搜狗在乌镇互联网大会上发布了实时译技术,j2直播,此后,搜狗语音交互中心技术负责人陈伟详细介绍了背后的技术框架和搜狗的多项核心技术。

这次的语音实时译技术是在这个大框架下,通过知音引擎搜狗希望提供从听到说,能理解会思考的能力,涵盖了语音识别、语义理解和语音合成三个主要的能力,而知音引擎提出的口号是「更自然的语音交互」。「其中『更自然』分为三个层次,在识别这块,我们希望在人机使用语音进行交互的过程中,更加自然,接近人和人交互的方式。同时也希望我们的引擎更多理解人语言上的需求,直播,而在合成上则希望表达更加自然。」陈伟表示。

  

码报:【j2开奖】业界 | 搜狗知音引擎再进一步,实现语音实时翻译

搜狗知音引擎图示

从 8 月份首次发布开始,搜狗知音引擎有了新的进展。基于已有的深度学习平台和技术搭建了自身的语音实时翻译技术。整个技术框架包括了语音识别、机器翻译两个大的方向,整个系统并不是简单的技术堆砌,而需要做非常多的细节优化以及系统调优,主要包括了语音断句、语音识别、文本断句以及机器翻译。

  

码报:【j2开奖】业界 | 搜狗知音引擎再进一步,实现语音实时翻译

搜狗语音实时翻译

首先是语音断句,会通过能量检测和基于深度学习模型的方式进行断句,通过对语音信号中每一帧进行语音 (用 1 表示) 和静音 (用 0 表示) 的判断,生成一个很长的包含 0 和 1 的判决序列。之后要对判决序列进行平滑处理,最终生成的序列中在 0 和 1 交界的地方就可以认为是一个语音的边界,作为后面断句非常重要的依据。陈伟表示:「语音断句有几个好处,静音片段不进行语音识别,大大提升解效率。同时语音片断可以分割成多句并行识别,大大提高了语音识别的效率。」

  

码报:【j2开奖】业界 | 搜狗知音引擎再进一步,实现语音实时翻译

语音断句

其次就是语音识别,就是把语音转化成文本,其中语音识别会非常依赖两个模型,一个是声学模型,描述了发音单元对应的模型和声音信号之间的相似性。另一个是语言模型,描述了识别结果中词和词之间连接的可能性,从而保证了识别输出结果更加通顺、流畅,符合正常的发言习惯。

  

码报:【j2开奖】业界 | 搜狗知音引擎再进一步,实现语音实时翻译

从 2012 年开始,搜狗开始组建语音团队,使用的声学建模技术一直在演进,目前比较稳定的线上系统是 CLDNN 系统,陈伟说:「它集合了三种不同结构,是一个复合的神经网络结构。CNN 可以对变换起到不变性的作用,因此它能够比较稳定地提取出一些恒定的特征。第二块是长短时记忆模型,能够把非常长的上下文,历史或者未来的信息融入到当前的识别中来。还有一块是 DNN,可以提取深层的抽象的特征。这三层复合式结构融合在一起,形成了目前我们使用的主流结构。」

深度学习技术的不断发展,声学模型训练流程逐渐从复杂变的简单,端到端的技术被逐步使用,比如 CTC 的引入,声学建模的单元从之前的共享状态扩大到了 cdphone、音节或者字,CTC 的引入可以省去之前烦琐的模型训练过程。「我们线上主要在用的结构就是 CLDNN+CTC,目前这个模型的准确率无论从第三方的评测、还是厂商对比评测都已经证明了目前我们在语音识别技术方面的领先性。」陈伟表示。

  

码报:【j2开奖】业界 | 搜狗知音引擎再进一步,实现语音实时翻译

语音识别的声学模型

除了声学模型,在语言模型方面,ngram 模型使用了固定窗长的方式,当前词只和前面固定长度的历史词有关系,而搜狗在语言模型上使用了 RNNLM 模型,思考建立当前词和历史所有词之间的联系,通过对声学模型和语言模型的共同优化,语音识别效果得到了比较大的提升。

  

码报:【j2开奖】业界 | 搜狗知音引擎再进一步,实现语音实时翻译

语音识别的语言模型

在语音断句、语音识别之后的第三个阶段是文本断句。首先通过内容平滑把一些没有具体意思的词去掉使句子变得比较通顺。然后通过规则和模型两种方法进行语句划分和加标点。陈伟认为,在语音识别和翻译之间,最为关键的一个桥梁就是文本断句,这个模块是搜狗的语音同传技术可以应用的重要原因。而另外一个保证翻译做到实时的技术是输出判断,用户一直在说话,系统需要决定语音识别输出结果中哪部分可以送给翻译,哪一部分需要暂时缓存下来暂时不进行翻译,这也是搜狗语音同传在今后需要着重优化和改善的功能。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容