报码:【j2开奖】对话|俞栋：在人工智能的很多应用场景，语音识别是一个入口(2)_本港台直播_J2开奖直播

还有，像我们最近也在做一些特殊环境中的语音识别，比如说在高噪音环境下，或者你说话的时候有背景的音乐，或者是会议室里面有多个人同时说话——这些情况下现在的语音识别效果是很差的。所以我们也在研究如何用深度学习的方法在比如多说话人的情况下做得比原来传统的方法好。我们现在已经在 arXiv 上面发布了一个早期结果的预印本（Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation，论文链接：https://arxiv.org/abs/1607.00325v1），含有更多实验结果的正式版本现在正在审稿中。我们这一称为 Permutation Invariant Training 的方法主要用于语音分离。用这种方法整个过程比较简单而效果很好。在这些方面深度学习都能带来一定的突破。当然，我前面也讲了，完全解决这些问题需要软硬结合，从拾音到前端和后端需要系统性优化。

记者：在类似汉语这种多音字、多音词比较多的语言中，语音识别方面有什么和英语这样的拼音语言不一样的地方？

俞栋：从语音识别的技术角度来讲没有太大的区别，因为最终都是要将语音信号，即 waveform sequence，变成字或者词的 sequence。多音字和多音词只是词表里对应的字或词有多个发音规则而已，这在其他语言比如英语中也很常见。

但中文作为一个有音调的语言，音调对字和词的识别是有影响的。如果音调信息用好了，就有可能提升识别率。不过大家发现 deep learning 模型有很强的非线性映射功能，很多音调里的信息可以被模型自动学到，不需要特别处理。

唯一可能不一样的地方是如果你用端到端系统，中英文的建模单元会不一样。因为在英语里面你一般会选用字母、音素、或音节作为建模单元，而不会选用词作为建模单元。但在中文里面你可以直接用汉字作为建模单元。所以建模单元的选择上可能会不太一样。除此之外，基本上没有太大区别。

记者：技术上没有太大区别？

俞栋：没有太大区别。

记者：具体来说，您觉得自然语言处理能够给语音识别带来哪些帮助？

俞栋：目前来讲，自然语言处理对语音识别本身的帮助还不是很大。要说帮助比较大的方面，如果语言模型（language model）算做自然语言处理的话，语言模型还是起到了很大作用的，尤其是在有噪音的环境下，如果没有语言模型来做约束，效果一般来说都比较差。但是除此之外，现在的 NLP （自然语言处理）技术对语音识别没有起到很大的作用。大家尝试过很多用自然语言处理技术提升识别率的方法，效果都不理想。

但从理论上来讲自然语言处理应该可以起到作用。因为我们能理解句子含义，我们就能发现有一些语音识别结果是说不通的，比如说前面的主语跟后面的宾语根本就不搭，在这种情况下识别系统应该选择其他的 hypothesis，对话系统则应该寻求澄清，但现有系统没有这么做。没有这么做的原因在于它其实不理解到底用户说了什么，也没能充分利用远距离的 dependency 信息。这样的错误，有可能通过自然语言处理的技术发现并得到更正。但语义分析是个难题，怎么做还是一个未知数。

记者：刚才我们讲到在噪音环境下，包括远距离环境下的识别，此外还有多个说话人一起说话的情况下的语音识别。在这三方面，您觉得现在和未来可以通过什么样的方式来解决这个问题？

俞栋：前面提过，解决远距离识别很重要的一点是要有硬件的支持。至少以目前的技术，仅仅通过后端处理效果还不够好。因为信号在传输过程衰减很厉害，距离越远衰减越厉害，信噪比就越差。所以远距离识别一般都需要做增强。比较好的增强需要硬件支持，比如说麦克风阵列。深度学习方法也能提供一些帮助。当你有多通道信息的时候，深度学习方法还可以做自动的信息融合以提升远距离语音识别的性能。

(责任编辑：本港台直播)