除此之外,为满足明星粉丝用户的需求,推出了明星皮肤和图片;为满足二次元用户,可以用讯飞输入法上轻松打出颜文字,甚至还有斗图功能…… 这大概是对用户最友好的输入法了。作为高依赖度的工具类产品,获得 4 亿累计用户,1.1 亿活跃用户似乎也就不足为奇。 为什么识别得快又准? 世界上最早的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,可以识别 10 个英文数字。到了 1960 年代,人工神经网络被引入语音识别,两大突破是线性预测编码(Linear Predictive Coding,LPC) 与动态时间弯折(Dynamic Time Warp),不过大都是基于单词、孤立词或是特例人的研究。上世纪 80 年代末,李开复实现了基于隐马尔科夫模型的大词汇量语音识别系统 Sphinx,才完成了语音识别向随机内容、非特例人的句子识别的转变。 直到 2010 年,深度神经网络技术开始应用于语音识别,识别的效果和速度才得到了跨越式的提升。通过海量训练语料基础上的高精度声学模型和语言模型训练,结合解码引擎工程技术,人工智能技术的加入给语音识别带来全新的发展前景。
主流语音识别系统框架 不过仅有核心技术的提升是不够的,对于深度神经网络来说,真实的数据就是养料和智慧。科大讯飞轮值总裁胡郁曾用「涟漪效应」解释过数据和技术应用的关系:当某一项核心技术刚刚被大众所使用时,就像一滴水滴入水面,水波纹的起伏就是核心技术与用户期望之间的误差。水波纹逐步传播,就像核心技术正在逐步被更多的用户所使用,虽然这时效果还不太好,接触到的用户也不多,但这些用户不知不觉中贡献的经验和数据已经被系统自动学习和更新。当水波纹向外扩散,接下来接触到核心技术的人已经在使用更新过的系统。随着使用的人群越来越多,水波纹扩散的越来越广,大家会发现其实水波的振幅也越来越小,系统的性能也大幅提高。 正是 6 年间用户不断的贡献真实数据,才让讯飞输入法达到了「语音输入通用识别率为 97%,正常的语音输入文字已经不再有很大障碍」的程度,直播,用户体验也在这一过程中逐步提升。 除了语音识别,讯飞输入法的手写识别部分也用到了神经网络和图像识别技术,还可以支持连续书写的文字识别。 在这样一个「低头时代」,又会有多少人选择语音输入? 答案可能远比想象的多。讯飞输入法后台数据显示,虽不是主要输入手段,语音输入的用户比例一直在提升,已经接近手写输入的比例。在这个追逐效率的时代,选择语音输入的用户大概会越来越多。 以及,如果真的很忙来不及发文字,可以考虑试一试语音输入。毕竟在微信上收五条 60 秒语音的经历,有过一次就不想再有一次啦。 ©本文由机器之心原创,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |