本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】专访“流利说”首席科学家林晖:如何用机器学习帮中国人说好英语(3)

时间:2016-11-13 12:03来源:本港台直播 作者:开奖直播现场 点击:
当然我们当时采用的就是利用一些开源的数据,来先做一些冷启动。因为它本身这个任务挑战没有这么大,我们能够把这个产品放出去,而且有还不错的体

当然我们当时采用的就是利用一些开源的数据,来先做一些冷启动。因为它本身这个任务挑战没有这么大,我们能够把这个产品放出去,而且有还不错的体验。这样的话,当你这个技术真正落地,就会有很多人来用。在用这个的过程中,其实是给你提供了大量的数据,所以你用户越来越多,你的数据也会越来越多,这个数据可以反过来提升你的智能。

回到我们一开始想做的,比如说我要识别你说了什么内容的这件事情上,这批数据其实就是能够为语音识别提供它的训练数据。在这里面其实有一个点,一般的不是做这个领域的人可能不太清楚,就是说光有录音数据其实没有用,你有大量的录音数据其实没用的,如果你不知道那个录音对应的文字是什么,其实是没有用的。

PW:这是一个很聪明的方法。

林晖:对,就是通过这种游戏化的方式,这种用户产品的方式,积累了大量带有文字标注录音这个事情,这个我觉得是今天我们推出的这个产品,已经是往后的一个基石,我积累了大量这样代标注的录音数据,它是覆盖了相当于基本所有中国人可能的水平,所有可能的水平阶段。

PW:你们的免费用户有多少?

林晖:现在最新的数字是3600万。

PW:所以这四年,加上几千万用户其实可以积累很大量的数据。

林晖:对,非常大的一个量。这批数据的价值其实非常非常大的,就先别说语音识别这件事情,你想想这批数据覆盖了基本上所有地方,我们现在基本上所有省、各个城市都覆盖了,他们的英语的一个录音,作为一个这种,无论你是做语音识别还是做语言学的研究,都很有用。

当然我们现在只是用了它语音识别这一块的用处,因为它有文字的标注。再结合深度学习这件事情,我需要非常大的数据,再用深度的模型,我们就能够做出一个非常准确的语音识别的引擎来。当然这个语音识别的引擎是专门为中国人打造的。它是最能听懂中国人说英语这件事情的,因为我们的数据都是中国人的。

这个其实蛮有意思的,其他的大公司,比如说Google和苹果,他们也做英文的语音识别,但是它不是针对中国人做的,这是一个差异化,我们能够做得更垂直,比他们做得更深的地方。Google不会特定地为中国人,尤其是中国学英语的人来做这个。所以我们跟这个,我们也跟Google去比较,因为他们的语音识别的功能是开放出来的。我们可以去做一个side by side的比较。直接拿过来,我们找一些我们知道正确答案的录音,然后来让这个机器识别,看看谁识别的比较准确,做了一个准确性的比较。

结果我们跟所有可能国外的,包括国内的,比如讯飞进行对比。我们发现在中国人说英语语音识别这件事情上我们是远远超过世界上所有其他公司的。这一点其实是今天我们能够在雅思流利说上做出一些别人没有东西的基石。

流利说是做一个从0到1的事情,我们是把一个技术真的推向用户,推向产品,去给他们做一个改变。创业一年多以后,我们再去听这些用户的录音,我觉得很欣慰的是,有些用的比较长时间的用户的录音水平提升非常多,很多用户真的是完全不一样了,我们有很多这样的例子。

PW:中间是一个什么样的阶段呢?因为刚才你说在技术上可能就是获取语音以及它标注的文字的数据,那个中间可能是做了一个什么样的规划,才让它达到这个点?

林晖:刚才说的那个是英语流利说里面解决的一个问题,它用游戏化的机制,用社区的方式。我们也有社区,把语言学习也件事情变得让大家更愿意参与,更愿意开口。就是说语言学习这件事情说白了,80%还是要靠练,你不练这个东西,它不是一个知识,你不练这个东西你是掌握不了的。

如果我们让大家开口,通过排行榜,通过游戏化的机制,通过社交的机制让你开口,然后给你反馈,然后你只要练的多了,自然会有提升。

当然后来我们觉得,开奖,发音只是语言的一部分,用户可能很多需求是提升,整体系统的提升他的语言的能力,这也是为什么我们后来推出了一个叫“懂你英语”的产品。

PW:懂你英语是一个什么样的产品?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容