本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【图】扎克伯格的尴尬与 AI 的真实进展

时间:2016-12-25 21:09来源:本港台现场报码 作者:j2开奖直播 点击:
新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j [email protected] HR 微信: 13552313024 新

  新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  简历投递:j[email protected]

  HR 微信:13552313024

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和金。

  加盟新智元,与人工智能业界领袖携手改变世界。

  【新智元导读】扎克伯格日前公开了他自己打造的 AI 管家,从演示结果看,其语音识别功能差强人意,而语音识别技术却在今年各大公司报道中屡次取得突破,是当前 AI 发展代表领域之一。这就涉及到一个深层次的问题:本次 AI 热潮起于深度学习的突破,但真要想创造价值并不能停步在深度学习技术本身——AI创造价值的链条比较长,必须打破软硬的边界,补全整个链条,价值才会体现出来。

  近来扎克伯格向记者公开演示了他 2016 年的作品,一个类似 Jarvis 的人工智能助手,从记者的描述来看,这人工智能助手大部分时候还比较不错,但在语音交互环节则不太理想,对此腾讯科技做了如下报道:

  扎克伯格还建立了响应语音指令的系统,并通过定制iOS应用控制。但这部分展示不太理想,他重复了四次指令才让系统弄明白:天黑前不要开灯。扎克伯格略显尴尬地说:“喔,这应该是它最失败的表现了!”。不过,Jarvis播放音乐的展示还算成功。扎克伯格下令:“给我们放段音乐吧!”几秒钟后,大卫·库塔(David Guetta)的《Would I Lie to You》 开始通过客厅扬声器响起来。他说了两次“把音量调高”后,系统照做无误。最后,他同样说了两次才让系统停止播放。

  这非常有意思,因为从新闻来看“天黑前不要开灯”和“把音量调高”的失误显然都不是命令理解(语义)上有问题,否则你说八百遍 Jarvis 该不好使还是不好使。如果不是语义的问题,那显然就会和各大公司所宣称的已经被解决的问题——语音识别有关。

  标准环境解决≠真实效果好

  关于语音识别的精度今年官方的报道一般是这样的:

  11月21日到23日,搜狗、百度和科大讯飞三家公司接连召开了三场发布会向外界展示了自己在语音识别和机器翻译等方面的最新进展。值得注意的是,这三家公司几乎在同一时段宣布了各自中文语音识别准确率达到了97%。

  类似的报道也会发生在微软等的身上,我们假设Facebook做的不是太差,水平也与此类似达到97%的准确率。97%的具体含义是100个单词上只有3个错误(删除、被替换、被插入),那么问题就来了,如果真实环境里真的达到了这个精度,那么小扎的演示绝对不应该是上面这个样子。

  那问题出在那里?

  关键问题并不复杂,扎克伯格用手机当做家庭里的终端,这样距离稍微一远,环境稍微嘈杂一点,那再好的手机也没办法帮Jarvis听清楚你在说什么。手机本身是设计给近场用的,手机上的语音识别基本也是给近场优化过的,怎么也不能弥补远场上带来的不适应。

  扎克伯格对此非常坦诚,他在博客这么写道:

  In the case of Jarvis, training an AI that you'll talk to at close range is also different from training a system you'll talk to from all the way across the room, like Echo. These systems are more specialized than it appears, and that implies we are further off from having general systems than it might seem.(原文:

  https://www.facebook.com/notes/mark-zuckerberg/building-jarvis/10154361492931634/)

  上面这段英文简单来讲就是,语音识别更多时候是专门场景下好用,想做一个万能的版本仍然还很遥远。语音识别只能做限定场景的最佳。

  但事实上扎克伯格仍然只认识到了部分问题,因为单纯靠改善语音识别比如做一个匹配远场的版本也还是解决不了他遇到的问题(上面说的重复指示几次系统才起作用问题)。我们可以注意到开始播放音乐之后,报道中提到的两条命令都需要重复两次,这很可能是音乐自身对语音识别形成了干扰,这种情形下单纯的优化语音识别(不管远场还是近场)是解决不了问题的。

  扎克伯格接下来的路

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容