报码:【j2开奖】图灵测试寿终正寝，我们该如何评测人工智能？(2)_本港台直播_J2开奖直播

我们也决定让整个人工智能社区加入进来。2015 年 1 月，在德州奥斯丁，我们聚集了大约 50 位优秀研究者共同讨论图灵测试的更新。在一整天的演讲与讨论中，我们把多个竞争性方法融合进了一个理念。

其中一个事件——Winograd 模式挑战的命名来自人工智能先驱 Terry Winograd（谷歌创始人拉里·佩奇和谢尔盖·布林的导师）。该事件使机器人参与一项有关语言理解与常识交叉的测试。任何一个曾经编程机器并帮助其理解语言的人都明白自然语言里每一个句子都是充满歧义的，经常可作多种解释。我们的大脑如此擅长理解语言以至于对此熟视无睹。拿「The large ball crashed right through the table because it was made of Styrofoam.」这个句子为例。严格来说，这个句子有歧义：词「it」可以指 the table，也可以指 the ball。人听到这句话一定认为「it」指的是 the table。这需要把材料科学的知识与语言理解结合起来。但这对机器而言遥不可及。三位专家，Hector Levesque、Ernest Davis 和 Leora Morgenstern，已经联合开发了一个类似的测试，语音识别公司 Nuance 许诺向第一个通过该测试的系统提供 25000 美元的现金奖励。

我们还希望新的图灵测试中包含更多其他项目。一个测试机器理解图像、视频、音频和文本理解能力的挑战是必要的。Nuance 公司的人工智能和自然语言处理实验室主任 Charles Ortiz, Jr. 提出了一个建构挑战以测试感知与物理动作，这两个智能行为包含的重要元素是原初的图灵测试所完全缺失的。此外，Allen 人工智能研究所的 Peter Clark 提议用与人类学生相同标准的科学考试和其他学科测试考验机器。

除了测试的内容，参会者还讨论了如何让测试结果变得更具说服力。例如，Guruduth Banavar 和他在 IBM 的同事强调，测试内容应该是计算机生成的。哈佛大学的 Stuart Shieber 强调了透明度：如果事件推动了该领域的发展，奖励应该只发给开源、可复制并且整个人工智能社区可以获得的系统。

机器何时才能应对我们设定的这些挑战？没人知道。但我们的努力证明人类已经在认真研究此事了，这也许很有意义。一个能够应对建构挑战的机器人可以为流离失所的人在地球或遥远星球上搭建临时营地。一个可以完成 Winograd 挑战并通过四年级生物学考试的机器可以让我们更接近使用机器整合大量关于人类医学的文献的梦想，这可能是迈向治愈癌症或破译大脑的关键的第一步。人工智能和所有其他领域一样，需要明确的目标。图灵测试曾是一个很好的开始，但现在是建设新一代挑战的时候了。

新图灵测试

人工智能研究者们正在开发各种各样的测试用以取代艾伦·图灵 67 年之久的「模仿游戏」。下文中就是对四种不同方法的介绍。

测试 01：威诺格拉德模式挑战（Winograd Schema Challenge）

这种测试是以人工智能研究先驱 Terry Winograd 的名字命名，「Winograd 模式」是一种简单，但措辞含糊的自然语言问题。要想正确解答这个问题需要被测试者具备足够的「常识」，理解在现实世界当中人工智能、事物和文化规范是如何互相影响的。

Winograd 在 1971 年提出的第一个模式，设置一个场景（市议员拒绝提供示威许可，因为他们害怕出现暴力），然后关于这一场景提出一个简单的问题（谁害怕暴力？）这就是代词消歧问题（PDP）：在这种情况下，对于「他们」一词的指代问题存在着歧义。但是 Winograd 模式的设置比大多数 PDP 问题的设置都要巧妙，因为只要简单改变一个单词，整句话的意思就会完全相反。（例如：市议员拒绝给示威者许可，因为他们提倡暴力。）大多数人类都会利用他们对市议员和示威者之间关系的「常识」或者「对世界的认知」，来解决这个问题。这个挑战利用了一种初步的 PDP 来淘汰那些不太智能的系统，晋级者会继续进行真正的 Winograd 模式挑战。

优点：因为 Winograd 模式所依靠的知识，计算机是没有可以信赖的渠道接触的，谷歌上有很多有力的证据证明，这一挑战在有互联网搜索条件的情况下仍然难以进行。

缺点：可用的模式资源相对较少。纽约大学计算机科学方面的教授 Ernest Davis 说，「提出这些模式可不是件容易事儿。」

难度：高。在 2016 年，有 4 个系统比赛回答一套 60 个 Winograd 模式问题的测试。胜出系统的准确率只达到了 58%，而这距离研究者设定的 90% 的门槛还差得很远。

(责任编辑：本港台直播)