本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【图】李开复新书内容抢先看:最精明的德扑大师也可能被AI的小花招蒙骗(2)

时间:2017-04-02 03:11来源:天下彩论坛 作者:118KJ 点击:
从人工智能技术的角度说,AlphaGo用的是AI领域应用非常普遍的算法:深度学习、蒙特卡洛算法、增强学习等。可以说,机器视觉相关的深度学习技术,包含

  从人工智能技术的角度说,AlphaGo用的是AI领域应用非常普遍的算法:深度学习、蒙特卡洛算法、增强学习等。可以说,机器视觉相关的深度学习技术,包含环境-决策-反馈的智能系统,里面都有AlphaGo的影子。当然,直接的代实现层面,肯定没有复制、粘贴这样直接借用的关系,因为AlphaGo的深度学习模型毕竟是围绕围棋的特征建立的。

  那么,当人机大战烟尘散尽,当公众的热情回归理性,AlphaGo究竟为我们人类带来了什么?AlphaGo带来的,仅仅是棋盘上的一张张棋谱,还是公众对人工智能的重新认知,或是人类与机器命运的关键转折点?

  其实,AlphaGo带给人类的,更多是一种对未来的警示:如果计算机可以在两年内实现大多数人此前预测要花20年或更长时间才能完成的进步,那么,还有哪些突破会以远超常人预期的速度来临?这些突破会不会超出我们对人工智能的想象,颠覆人类预想中的未来?我们已为这些即将到来的技术突破做好准备了吗?

  无论是专业人士还是普通公众,AlphaGo的出现给每个人提供了一个最好的理由,让我们有机会重新思考:到底什么是人工智能?人工智能之于人类的意义是什么?人工智能与未来人类的关系到底会怎样?人工智能真的会在未来挑战人类吗?

  德州扑克:开启新世界的大门

  围棋是一项讲究计算和形势判断能力的游戏。而德州扑克就非常不同,讲究的是在多人博弈中,避免人性贪婪、恋栈等弱点,并将科学的概率统计与灵活的实战策略很好地配合起来。人工智能已经在围棋领域取得历史性的突破,那么,在德州扑克的世界里,人工智能的表现又如何呢?

  在围棋、象棋等游戏中,人工智能可以和人类选手一样,在每一步决策前获得棋盘上的全部信息。这种限定规则,随时可以获取全部信息的游戏,我们可以称之为“完整信息的博弈游戏”。而在德州扑克中,人工智能和人类选手通常无法在特定时刻获得有关游戏的全部信息。比如,在德州扑克中,你无法知道对手的底牌是什么,你也不知道发牌员发出的下一张牌是什么,在这类“不完整信息的博弈游戏”里,人工智能必须像人一样,根据经验或概率统计知识,猜测对手底牌和下一张牌的可能性,然后再制定自己的应对策略。

  显然,对于实现人工智能算法而言,不完整信息的博弈游戏在技术难度上要大得多。卡内基梅隆大学的研究者就选择了德州扑克作为他们攻克此类问题的出发点。

  来自卡内基梅隆大学的托马斯·桑德霍姆(Tuomas Sandholm)教授与他的博士生诺姆·布朗(Noam Brown)最早开发了一款名为Claudico的德州扑克程序。Claudico是一个拉丁文单词,对应于德州扑克中的一种特别的策略——平跟(limping),指的是翻牌之前,选择跟大盲注而不加注的策略。平跟这种策略,在人类德州扑克比赛中,使用的频率并不是很高,但据托马斯·桑德霍姆介绍,计算机通过学习发现,使用这种策略有许多好处。值得注意的是,托马斯·桑德霍姆的团队在研发德州扑克程序时,主要不是向人类职业选手学习打牌技巧,而是让计算机通过自我训练,自己寻找最好的方法。

  Claudico从2015年4月到5月,在匹兹堡的河流赌场与人类选手同台竞技,在无限制投注的一对一比赛中,轮流与包括当时世界排名第一的道格·波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是重复牌局的玩法,即在不同房间的两张牌桌上使用完全相同、但人机对调的两副牌。这次比赛,AI似乎还很稚嫩。比赛进行过半,人类就领先Claudico大约46万个筹。最终,人类选手以大约73万个筹码的优势赢得了比赛。

  Claudico在2015年初出茅庐的这次比赛以失利告终。这个剧情,有些像1996年IBM深蓝输给卡斯帕罗夫的那一次。与Claudico交过手的道格·波尔克说,Claudico 与人类的打牌方式非常不同,“人类选手的下注数量可能是彩池的一半或四分之三,而Claudico有时只吝啬地以彩池的十分之一来下注,有时则以彩池的十余倍来下注。人类可不会用19000美元的下注去博取区区700美元的彩池。”[1]

  2015年的失利并没有让托马斯·桑德霍姆教授灰心。2017年1月,教授带着一个名为Libratus的新版本德州扑克程序卷土重来,再战匹兹堡的河流赌场。像上次一样,新版本程序的名字Libratus也是一个拉丁文单词,对应于程序使用的均衡(balanced)策略——这一策略源自数学家纳什定义的一种完美博弈的模型。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容