赢的思考　AlphaGo掀起大脑风暴

2016-5-7 16:01| 发布者: 红色violin| 查看: 1422| 评论: 1|来自: 贺桂芬

摘要: Alpha（α）是第一个希腊字母，天文学中，Alpha是星座里最亮的那颗星；动物学中，Alpha是领头的那匹狼；现在，战胜人类的AlphaGo，又带来了颠覆一切、风头浪尖的全新思考法。人工智能全面来袭，颠覆职场、企业、产业 ...

作者：贺桂芬 2016-04-26 天下杂志596期

Alpha（α）是第一个希腊字母，天文学中，Alpha是星座里最亮的那颗星；动物学中，Alpha是领头的那匹狼；现在，战胜人类的AlphaGo，又带来了颠覆一切、风头浪尖的全新思考法。人工智能全面来袭，颠覆职场、企业、产业、经济与未来。AlphaGo赢的秘密是什么？给了我们人类什么启示？

这场比赛，让人震撼，又带一点点哀伤。围棋是最复杂的游戏，人类却败给了机器。

“当年超级计算机‘深蓝’赢了，举世欢腾，觉得是人类的一大进步。但这次人工智能系统AlphaGo赢，大家的心情都很矛盾，都在想那我们怎么办？”趋势科技共同创办人，现任趋势文化长的陈怡蓁，点出世人的五味杂陈。

三月九日，首尔四季饭店。

AlphaGo和韩国棋王李世乭展开七天惊涛骇浪的对弈，吸引上亿眼球。大陆央视甚至中断两会直播，临时插播比赛。懂围棋的、不懂的，都在关注这场比赛，它变成那几天地表上唯一的大事。

“十年后回看，没有人会否认，这七天，改变了世界。”趋势科技董事长张明正说。

赛前，看好棋王的人居多，包括人工智能专家，创新工场董事长李开复在内。

首战至中盘，多数观战棋士都判断李世乭获胜大势底定，有些人甚至放心慢跑去了。没想到最后眼镜碎满地，AlphaGo赢了。

“它似乎有能力下出对全局而言是好棋，但局部看起来很烂的招，”也下围棋，专攻人工智能的台大电机系副教授于天立指出，“我们学棋的时候如果这样下，会被老师打手。”

“我看不出李世乭一开始哪里没走好，但他老是中盘后莫名其妙落后，”大陆职业五段棋士刘耀文说，他连开车都在想，李世乭到底是怎么输的？“人类太有自信了，以为掌握了围棋的全貌，其实扼杀了创新。”

“再给AlphaGo六到十二个月，人类就很难击败它了，”李开复说，因为它不停地自我进化。

IBM开发的超级计算机“深蓝”（Deep Blue）在西洋棋上赢人类是二十年前，当时科学界都认为，没有个三十年，机器在围棋上赢不了人类。“因为围棋难太多了。我算算要赢也是五年、十年以后的事，”李开复说。

去年十月，AlphaGo虽赢了欧洲棋王职业二段棋士樊麾，但李世乭自己在赛前也说，“樊麾的实力和我差两子，AlphaGo和我，我的胜算更高吧。”

短短五个月，AlphaGo到底发生了什么事，让它从高手变武林盟主？

为什么选围棋？围棋被认为是与机器的对抗中，人类最后的堡垒。“它的排列组合有十的一七○次方，而西洋棋只有十的五十次方，”于天立说。

AlphaGo到底厉害在哪里？

硕、博士都在师大念的黄士杰，是AlphaGo挑战围棋的关键人物，也是在与李世乭对弈时，替AlphaGo执棋的人。

黄士杰的硕博士论文指导教授，师大资工所教授林顺喜指出，黄士杰六年前进入人工智能公司DeepMind时，对方告诉他，“我们不做围棋。”AlphaGo后来改下围棋，据信与黄士杰是业余棋士有关。

赢的思考第1招：深度学习——天下棋士为我师

AlphaGo赢了李世乭之后，黄士杰来台分享时指出，两个大脑和深度学习，是AlphaGo赢的秘密。

于天立指出，早期的人工智能，实际上是”人工指导智慧”，也就是由人来指导计算机什么是对错，甚至是由人来命令计算机怎么做。当初的“深蓝”便是如此。

但AlphaGo则是只由人“喂”给它大量的数据，放它自主学习，像人脑的神经元一样相互联系产生讯号，最终理解复杂的围棋。

“AlphaGo厉害的地方，在于它用了两套大脑，结合蒙地卡罗树状搜寻法（Monte Carlo Tree Search），”于天立指出，这些技术都不新，“厉害在这三者的组合。”

简单讲，当年”深蓝”打败西洋棋棋王，靠的是每走一步，就把接下来所有的可能性都算过一遍，这项技术叫作“穷举法”或“暴力搜寻法”。

但是围棋的可能性比西洋棋多了一的后面有一百二十个零那么多，数据量、计算量大到无法想象不说，运算起来耗时耗电，根本行不通。“每一层只选二十个好步，Google就已经用了一千台计算机、两千个图形处理器（GPU），”林顺喜指出。

如果下围棋的可能性是一棵树，AlphaGo就必须有能力“剪枝”，判断资源该集中在哪些最后获胜机率高的步数。

黄士杰团队想出的办法，是用两个大脑：第一套大脑名叫“策略网络”（policy network），第二套大脑叫“价值网络”（value network）。

“第一套大脑只管根据经验值，挑出下一步可用的二十个好步。第二套大脑负责算出这二十步每一步的下三层，哪一方会占优势，然后再告诉第一套大脑，选择获胜机率最高的那一步去走，”林顺喜解释。

但这些判断都只是AlphaGo根据被”喂”的几千万步中学到的经验，它只能模仿，无法创新。

赢的思考第2招：随机乱下——打破常规求创新

为了要突破人类经验的限制，找出新的可能性，这时蒙地卡罗树状搜寻法登场了。

“蒙地卡罗法就是随机乱下，”于天立指出，“靠读万卷书无法创新，蒙地卡罗的目的，就是为了要让它创新。”

也是金庸迷的于天立说，蒙地卡罗法就像金庸小说里武功不怎么样的虚竹，在《天龙八部》里乱下棋子，无意中破解”珍珑”棋局。

黄士杰也说，AlphaGo不时使“怪招”，某些步数刚开始看起来笨拙又失误连连，但最终证明那些烂招都是致胜关键。

“随机乱下一万盘，你下一步我下一步，一直乱下，下到最后算分数，一万盘的平均得分，就是它的胜率，”林顺喜解释，“就像我跟你打麻将，你乱打我也乱打，乱打一万盘，发现打哪一张牌我赢的多输的少，我以后就会多打这一张。”

韩国棋院秘书长梁宰豪形容，AlphaGo就像“山中自学成才的高手”，看起来招式凌乱难看，但却是处处打破常规，让学棋者的视野大为开阔。

韩国职业九段棋士赵惠连也说，AlphaGo重新定义了什么是围棋。“人类下棋讲究步步都要赢，赢愈多愈好，但AlphaGo的目标只有赢，赢多少完全不重要，局部犯错无伤大雅，大局赢就是赢。”

AlphaGo的蒙地卡罗法虽说是乱下，“却是聪明的随机，”于天立说，因为有两个大脑的帮助，事先剔掉胜率不高的步数，AlphaGo因此学到了很多人类从来没有走过，其实胜率不错的步数。

但是这些训练，只够AlphaGo赢樊麾。

赢的思考第3招：增强式学习——自己打自己

在准备挑战韩国棋王李世乭的五个月，AlphaGo做了一件外界想也想不到的事：没日没夜地自己打自己。

就像金庸小说《射鵰英雄传》里被桃花岛主黄药师关在岛上的周伯通，为了打发时间，周伯通穷极无聊，开始左手打右手，竟练成了绝世武功。

“就是两个AlphaGo，A和A打，赢了创造出第二代的B；B再和B打，创造出第三代的C。和李世乭打的时候，已经是第十八代，”林顺喜透露。

让不同版本的AlphaGo自己跟自己对打，看谁赢的多。系统会追踪这些步数哪一步会带来更大的胜算，再往前一直回馈给前面的步数去修正。

透过无数次对打，“AlphaGo自己学到了新的招数，变得愈来愈强，”替AlphaGo写程序的关键人物，DeepMind的科学家席佛（David Silver）告诉长期追踪AlphaGo的《联机》（Wired）杂志记者梅兹（Cade Metz）说，这就是“增强式学习”。

“所有过去的程序，从来没有自我成长的能力，”林顺喜说。

AlphaGo从模仿到创新，“这就是第二局第三十七步那神来之笔的由来，”席佛说，“AlphaGo算出人类只有一万分之一的机率会下这一步，但它经过自我增强式学习之后发现，这一步其实很不错。”

“先跟高手学，再跟自己学，一天二十四小时不断自我对弈，反正它又不会累，所以人类再聪明也不可能比它勤奋，”李开复说。

可见“不要去做机器会做的事，选择什么不做，比做什么更重要，”张明正则说。

这时的AlphaGo，就像武侠小说《笑傲江湖》里无招胜有招的境界，绝世高人风清扬向令狐冲传授道，“你的剑招使得再浑成，只要有迹可寻。敌人便有隙可乘。但如你根本并无招式，敌人如何来破你的招式？”

AlphaGo从模仿人类到创新、超越人类，靠的就是两个大脑配上蒙地卡罗法。透过天下棋士为我师、博览群书的深度学习、用超越自我的增强式学习练到无招胜有招，以及随便乱下找到的创新，组成了学习、思考和决策的胜利方程式。

达尔文曾说：“我一直认为，除了傻子，人们的才智差别不大，但热忱和刻苦程度有别。”

“AlphaGo如果没有读万卷书，我不相信AlphaGo能够创新，而人类常想跳过下苦功这一步，”前教育部长曾志朗说。

机器人会夺权吗？

过去，许多好莱坞电影都描述人类创造的智慧机器想夺权，控制人类。

一九八四年的《魔鬼终结者》中，军方制造了超级计算机网络“天网”来控制全美的核子武器，但天网有一天有了自己的意识，不让军方关闭它的电源，还发动一场核子战争。

一九九九年的《黑客任务》中，机器接掌地球，还把人类放到夹舱中当成替机器充电的“有机电池”。

二○○四年的《机械公敌》中，人工智能系统认为人类会经由永无止境地战争和暴行而自我毁灭，因此决定夺权。

AlphaGo的出现，证明科技正快速追上科幻电影。

纽约大学物理学教授加来道雄（Michio Kaku）在《二○五○科幻大成真》一书中指出，人工智能的未来由我们决定。如果机器发疯想控制人类，那也是因为人类给它设定了彼此矛盾的指令。

换句话说，人工智能再厉害，它都没有办法像人类一样有自我意识。

“到今天为止，它还是人类的奴隶，它厉害的是能复制出一千个奴隶帮人类干活，”李开复说，但是和以前的科技创新不一样，人工智能的快速发展，最慢十年，会取代一半脑力密集的白领工作。

二○一一年，美国电视益智节目问答纪录保持人詹宁斯（Ken Jennings）被超级计算机“华生”（Watson）打败之后说，”雷德（Brad Rutter，另一位节目常胜军）和我，是最早因为‘思考’机器失去工作的知识工作者。”

“这一套用在其他领域，会比我们想象快得多，”李开复说，“比方律师、医生、金融、教育，这些都是有强大诱因（被人工智能取代）的。”

所以，在担心人类被机器人控制之前，先担心工作吧。

人机大战史

■1988年，李开复就读卡内基美隆大学期间所开发的“奥赛罗”人机对弈系统，击败了人类的黑白棋世界冠军。

■1997年，IBM的超级计算机”深蓝”（Deep Blue），在六轮比赛中以二胜一负三和的成绩，打败了当时的西洋棋冠军卡斯珀罗夫（Garry Kasparov）。

■2011年，IBM的超级计算机“华生”（Watson）在美国益智节目《危险边缘》（Jeopardy!）中，战胜两名冠军詹宁斯（Ken Jennings）和雷德（Brad Rutter）。

■2015年10月，AlphaGo五局全胜欧洲围棋冠军樊麾。

■2016年3月，AlphaGo五局四胜打败韩国棋王李世乭。

仿真神经网络的辨识系统　什么是“深度学习”？

深度学习是有如人的眼睛辨认东西的学习方式。

人类的视神经，是一个个有很多层的神经元，“比方你看我的脸，你的第一层神经会先辨认明暗、点，很多点组成线，一层层辨认我的特征，最后认出这是我的脸，”台大电机系副教授于天立解释。

AlphaGo的神经网络有13层，而且有2套。换句话说，它有2个大脑。

“它跟人一样，看够多猫的照片，它就认得猫，”师大资工所教授林顺喜解释，“看够多林志玲的照片，再看到她的新照片，它也认得那是林志玲，这就是深度学习。”

这项技术，早已存在我们的生活中，比方脸书的人脸辨识和iPhone的Siri。

黄士杰的团队，就是“喂”给AlphaGo至少3000万步人类高手的步数，让它把围棋当图像辨识，学到高手最常怎么走会获胜。

500名专家全球抢

AlphaGo成名后，深度学习变成显学。它既是尖端学术，又是尖端工业，更是决定未来数十年，国家和企业，谁掌握产业标准和技术，谁就可保荣华富贵的关键。

Google很早就意识到了这一点。2014年，Google花4亿英镑（约188亿台币）收购小公司DeepMind，这家公司没有任何产品，只有12名科学家。

很多人对这笔交易丈二金刚摸不着头绪。

被誉为”深度学习三巨头”之一，加拿大蒙特娄大学教授班吉欧（Yoshua Bengio）便点出，那是因为“全世界有50位真正的深度学习专家，其中有12个在DeepMind。”

脸书紧追Google，请了三巨头之一，纽约大学教授雷铿（Yann LeCun）成立人工智能实验室。

中国则数百度跑最快，高薪礼聘史丹佛大学副教授吴恩达（Andrew Ng）主掌”百度大脑”计划。

鲜花

握手

雷人

路过

鸡蛋

收藏分享邀请

上一篇：4月围棋等级分：柯洁仍榜首唐韦星跌至第六下一篇：金立杯围甲联赛第4轮民生-杭州主将战时越大战朴廷桓

发表评论

赢的思考　AlphaGo掀起大脑风暴

最新评论

月度热门文章

关于我们

联系我们

分享到

团队成员

赢的思考 AlphaGo掀起大脑风暴

最新评论

月度热门文章

关于我们

联系我们

分享到

团队成员

赢的思考　AlphaGo掀起大脑风暴