设为首页收藏本站
烂柯围棋 首页 资讯 查看内容

赢的思考 AlphaGo掀起大脑风暴

2016-5-7 16:01| 发布者: 红色violin| 查看: 1422| 评论: 1|来自: 贺桂芬

摘要: Alpha(α)是第一个希腊字母,天文学中,Alpha是星座里最亮的那颗星;动物学中,Alpha是领头的那匹狼;现在,战胜人类的AlphaGo,又带来了颠覆一切、风头浪尖的全新思考法。人工智能全面来袭,颠覆职场、企业、产业 ...


作者:贺桂芬 2016-04-26 天下杂志596



        Alpha(α)是第一个希腊字母,天文学中,Alpha是星座里最亮的那颗星;动物学中,Alpha是领头的那匹狼;现在,战胜人类的AlphaGo,又带来了颠覆一切、风头浪尖的全新思考法。人工智能全面来袭,颠覆职场、企业、产业、经济与未来。AlphaGo赢的秘密是什么?给了我们人类什么启示?

        这场比赛,让人震撼,又带一点点哀伤。围棋是最复杂的游戏,人类却败给了机器。

        “当年超级计算机‘深蓝’赢了,举世欢腾,觉得是人类的一大进步。但这次人工智能系统AlphaGo赢,大家的心情都很矛盾,都在想那我们怎么办?”趋势科技共同创办人,现任趋势文化长的陈怡蓁,点出世人的五味杂陈。

        三月九日,首尔四季饭店。

        AlphaGo和韩国棋王李世乭展开七天惊涛骇浪的对弈,吸引上亿眼球。大陆央视甚至中断两会直播,临时插播比赛。懂围棋的、不懂的,都在关注这场比赛,它变成那几天地表上唯一的大事。


    “十年后回看,没有人会否认,这七天,改变了世界。”趋势科技董事长张明正说。


    赛前,看好棋王的人居多,包括人工智能专家,创新工场董事长李开复在内。


    首战至中盘,多数观战棋士都判断李世乭获胜大势底定,有些人甚至放心慢跑去了。没想到最后眼镜碎满地,AlphaGo赢了。


    “它似乎有能力下出对全局而言是好棋,但局部看起来很烂的招,”也下围棋,专攻人工智能的台大电机系副教授于天立指出,“我们学棋的时候如果这样下,会被老师打手。”


    “我看不出李世乭一开始哪里没走好,但他老是中盘后莫名其妙落后,”大陆职业五段棋士刘耀文说,他连开车都在想,李世乭到底是怎么输的?“人类太有自信了,以为掌握了围棋的全貌,其实扼杀了创新。”


    “再给AlphaGo六到十二个月,人类就很难击败它了,”李开复说,因为它不停地自我进化。


        IBM开发的超级计算机“深蓝”(Deep Blue)在西洋棋上赢人类是二十年前,当时科学界都认为,没有个三十年,机器在围棋上赢不了人类。“因为围棋难太多了。我算算要赢也是五年、十年以后的事,”李开复说。


    去年十月,AlphaGo虽赢了欧洲棋王职业二段棋士樊麾,但李世乭自己在赛前也说,“樊麾的实力和我差两子,AlphaGo和我,我的胜算更高吧。”


    短短五个月,AlphaGo到底发生了什么事,让它从高手变武林盟主?


    为什么选围棋?围棋被认为是与机器的对抗中,人类最后的堡垒。它的排列组合有十的一七○次方,而西洋棋只有十的五十次方,”于天立说。


AlphaGo到底厉害在哪里?


    硕、博士都在师大念的黄士杰,是AlphaGo挑战围棋的关键人物,也是在与李世乭对弈时,替AlphaGo执棋的人。


    黄士杰的硕博士论文指导教授,师大资工所教授林顺喜指出,黄士杰六年前进入人工智能公司DeepMind时,对方告诉他,我们不做围棋。”AlphaGo后来改下围棋,据信与黄士杰是业余棋士有关。


赢的思考第1招:深度学习——天下棋士为我师


        AlphaGo赢了李世乭之后,黄士杰来台分享时指出,两个大脑和深度学习,是AlphaGo赢的秘密。

   

    于天立指出,早期的人工智能,实际上是”人工指导智慧”,也就是由人来指导计算机什么是对错,甚至是由人来命令计算机怎么做。当初的深蓝”便是如此。

AlphaGo则是只由人喂”给它大量的数据,放它自主学习,像人脑的神经元一样相互联系产生讯号,最终理解复杂的围棋。


    “AlphaGo厉害的地方,在于它用了两套大脑,结合蒙地卡罗树状搜寻法(Monte Carlo Tree Search),”于天立指出,这些技术都不新,厉害在这三者的组合。”


    简单讲,当年”深蓝”打败西洋棋棋王,靠的是每走一步,就把接下来所有的可能性都算过一遍,这项技术叫作穷举法”或暴力搜寻法”。

    

    但是围棋的可能性比西洋棋多了一的后面有一百二十个零那么多,数据量、计算量大到无法想象不说,运算起来耗时耗电,根本行不通。每一层只选二十个好步,Google就已经用了一千台计算机、两千个图形处理器(GPU),”林顺喜指出。


    如果下围棋的可能性是一棵树,AlphaGo就必须有能力剪枝”,判断资源该集中在哪些最后获胜机率高的步数。


    黄士杰团队想出的办法,是用两个大脑:第一套大脑名叫策略网络”(policy network),第二套大脑叫价值网络”(value network)。


    “第一套大脑只管根据经验值,挑出下一步可用的二十个好步。第二套大脑负责算出这二十步每一步的下三层,哪一方会占优势,然后再告诉第一套大脑,选择获胜机率最高的那一步去走,”林顺喜解释。


    但这些判断都只是AlphaGo根据被”喂”的几千万步中学到的经验,它只能模仿,无法创新。


赢的思考第2招:随机乱下——打破常规求创新

 

    为了要突破人类经验的限制,找出新的可能性,这时蒙地卡罗树状搜寻法登场了。


    “蒙地卡罗法就是随机乱下,”于天立指出,靠读万卷书无法创新,蒙地卡罗的目的,就是为了要让它创新。”


    也是金庸迷的于天立说,蒙地卡罗法就像金庸小说里武功不怎么样的虚竹,在《天龙八部》里乱下棋子,无意中破解”珍珑”棋局。


    黄士杰也说,AlphaGo不时使怪招”,某些步数刚开始看起来笨拙又失误连连,但最终证明那些烂招都是致胜关键。


    “随机乱下一万盘,你下一步我下一步,一直乱下,下到最后算分数,一万盘的平均得分,就是它的胜率,”林顺喜解释,就像我跟你打麻将,你乱打我也乱打,乱打一万盘,发现打哪一张牌我赢的多输的少,我以后就会多打这一张。”


    韩国棋院秘书长梁宰豪形容,AlphaGo就像山中自学成才的高手”,看起来招式凌乱难看,但却是处处打破常规,让学棋者的视野大为开阔。


    韩国职业九段棋士赵惠连也说,AlphaGo重新定义了什么是围棋。人类下棋讲究步步都要赢,赢愈多愈好,但AlphaGo的目标只有赢,赢多少完全不重要,局部犯错无伤大雅,大局赢就是赢。”


        AlphaGo的蒙地卡罗法虽说是乱下,却是聪明的随机,”于天立说,因为有两个大脑的帮助,事先剔掉胜率不高的步数,AlphaGo因此学到了很多人类从来没有走过,其实胜率不错的步数。


    但是这些训练,只够AlphaGo赢樊麾。


赢的思考第3招:增强式学习——自己打自己


    在准备挑战韩国棋王李世乭的五个月,AlphaGo做了一件外界想也想不到的事:没日没夜地自己打自己。


    就像金庸小说《射鵰英雄传》里被桃花岛主黄药师关在岛上的周伯通,为了打发时间,周伯通穷极无聊,开始左手打右手,竟练成了绝世武功。


    “就是两个AlphaGoAA打,赢了创造出第二代的BB再和B打,创造出第三代的C。和李世乭打的时候,已经是第十八代,”林顺喜透露。


    让不同版本的AlphaGo自己跟自己对打,看谁赢的多。系统会追踪这些步数哪一步会带来更大的胜算,再往前一直回馈给前面的步数去修正。


    透过无数次对打,AlphaGo自己学到了新的招数,变得愈来愈强,”替AlphaGo写程序的关键人物,DeepMind的科学家席佛(David Silver)告诉长期追踪AlphaGo的《联机》(Wired)杂志记者梅兹(Cade Metz)说,这就是增强式学习”。


    “所有过去的程序,从来没有自我成长的能力,”林顺喜说。


        AlphaGo从模仿到创新,这就是第二局第三十七步那神来之笔的由来,”席佛说,AlphaGo算出人类只有一万分之一的机率会下这一步,但它经过自我增强式学习之后发现,这一步其实很不错。”


    “先跟高手学,再跟自己学,一天二十四小时不断自我对弈,反正它又不会累,所以人类再聪明也不可能比它勤奋,”李开复说。


    可见不要去做机器会做的事,选择什么不做,比做什么更重要,”张明正则说。


    这时的AlphaGo,就像武侠小说《笑傲江湖》里无招胜有招的境界,绝世高人风清扬向令狐冲传授道,你的剑招使得再浑成,只要有迹可寻。敌人便有隙可乘。但如你根本并无招式,敌人如何来破你的招式?”


        AlphaGo从模仿人类到创新、超越人类,靠的就是两个大脑配上蒙地卡罗法。透过天下棋士为我师、博览群书的深度学习、用超越自我的增强式学习练到无招胜有招,以及随便乱下找到的创新,组成了学习、思考和决策的胜利方程式。


    达尔文曾说:我一直认为,除了傻子,人们的才智差别不大,但热忱和刻苦程度有别。”


    “AlphaGo如果没有读万卷书,我不相信AlphaGo能够创新,而人类常想跳过下苦功这一步,”前教育部长曾志朗说。


机器人会夺权吗?

    

    过去,许多好莱坞电影都描述人类创造的智慧机器想夺权,控制人类。


    一九八四年的《魔鬼终结者》中,军方制造了超级计算机网络天网”来控制全美的核子武器,但天网有一天有了自己的意识,不让军方关闭它的电源,还发动一场核子战争。


    一九九九年的《黑客任务》中,机器接掌地球,还把人类放到夹舱中当成替机器充电的有机电池”。


    二○○四年的《机械公敌》中,人工智能系统认为人类会经由永无止境地战争和暴行而自我毁灭,因此决定夺权。


         AlphaGo的出现,证明科技正快速追上科幻电影。


    纽约大学物理学教授加来道雄(Michio Kaku)在《二○五○科幻大成真》一书中指出,人工智能的未来由我们决定。如果机器发疯想控制人类,那也是因为人类给它设定了彼此矛盾的指令。


    换句话说,人工智能再厉害,它都没有办法像人类一样有自我意识。


    “到今天为止,它还是人类的奴隶,它厉害的是能复制出一千个奴隶帮人类干活,”李开复说,但是和以前的科技创新不一样,人工智能的快速发展,最慢十年,会取代一半脑力密集的白领工作。


    二○一一年,美国电视益智节目问答纪录保持人詹宁斯(Ken Jennings)被超级计算机华生”(Watson)打败之后说,”雷德(Brad Rutter,另一位节目常胜军)和我,是最早因为‘思考’机器失去工作的知识工作者。”


   “这一套用在其他领域,会比我们想象快得多,”李开复说,比方律师、医生、金融、教育,这些都是有强大诱因(被人工智能取代)的。”

所以,在担心人类被机器人控制之前,先担心工作吧。


人机大战史


1988年,李开复就读卡内基美隆大学期间所开发的奥赛罗”人机对弈系统,击败了人类的黑白棋世界冠军。

1997年,IBM的超级计算机”深蓝”(Deep Blue),在六轮比赛中以二胜一负三和的成绩,打败了当时的西洋棋冠军卡斯珀罗夫(Garry Kasparov)。

2011年,IBM的超级计算机华生”(Watson)在美国益智节目《危险边缘》(Jeopardy!)中,战胜两名冠军詹宁斯(Ken Jennings)和雷德(Brad Rutter)。

201510月,AlphaGo五局全胜欧洲围棋冠军樊麾。

20163月,AlphaGo五局四胜打败韩国棋王李世乭。


仿真神经网络的辨识系统 什么是深度学习”?



    深度学习是有如人的眼睛辨认东西的学习方式。


    人类的视神经,是一个个有很多层的神经元,比方你看我的脸,你的第一层神经会先辨认明暗、点,很多点组成线,一层层辨认我的特征,最后认出这是我的脸,”台大电机系副教授于天立解释。


        AlphaGo的神经网络有13层,而且有2套。换句话说,它有2个大脑。


    “它跟人一样,看够多猫的照片,它就认得猫,”师大资工所教授林顺喜解释,看够多林志玲的照片,再看到她的新照片,它也认得那是林志玲,这就是深度学习。”


    这项技术,早已存在我们的生活中,比方脸书的人脸辨识和iPhoneSiri


    黄士杰的团队,就是喂”给AlphaGo至少3000万步人类高手的步数,让它把围棋当图像辨识,学到高手最常怎么走会获胜。


500名专家全球抢


        AlphaGo成名后,深度学习变成显学。它既是尖端学术,又是尖端工业,更是决定未来数十年,国家和企业,谁掌握产业标准和技术,谁就可保荣华富贵的关键


        Google很早就意识到了这一点。2014年,Google4亿英镑(约188亿台币)收购小公司DeepMind,这家公司没有任何产品,只有12名科学家。

很多人对这笔交易丈二金刚摸不着头绪。


    被誉为”深度学习三巨头”之一,加拿大蒙特娄大学教授班吉欧(Yoshua Bengio)便点出,那是因为全世界有50位真正的深度学习专家,其中有12个在DeepMind。”


    脸书紧追Google,请了三巨头之一,纽约大学教授雷铿(Yann LeCun)成立人工智能实验室。


    中国则数百度跑最快,高薪礼聘史丹佛大学副教授吴恩达(Andrew Ng)主掌”百度大脑”计划。



鲜花

握手

雷人

路过

鸡蛋
发表评论

最新评论

引用 江流儿 2016-5-7 22:24
阿尔法狗会退役吗?

查看全部评论(1)

月度热门文章



关于我们

西宁维度信息技术有限公司成立于2011年,公司以软件开发为主业。烂柯围棋是公司自研产品,以后将逐步完善,使烂柯围棋成为新兴围棋品牌。

联系我们

  • 地址: 青海生物科技产业园经四路生科创业园4楼401
  • 电话: +86 (0) 0971-8127394
  • Email: 879500316@qq.com

分享到

团队成员

© 2011-2015 西宁维度信息技术有限公司,青ICP备13000468号-1
返回顶部