AI,无师自通,自学成才? ——新版“阿法狗”无需人类指导迅速成为围棋霸主
来源:科技日报2017-11-01 14:58浏览次数:

    人工智能(AI)领域再次出现惊人突破——据英国《自然》杂志近日发表的论文报道,一款新版的阿法狗AlphaGo)计算机程序能够从空白状态起,在不需要任何人类棋谱输入的条件下,自学围棋,无师自通,自学成才。

  这款新程序名叫阿法元AlphaGo Zero),其以1000的不败战绩,狠狠打击了曾书写历史的旧版阿法狗

  实力,阿法狗的辉煌战绩

  人工智能阿法狗出自谷歌旗下深度思维(DeepMind)公司。最早在20161月,《自然》杂志以封面位置报道该程序在和所有其他围棋程序的对抗中获得了99.8%的胜率,并且以5∶0的成绩打败了欧洲围棋冠军。

  随后同年3月,阿法狗挑战世界围棋冠军李世石,经五局鏖战,人类1∶4不敌人工智能,引发巨大轰动。人们的震惊源于在围棋19×19棋盘上,一步甚至会有几百种走法,传统的人工智能算法难以估计局面和下子。

  但阿法狗仍在积攒实力。今年1月,一个神秘账号Master公布自己正是阿法狗新版。该账号在知名围棋平台上先后挑战柯洁、朴廷桓和井山裕太等顶级高手,豪取胜利,随后战赢棋圣聂卫平,直至60盘时自爆身份,决胜收官。

  3天,阿法元的无师自通

  此次在最新论文中,英国伦敦深度思维公司阿法狗项目的主要负责人戴维·西尔弗、戴密斯·哈萨比斯及其同事,报告了新版阿法狗软件——“阿法元

  阿法元最引人注目之处在于其无师自通的本领。其学习从开始,单纯基于与自己的对弈,不需要任何历史棋谱的指引,也不需要任何人类经验的点拨。

  对于这个新软件,人类的输入仅仅限于一张棋盘和一副棋子,没有任何人类数据参与。阿法元只用到了一张神经网络,这张网络经过训练,专门预测程序自身的棋步和棋局的赢家,让阿法元在每次自我对弈中进步。

  通过3天的训练——包括近500万局自我对弈——“阿法元已能够超越人类并打败之前的阿法狗版本。戴维·西尔弗表示,阿法元远比阿法狗强大,它已不再为人类的知识所限,而能够自行发现新知识。

  摆脱了人类经验的辅助和依赖,人工智能竟然变得更强!在阿法元崭露头角后,人们揣测:难道我们人类还耽误阿法狗了?

  震惊,AI的独立发现

  其实,人工智能的最大挑战之一,即是研发一种能从开始、以超人类的水平学习复杂概念的算法。

  在去年3月那场世所瞩目的比赛中,阿法狗软件打败了人类围棋世界冠军。当时的这款围棋程序,是利用价值网络去计算局面,用策略网络去选择下子。

  但为了赢得这场人机大战,科学家团队在训练阿法狗时,同时用到了监督式学习(基于上百万种人类专业选手的下棋步骤)和基于自我对弈的强化学习。旧阿法狗训练过程长达几个月,用到多台机器和48TPU(神经网络训练所需的专业芯片)。

  而此次,据研究团队介绍,新程序阿法元只使用了一台机器和4TPU

  在阿法狗之前,最成功的围棋程序仅能达到人类业余选手的程度,还不能在不让子的情况下和专业赛手一较高下,原本人们认为,至少要10年后人工智能才有可能达到这一成就。但阿法狗的横空出世改写了预言。而在其问世不足两年的时间里,阿法元再次刷新人们的认知——随着程序训练的进行,人工智能已独立发现了人类用几千年才总结出来的围棋规则,还建立了新的策略,可以说,人工智能已经为这个古老的游戏,带来全新见解。