采用TPU技术的新版Alpha Go比去年强十倍

jackzhang · 发表于 2017-5-23 22:52:01

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

今天下午，备受围棋界、人工智能领域关注的Alpha Go与柯洁三番棋对战第一局比赛刚刚结束，谷歌Alpha Go执白以1/4子优势战胜柯洁，拿下第一局。

赛后，谷歌中国举行新闻发布会，柯洁及DeepMind创始人兼CEO杰米斯·哈萨比斯(Demis Hassabis)、Deepmind工程师席尔瓦回答记者提问。在被问及今天首场比赛状态及相关情况时，柯洁表示对自己首场比赛表现不是特别满意，而在比赛后期已经预感到自己会输掉比赛。

柯洁表示，今年，Alpha Go的棋力与去年相比几乎是完全“两个人”，甚至已经越来越向“围棋上帝”靠拢了。此外，柯洁也公开回应称将不再于Alpha Go对战的疑问。柯洁表示，AI的每一次巨大进步都会令今后的对战越来越困难，因此他喜欢和人类下棋，因为未来和Alpha Go对战赢得概率会越来越小。同时，他表示也会将Alpha Go当做一个老师，学习的对象去看待。

同样，面对Alpha Go的未来及与柯洁对战的Alpha Go版本问题时，杰米斯·哈萨比斯公开回应表示，目前与柯洁对战的版本属于Master更新版，但和李世石对战的版本计算量则相对较少，并使用了谷歌10个TPU在云上运行。按照杰米斯·哈萨比斯说法，Deepmind工程师席尔瓦补充说道，目前的Alpha Go版本利用云端运营，比去年李世石对弈的版本强了十倍。

具体的说，新版Alpha Go的改进如下（一下部分内容来自雷锋网）:

算法

AlphaGo1.0的时候（去年3月跟李世石对战的时候）使用的算法精髓，根据FB田渊栋看完Nature论文的解读，由估值网络评估棋局，策略网络选择落子，快速走子（Fast rollout）适当加速，再用蒙特卡罗树搜索把以上这三个部分连起来，形成一个完整的系统。

这一次虽然知乎论坛等活跃地盘已经开始纷纷推测这次的AlphaGo2.0用了什么牛叉的算法，有了硬件的预测失误，真相还是等Deep Mind后面来亲自公布，目测算法预测这个要根据它的单机版10个GPU＋TPU助力预测比较靠谱。

硬件需求降低

根据DeepMind员工发表在2016年1月Nature期刊的论文，分布式版本（AlphaGo Distributed）使用了1202个CPU和176个GPU。

不过这次比赛AlphaGo用的何种硬件配置，DeepMind在会后的新闻发布会中表示，这次比赛的AlphaGo是新版本，它改善了新的算法，主要进步是计算量少了十倍，自我对弈更强。Hassabis称，在比赛中程序是在一个单一的机器上运作的，这与去年不一样，当时是分布式的。这次有更强大的算法，运作起来更简单也更好，获得的速度更快。另外Hassabis表示，计算力可以“在Google云中获得，用的是TPU，十个处理单位，少了十倍的计算量”。简单点说，这次的AlphaGo是单机版。

迭代速度

哈萨比在此链接中的剑桥大学的一次演讲中提到，以前从零训练一个AlphaGo要三个月，现在只需要一个星期（“We also optimized the performance. It used to take 3 month to train a new version of AlphaGo from scratch. Now we can do it in one week.”）。

如果称对战李世石期间的版本为V18迭代版本，乔装成Master60连胜并宣布升级完成的时刻为V25版本，现在的AlphaGo又是V多少版本，训练的时候会不会一周都不要了？这是我们明天要亲自问DeepMind团队的。

杰米斯·哈萨比斯同时还称，本周将会宣布Alpha Go的未来动向，并在今后披露更多技术细节。他表示，Alpha Go仍需要和人类对弈，通过先学习棋谱，在自我提高，依靠人类棋谱数据和前一版本进一步提升。因此，仅通过自身对决可能无法发现问题，所以通过与顶尖棋手对决才能提高自身的实力，并在其他领域为人类服务。

青鸟飞鱼 · 发表于 2017-5-24 10:26:14

666666666666

zhouhong · 发表于 2017-8-11 16:48:42

TPU的厉害之处。

linger2003 · 发表于 2017-9-4 22:14:33

回复 1# jackzhang

谢谢分享

账号		自动登录	找回密码
密码			注册

[原创] 采用TPU技术的新版Alpha Go比去年强十倍

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

站长推荐 /1