杂议 - 阿法狗的棋感   

Commentary - AlphaGo and Its "Instict"

·

在清华的时候上过一门围棋课,那门课的老师方天丰八段讲过一个有意思的事,印象深刻。

他说像他这样的职业棋手都是从孩提时起就开始学棋,趁着记忆力强,每日打谱、背谱。如此这般到了十来岁,天资不错的棋童就都能学到入段的水平。然而之后往往都进入瓶颈,再怎么打谱也难有长进。     匪夷所思的是,到了这个阶段,厉害的老师会让这孩子远离围棋,用几年时间把那些背过的棋谱忘干净。而直到这时,那些棋谱才内化为了围棋手最为仰仗的“棋感”,再配上年轻人占优的计算力,许多名手都是在这个阶段达到棋艺的巅峰。

最近好奇地了解了下谷歌阿法狗的原理,突然觉得跟方老师这故事讲的有几分相通之处。阿法狗的策略网络训练过程中的“supervised learning”部分就类似于棋童的死记硬背,将三千万张棋谱强行灌入“大脑”,然而尽管谱数惊人,仅经过这层学习的阿法狗还是不堪一击。真正画龙点睛的,是之后的”reinforcement learning”----就像休棋中的棋手,这时候的阿法狗虽然不再学习新谱,神经网络却无时不刻地通过后台的自我对弈重新调整。于是,最终它能炼得人类曾以为独有的“棋感”,似乎也就不那么令人惊奇了。

本文最初发布于Ding Says 老丁说 (www.dingsays.com)。版权由作者所有,谢绝商业转载,其它转载请保留本日志链接并注明来源。