阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序,由谷歌(Google)旗下DeepMind公司的戴密斯·哈薩比斯、大衛(wèi)·席爾瓦、黃士杰與他們的團隊開發(fā)。其主要工作原理是“深度學習”。
2016年3月,該程序與圍棋世界排行靠前、職業(yè)九段選手李世石進行人機大戰(zhàn),并以4:1的總比分獲勝;2016年末2017年初,該程序在棋類網(wǎng)站上以“大師”(Master)為注冊帳號與中日韓數(shù)十位圍棋高手進行快棋對決,連續(xù)60局無一敗績。不少職業(yè)圍棋手認為,阿爾法圍棋的棋力已經(jīng)達到甚至超過圍棋職業(yè)九段水平,在世界職業(yè)圍棋排名中,其等級分曾經(jīng)超過排名人類優(yōu)先的棋手柯潔。
2017年1月,谷歌Deep Mind公司CEO哈薩比斯在德國慕尼黑DLD(數(shù)字、生活、設計)創(chuàng)立大會上宣布推出真正2.0版本的阿爾法圍棋(AlphaGo)。其特點是擯棄了人類棋譜,只靠深度學習的方式成長起來挑戰(zhàn)圍棋的極限。
阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序。其主要工作原理是“深度學習”?!吧疃葘W習”是指多層的人工神經(jīng)網(wǎng)絡和訓練它的方法。一層神經(jīng)網(wǎng)絡會把大量矩陣數(shù)字作為輸入,非線性激活方法取權(quán)重,再產(chǎn)生另一個數(shù)據(jù)集合作為輸出。這就像生物神經(jīng)大腦的工作機理一樣,合適的矩陣數(shù)量,多層組織鏈接一起,形成神經(jīng)網(wǎng)絡“大腦”進行準確復雜的處理,就像人們識別物體標注圖片一樣。
阿爾法圍棋用到了很多新技術,如神經(jīng)網(wǎng)絡、深度學習、蒙特卡洛樹搜索法等,使其實力有了實質(zhì)性飛躍。美國臉書公司“黑暗森林”圍棋軟件的開發(fā)者田淵棟在網(wǎng)上發(fā)表分析文章說:“‘阿爾法圍棋’這個系統(tǒng)主要由幾個部分組成:一、走棋網(wǎng)絡(Policy Network),給定當前局面,預測/采樣下一步的走棋;二、快速走子(Fast rollout),目標和走棋網(wǎng)絡一樣,但在適當犧牲走棋質(zhì)量的條件下,速度要比走棋網(wǎng)絡快1000倍;三、估值網(wǎng)絡(Value Network),給定當前局面,估計是白勝還是黑勝;四、蒙特卡洛樹搜索(Monte Carlo Tree Search),把以上這三個部分連起來,形成一個完整的系統(tǒng)。”