深度學(xué)習(xí)在游戲中的應(yīng)用

ID：39597789

大?。?.02 MB

頁(yè)數(shù)：9頁(yè)

時(shí)間：2019-07-07

資源描述：

《深度學(xué)習(xí)在游戲中的應(yīng)用》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、第42卷第5期自動(dòng)化學(xué)報(bào)Vol.42,No.52016年5月ACTAAUTOMATICASINICAMay,2016深度學(xué)習(xí)在游戲中的應(yīng)用郭瀟逍1李程2梅俏竹1;2摘要綜述了近年來(lái)發(fā)展迅速的深度學(xué)習(xí)技術(shù)及其在游戲(或博弈)中的應(yīng)用.深度學(xué)習(xí)通過(guò)多層神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建端對(duì)端的從輸入到輸出的非線性映射,相比傳統(tǒng)的機(jī)器學(xué)習(xí)模型有顯見(jiàn)的優(yōu)勢(shì).最近,深度學(xué)習(xí)被成功地用于解決強(qiáng)化學(xué)習(xí)中的策略評(píng)估和策略優(yōu)化的問(wèn)題,并于多種游戲的人工智能取得了突破性的提高.本文詳述了深度學(xué)習(xí)在常見(jiàn)游戲中的應(yīng)用.關(guān)鍵詞深度學(xué)習(xí),博弈,深度強(qiáng)化學(xué)習(xí),圍棋,人工智能引用格式郭瀟逍,李程,梅俏竹

2、.深度學(xué)習(xí)在游戲中的應(yīng)用.自動(dòng)化學(xué)報(bào),2016,42(5):676?684DOI10.16383/j.aas.2016.y000002DeepLearningAppliedtoGames121;2GUOXiao-XiaoLIChengMEIQiao-ZhuAbstractInthisarticle,wepresentasurveyofrecentdeeplearningtechniquesandtheirapplicationstogames.Deeplearningaimstolearnanend-to-end,non-linearmappingfr

3、omtheinputtotheoutputthroughmulti-layerneuralnetworks.Sucharchitecturehasseveralsigniˉcantadvantagesascomparedtotraditionalmachinelearningmodels.Therehasbeena°urryofrecentworkoncombiningdeeplearningandreinforcementlearningtobetterevaluateandoptimizegamepolicies,whichhasledtosign

4、iˉcantimprovementsofartiˉcialintelligenceinmultiplegames.Wesystematicallyreviewtheuseofdeeplearninginwell-knowngames.KeywordsDeeplearning,games,deepreinforcementlearning,Go,artiˉcialintelligenceCitationGuoXiao-Xiao,LiCheng,MeiQiao-Zhu.Deeplearningappliedtogames.ActaAutomaticaSin

5、ica,2016,42(5):676?6842016年是載入人工智能史冊(cè)的一年.Alphabet代即已被廣泛研究[1?4],但一直到最近十年,由于訓(xùn)(原Google)旗下的DeepMind公司研發(fā)的計(jì)算機(jī)練算法與計(jì)算能力的局限,研究者普遍只能成功地圍棋程序AlphaGo成功地打敗了近15年來(lái)一直被訓(xùn)練兩層或者三層的神經(jīng)網(wǎng)絡(luò)(卷積神經(jīng)網(wǎng)絡(luò)是一認(rèn)為是世界頂尖棋手的李世石九段.這距IBM的深個(gè)例外).更多層的神經(jīng)網(wǎng)絡(luò)反而讓學(xué)習(xí)結(jié)果變差[5].藍(lán)(DeepBlue)程序擊敗國(guó)際象棋棋王卡斯帕羅夫2006年,多倫多大學(xué)的Hinton及其合作者提出了正好二十年,也

6、再一次在學(xué)術(shù)界和民間掀起了人工深度置信網(wǎng)絡(luò)(Deepbeliefnetworks,DBN).其使智能的熱潮.與深藍(lán)不同的是,AlphaGo的成功極用非監(jiān)督學(xué)習(xí)對(duì)神經(jīng)網(wǎng)絡(luò)的每一層進(jìn)行分別訓(xùn)練,大程度上歸功于其采用了深度學(xué)習(xí)的算法.本文從從而能夠成功地訓(xùn)練具有多層網(wǎng)絡(luò)結(jié)構(gòu)的限制性玻一個(gè)更廣的角度來(lái)介紹深度學(xué)習(xí)在博弈中的應(yīng)用.爾茲曼機(jī)(RestrictedBoltzmannmachine)[6].類似的利用非監(jiān)督學(xué)習(xí)來(lái)分層訓(xùn)練的方法也適用于其他1深度學(xué)習(xí)(DeepLearning)[7?8]的深度網(wǎng)絡(luò)結(jié)構(gòu).其后,蒙特利爾大學(xué)的研究者深入分析了非監(jiān)督學(xué)習(xí)對(duì)于深

7、層結(jié)構(gòu)的幫助[9]以及深度學(xué)習(xí)是近年來(lái)大放異彩的一種機(jī)器學(xué)習(xí)原始訓(xùn)練方法失敗的原因[10],并提出了適用于深層模式.其主要的方法是通過(guò)訓(xùn)練多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)初始化方法[10]和激活函數(shù)(Activation(Neuralnetworks)以達(dá)到更好的學(xué)習(xí)效果.常見(jiàn)的function)[11].隨著訓(xùn)練算法和計(jì)算能力瓶頸的突多層網(wǎng)絡(luò)結(jié)構(gòu)包括多層感知器(Multilayerpercep-tron,MLP)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneural破(尤其是對(duì)圖形處理(Graphicsprocessingunit,network,CNN)和

8、遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentneuralGPU)和高性能計(jì)算(High-performan

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 9



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

深度學(xué)習(xí)在游戲中的應(yīng)用

深度學(xué)習(xí)在游戲中的應(yīng)用

相關(guān)文章

相關(guān)標(biāo)簽