資源描述:
《強(qiáng)化學(xué)習(xí)簡(jiǎn)介演示教學(xué).ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、強(qiáng)化學(xué)習(xí)簡(jiǎn)介ReinforcementLearning22什么是機(jī)器學(xué)習(xí)(MachineLearning)?機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。1959年美國(guó)的塞繆爾設(shè)計(jì)了一個(gè)下棋程序,這個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對(duì)弈中改善自己的棋藝。4年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。又過(guò)了3年,這個(gè)程序戰(zhàn)勝了美國(guó)一個(gè)保持8年之久的常勝不敗的冠軍。4強(qiáng)
2、化學(xué)習(xí)(reinforcementlearning)與監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)的區(qū)別沒(méi)有監(jiān)督者,只有獎(jiǎng)勵(lì)信號(hào)反饋是延遲的,不是順時(shí)的時(shí)序性強(qiáng),不適用于獨(dú)立分布的數(shù)據(jù)自治智能體(agent)的行為會(huì)影響后續(xù)信息的接收5思考:五子棋:棋手通過(guò)數(shù)學(xué)公式計(jì)算,發(fā)現(xiàn)位置1比位置2價(jià)值大,這是強(qiáng)化學(xué)習(xí)嗎?這不叫強(qiáng)化學(xué)習(xí),叫規(guī)劃如果通過(guò)幾次嘗試,走位置1比走位置2贏棋的可能性大,得出經(jīng)驗(yàn),則為強(qiáng)化學(xué)習(xí)6強(qiáng)化學(xué)習(xí)模型幾個(gè)定義自治智能體Agent學(xué)習(xí)的主體,如小貓、小狗、人、機(jī)器人、控制程序等Agent的特點(diǎn)1、主動(dòng)對(duì)環(huán)境做出試探
3、2、環(huán)境對(duì)試探動(dòng)作反饋是評(píng)價(jià)性的(好或壞)3、在行動(dòng)-評(píng)價(jià)的環(huán)境中獲得知識(shí),改進(jìn)行動(dòng)方案,達(dá)到預(yù)期目的7獎(jiǎng)勵(lì)信號(hào)(rewards)獎(jiǎng)勵(lì)信號(hào)R是一個(gè)標(biāo)量信號(hào)表示agent在步驟T中所產(chǎn)生動(dòng)作好壞Agent的任務(wù)是最大化累積獎(jiǎng)勵(lì)信號(hào)8強(qiáng)化學(xué)習(xí)模型9例子圖中黃點(diǎn)是機(jī)器人,目的是走到綠色的方塊reward+1000,黑色方塊是墻壁,撞到reward-10,紅色方塊是陷阱,撞到reward-1000,其他reward+010111213強(qiáng)化學(xué)習(xí)基本要素強(qiáng)化學(xué)習(xí)基本要素及其關(guān)系14策略定義了agent在給定時(shí)間內(nèi)的行為方
4、式,一個(gè)策略就是從環(huán)境感知的狀態(tài)到在這些狀態(tài)中可采取動(dòng)作的一個(gè)映射??赡苁且粋€(gè)查找表,也可能是一個(gè)函數(shù)確定性策略:a=π(s)隨機(jī)策略:π(a∣s)=P[At=a∣St=s]15回報(bào)函數(shù)是強(qiáng)化學(xué)習(xí)問(wèn)題中的目標(biāo),它把環(huán)境中感知到的狀態(tài)映射為單獨(dú)的一個(gè)獎(jiǎng)賞回報(bào)函數(shù)可以作為改變策略的標(biāo)準(zhǔn)16值函數(shù):一個(gè)狀態(tài)起agent所能積累的回報(bào)的總和。在決策和評(píng)價(jià)決策中考慮最多的是值函數(shù)17環(huán)境模型模擬了環(huán)境的行為,即給定一個(gè)狀態(tài)和動(dòng)作,模型可以預(yù)測(cè)必定導(dǎo)致的下一個(gè)狀態(tài)和下一個(gè)獎(jiǎng)賞。模型一般用于規(guī)劃規(guī)劃是算出來(lái)的,強(qiáng)化學(xué)習(xí)是試
5、出來(lái)的18馬爾可夫過(guò)程馬爾可夫獎(jiǎng)勵(lì)過(guò)程馬爾可夫決策過(guò)程馬爾科夫決策過(guò)程(MDP)19馬爾科夫性:所謂馬爾科夫性是指系統(tǒng)的下一個(gè)狀態(tài)s(t+1)僅與當(dāng)前狀態(tài)s(t)有關(guān),而與以前的狀態(tài)無(wú)關(guān)。馬爾可夫過(guò)程定義:狀態(tài)s(t)是馬爾科夫的,當(dāng)且僅當(dāng)P[St+1∣St]=P[St+1∣S1;:::;St]20對(duì)于一個(gè)馬爾科夫狀態(tài)s和接下來(lái)的狀態(tài)s′,狀態(tài)轉(zhuǎn)移概率定義為通常馬爾科夫過(guò)程是一個(gè)二元組(S,P),且滿足:S是有限狀態(tài)集合,P是狀態(tài)轉(zhuǎn)移概率。狀態(tài)轉(zhuǎn)移概率矩陣為:2122以下?tīng)顟B(tài)序列稱(chēng)為馬爾科夫鏈,假設(shè)從C1開(kāi)始
6、2324對(duì)于游戲或者機(jī)器人,馬爾科夫過(guò)程不足以描述其特點(diǎn),因?yàn)椴还苁怯螒蜻€是機(jī)器人,他們都是通過(guò)動(dòng)作與環(huán)境進(jìn)行交互,并從環(huán)境中獲得獎(jiǎng)勵(lì),而馬爾科夫過(guò)程中不存在動(dòng)作和獎(jiǎng)勵(lì)。25馬爾可夫獎(jiǎng)勵(lì)過(guò)程馬爾可夫獎(jiǎng)勵(lì)過(guò)程(MRP)是一種帶有價(jià)值的馬爾科夫鏈,由元組(S,P,R,γ)來(lái)表示S為有限的狀態(tài)集P為狀態(tài)轉(zhuǎn)移概率R為獎(jiǎng)勵(lì)函數(shù)γ為折扣因子,γ∈[0,1]2627強(qiáng)化學(xué)習(xí)是找到最優(yōu)的策略,這里的最優(yōu)是指得到的總回報(bào)最大。當(dāng)給定一個(gè)策略時(shí),我們就可以計(jì)算累積回報(bào)。首先定義累積回報(bào):28當(dāng)給定策略π時(shí),假設(shè)從狀態(tài)C1出發(fā),學(xué)
7、生狀態(tài)序列可能為:在策略π下,可以計(jì)算累積回報(bào)G1,此時(shí)G1有多個(gè)可能值。由于策略π是隨機(jī)的,因此累積回報(bào)也是隨機(jī)的。為了評(píng)價(jià)狀態(tài)s1的價(jià)值,我們需要定義一個(gè)確定量來(lái)描述狀態(tài)s1的價(jià)值,很自然的想法是利用累積回報(bào)來(lái)衡量狀態(tài)s1的價(jià)值。然而,累積回報(bào)G1是個(gè)隨機(jī)變量,不是一個(gè)確定值,因此無(wú)法進(jìn)行描述。但其期望是個(gè)確定值,可以作為狀態(tài)值函數(shù)的定義。29當(dāng)智能體采用策略π時(shí),累積回報(bào)服從一個(gè)分布,累積回報(bào)在狀態(tài)s處的期望值定義為狀態(tài)值函數(shù):30例31例32例33例34貝爾曼方程狀態(tài)值函數(shù)可以分為兩部分:瞬時(shí)獎(jiǎng)勵(lì)后繼
8、狀態(tài)值函數(shù)的折扣值353637馬爾可夫決策過(guò)程馬爾可夫決策過(guò)程是一種帶有決策作用的馬爾科夫獎(jiǎng)勵(lì)過(guò)程,由元組(S,A,P,R,γ)來(lái)表示S為有限的狀態(tài)集A為有限的動(dòng)作集P為狀態(tài)轉(zhuǎn)移概率R為獎(jiǎng)勵(lì)函數(shù)γ為折扣因子,γ∈[0,1]3839策略策略是指狀態(tài)到動(dòng)作的映射,策略常用符號(hào)π表示,它是指給定狀態(tài)s時(shí),動(dòng)作集上的一個(gè)分布,即策略完全的表示智能體的運(yùn)動(dòng)策略決定于當(dāng)前狀態(tài),與歷史狀態(tài)無(wú)關(guān)策略一般是固定的,不