增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究

ID:36553992

大?。?.16 MB

頁數(shù):138頁

時間:2019-05-12

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第1頁
增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第2頁
增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第3頁
增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第4頁
增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第5頁
資源描述:

《增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、國防科學(xué)技術(shù)大學(xué)博士學(xué)位論文增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究姓名:徐昕申請學(xué)位級別:博士專業(yè):控制科學(xué)與工程指導(dǎo)教師:賀漢根2002.4.1國防科學(xué)技術(shù)大學(xué)研究生院學(xué)位論文線性值函數(shù)逼近器的增強學(xué)習(xí)算法在求解學(xué)習(xí)控制問題時沒有收斂性保證的缺點,在理論和應(yīng)用上具有重要意義。針對Mountain.Car和一類欠驅(qū)動機器人系統(tǒng)(稱為體操機器人或Acrobot)iN搖起最優(yōu)控制問題進(jìn)行了仿真研究,結(jié)果表明RGNP算法具有良好的學(xué)>-j效率和泛化性能,為求解高維連續(xù)狀態(tài)空間的馬氏決策問題提供了一類有效方法。4.在求解同時具有連續(xù)狀態(tài)和行為空間馬

2、氏決策問題的增強學(xué)習(xí)方法研究方面,首次將時域差值學(xué)習(xí)的RLS.TD(L)算法與自適應(yīng)啟發(fā)評價(AdaptiveHeuristicCritic:AHC)學(xué)習(xí)算法結(jié)合,提出了一種快速AHC學(xué)(Fast.AHC)算法。該算法通過在評價器(Critic)阿絡(luò)中采用RLS.TD(L)學(xué)習(xí)算法,在提高學(xué)習(xí)預(yù)測效率的同時,改進(jìn)了閉環(huán)學(xué)習(xí)系統(tǒng)的學(xué)習(xí)控制性能。以倒立擺學(xué)習(xí)控制和Acrobot搖起控制問題為研究對象的仿真對比分析表明,快速AHC學(xué)習(xí)算法能夠獲得優(yōu)于AHC算法的性能。5.首次提出了將進(jìn)化算法與基于神經(jīng)網(wǎng)絡(luò)值函數(shù)逼近的梯度下降增強學(xué)習(xí)算法結(jié)合的進(jìn)化.梯度混

3、合增強學(xué)習(xí)算法,通過進(jìn)化算法進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值的大范圍全局搜索,利用梯度增強學(xué)習(xí)算法實現(xiàn)權(quán)值的局部搜索,從而有效地實現(xiàn)了對馬氏決策過程最優(yōu)值函數(shù)和最優(yōu)策略的全局逼近。分別針對離散行為空間和連續(xù)行為空間馬氏決策問題的情形,提出了EARG算法和E.AHC兩種進(jìn)化一梯度混合學(xué)習(xí)算法。上述算法克服了基于神經(jīng)網(wǎng)絡(luò)值函數(shù)逼近的增強學(xué)習(xí)梯度算法存在的局部收斂性問題和學(xué)習(xí)因子優(yōu)化選擇的困難,同時由于采用了值函數(shù)逼近的機制,具有良好的學(xué)習(xí)效率。6.首次提出了一種基于增強學(xué)習(xí)的自適應(yīng)PID控制器設(shè)計方法,并應(yīng)用于移動機器人路徑跟蹤控制器的優(yōu)化設(shè)計中。該控制器利用神經(jīng)網(wǎng)絡(luò)

4、增強學(xué)習(xí)來實現(xiàn)對PID控制增益的自適應(yīng)整定,在利用了常規(guī)PID控制器的魯棒性的同時,實現(xiàn)了控制器參數(shù)的在線自學(xué)習(xí)和優(yōu)化。針對自動駕駛汽車的側(cè)向控制對上述控制器進(jìn)行了仿真研究,并且基于CIT—AVT—VI室內(nèi)移動機器人系統(tǒng)進(jìn)行了實時在線增強學(xué)習(xí)路徑跟蹤控制的實驗研究,仿真和實驗結(jié)果驗證了本文提出方法的有效性。7.針對未知環(huán)境中的移動機器人導(dǎo)航問題,提出了結(jié)合反應(yīng)式(Reactive)導(dǎo)航和在線局部路徑規(guī)劃的分層學(xué)習(xí)混合體系結(jié)構(gòu),并提出基于增強學(xué)習(xí)的反應(yīng)式導(dǎo)航控制器設(shè)計和優(yōu)化方法。該方法克服了基于監(jiān)督學(xué)習(xí)的導(dǎo)航控制方法在不確定環(huán)境中獲取教師信號的困難,

5、并能夠?qū)崿F(xiàn)導(dǎo)航系統(tǒng)的自編程(Self-Programming)和對未知環(huán)境的自適應(yīng)。在CIT·AVT—VI移動機器人的仿真和物理系統(tǒng)實驗平臺上對提出的學(xué)習(xí)導(dǎo)航方法進(jìn)行了室內(nèi)未知環(huán)境中的超聲導(dǎo)航實驗研究。仿真和實驗結(jié)果驗證了本文方法能夠有效地實現(xiàn)未知環(huán)境中移動機器人導(dǎo)航控制器的自編程和自適應(yīng),并且具有良好的學(xué)習(xí)效率和泛化性能。在本文最后一章對今后進(jìn)一步的研究方向進(jìn)行了分析和展望。l韭—一關(guān)鍵詞:增強學(xué)習(xí);經(jīng)麗爵疆娩翼吞、、’~一——.———·———-..●,/、J哆蹉移動機器人導(dǎo)螄泛蜘器學(xué)砂‰?決策過程客題寥第1I頁國防科學(xué)技術(shù)人學(xué)研究生院學(xué)位論文A

6、bstractInrecentyears,reinforcementlearninghasbecomeoneofthekeyresearchareasinartificialintelligenceandmachinelearningandithasattractedmanyresearchersinotherfieldsincludingoperationsresearch,controltheoryandrobotics.Reinforcementlearningisdifferentfromsupervisedlearninginthatno

7、teachersignalsareneededandareinforcementlearningsystemlearnsbyinteractingwiththeenvironmenttomaximizetheevaluativefeedbackfromtheenvironment.Thus,reinforcementlearningmethodshavewideapplicationareasinsolvingcomplexoptimizationanddecisionproblems,whereteachersignalsabehardtobeo

8、btmned.Sincemobilerobotswillbewidelyappliedinindustry,transpo

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。