增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究

ID：36553992

大?。?.16 MB

頁數(shù)：138頁

時間：2019-05-12

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第1頁

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第2頁

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第3頁

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第4頁

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究_第5頁

資源描述：

《增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、國防科學(xué)技術(shù)大學(xué)博士學(xué)位論文增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究姓名：徐昕申請學(xué)位級別：博士專業(yè)：控制科學(xué)與工程指導(dǎo)教師：賀漢根2002.4.1國防科學(xué)技術(shù)大學(xué)研究生院學(xué)位論文線性值函數(shù)逼近器的增強學(xué)習(xí)算法在求解學(xué)習(xí)控制問題時沒有收斂性保證的缺點，在理論和應(yīng)用上具有重要意義。針對Mountain．Car和一類欠驅(qū)動機器人系統(tǒng)(稱為體操機器人或Acrobot)iN搖起最優(yōu)控制問題進(jìn)行了仿真研究，結(jié)果表明RGNP算法具有良好的學(xué)>-j效率和泛化性能，為求解高維連續(xù)狀態(tài)空間的馬氏決策問題提供了一類有效方法。4．在求解同時具有連續(xù)狀態(tài)和行為空間馬

2、氏決策問題的增強學(xué)習(xí)方法研究方面，首次將時域差值學(xué)習(xí)的RLS．TD(L)算法與自適應(yīng)啟發(fā)評價(AdaptiveHeuristicCritic：AHC)學(xué)習(xí)算法結(jié)合，提出了一種快速AHC學(xué)(Fast．AHC)算法。該算法通過在評價器(Critic)阿絡(luò)中采用RLS．TD(L)學(xué)習(xí)算法，在提高學(xué)習(xí)預(yù)測效率的同時，改進(jìn)了閉環(huán)學(xué)習(xí)系統(tǒng)的學(xué)習(xí)控制性能。以倒立擺學(xué)習(xí)控制和Acrobot搖起控制問題為研究對象的仿真對比分析表明，快速AHC學(xué)習(xí)算法能夠獲得優(yōu)于AHC算法的性能。5．首次提出了將進(jìn)化算法與基于神經(jīng)網(wǎng)絡(luò)值函數(shù)逼近的梯度下降增強學(xué)習(xí)算法結(jié)合的進(jìn)化．梯度混

3、合增強學(xué)習(xí)算法，通過進(jìn)化算法進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值的大范圍全局搜索，利用梯度增強學(xué)習(xí)算法實現(xiàn)權(quán)值的局部搜索，從而有效地實現(xiàn)了對馬氏決策過程最優(yōu)值函數(shù)和最優(yōu)策略的全局逼近。分別針對離散行為空間和連續(xù)行為空間馬氏決策問題的情形，提出了EARG算法和E．AHC兩種進(jìn)化一梯度混合學(xué)習(xí)算法。上述算法克服了基于神經(jīng)網(wǎng)絡(luò)值函數(shù)逼近的增強學(xué)習(xí)梯度算法存在的局部收斂性問題和學(xué)習(xí)因子優(yōu)化選擇的困難，同時由于采用了值函數(shù)逼近的機制，具有良好的學(xué)習(xí)效率。6．首次提出了一種基于增強學(xué)習(xí)的自適應(yīng)PID控制器設(shè)計方法，并應(yīng)用于移動機器人路徑跟蹤控制器的優(yōu)化設(shè)計中。該控制器利用神經(jīng)網(wǎng)絡(luò)

4、增強學(xué)習(xí)來實現(xiàn)對PID控制增益的自適應(yīng)整定，在利用了常規(guī)PID控制器的魯棒性的同時，實現(xiàn)了控制器參數(shù)的在線自學(xué)習(xí)和優(yōu)化。針對自動駕駛汽車的側(cè)向控制對上述控制器進(jìn)行了仿真研究，并且基于CIT—AVT—VI室內(nèi)移動機器人系統(tǒng)進(jìn)行了實時在線增強學(xué)習(xí)路徑跟蹤控制的實驗研究，仿真和實驗結(jié)果驗證了本文提出方法的有效性。7．針對未知環(huán)境中的移動機器人導(dǎo)航問題，提出了結(jié)合反應(yīng)式(Reactive)導(dǎo)航和在線局部路徑規(guī)劃的分層學(xué)習(xí)混合體系結(jié)構(gòu)，并提出基于增強學(xué)習(xí)的反應(yīng)式導(dǎo)航控制器設(shè)計和優(yōu)化方法。該方法克服了基于監(jiān)督學(xué)習(xí)的導(dǎo)航控制方法在不確定環(huán)境中獲取教師信號的困難，

5、并能夠?qū)崿F(xiàn)導(dǎo)航系統(tǒng)的自編程(Self-Programming)和對未知環(huán)境的自適應(yīng)。在CIT·AVT—VI移動機器人的仿真和物理系統(tǒng)實驗平臺上對提出的學(xué)習(xí)導(dǎo)航方法進(jìn)行了室內(nèi)未知環(huán)境中的超聲導(dǎo)航實驗研究。仿真和實驗結(jié)果驗證了本文方法能夠有效地實現(xiàn)未知環(huán)境中移動機器人導(dǎo)航控制器的自編程和自適應(yīng)，并且具有良好的學(xué)習(xí)效率和泛化性能。在本文最后一章對今后進(jìn)一步的研究方向進(jìn)行了分析和展望。l韭—一關(guān)鍵詞：增強學(xué)習(xí)；經(jīng)麗爵疆娩翼吞、、’～一——．———·———-．．●，／、J哆蹉移動機器人導(dǎo)螄泛蜘器學(xué)砂‰?決策過程客題寥第1I頁國防科學(xué)技術(shù)人學(xué)研究生院學(xué)位論文A

6、bstractInrecentyears，reinforcementlearninghasbecomeoneofthekeyresearchareasinartificialintelligenceandmachinelearningandithasattractedmanyresearchersinotherfieldsincludingoperationsresearch，controltheoryandrobotics．Reinforcementlearningisdifferentfromsupervisedlearninginthatno

7、teachersignalsareneededandareinforcementlearningsystemlearnsbyinteractingwiththeenvironmenttomaximizetheevaluativefeedbackfromtheenvironment．Thus，reinforcementlearningmethodshavewideapplicationareasinsolvingcomplexoptimizationanddecisionproblems，whereteachersignalsabehardtobeo

8、btmned．Sincemobilerobotswillbewidelyappliedinindustry,transpo

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 138



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究

增強學(xué)習(xí)及其在移動機器人導(dǎo)航與控制中的應(yīng)用研究

相關(guān)文章

相關(guān)標(biāo)簽