基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究

基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究

ID:36554966

大?。?.97 MB

頁數(shù):58頁

時(shí)間:2019-05-12

基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究_第1頁
基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究_第2頁
基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究_第3頁
基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究_第4頁
基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究_第5頁
資源描述:

《基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、論文題目:基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究作者姓名:專業(yè)名稱:指導(dǎo)教師:論文提交日期:論文答辯日期:授予學(xué)位日期:至Q!蘭生§旦至Q!蘭生魚旦入學(xué)時(shí)間:研究方向:職稱:基且9一自一瞳箜鱧』基』11一-:U一一逝世趾RESEARCHoNMOBILEROBoTPIATHPLANNINGBASEDONQ-LEARNINGADissertationsubmittedinfulfillmentoftherequirementsofthedegreeofMrASTEROFENGINEERINGfromShandongUn

2、iversityofScienceandTechnologyDongWenzhengSupervisor:ProfessorZhaoZengshunCollegeofInformation&ElectricalEngineeringMay2013聲明本人呈交給山東科技大學(xué)的這篇碩士學(xué)位論文,除了所列參考文獻(xiàn)和世所公認(rèn)的文獻(xiàn)外,全部是本人在導(dǎo)師指導(dǎo)下的研究成果。該論文資料尚沒有呈交于其它任何學(xué)術(shù)機(jī)關(guān)作鑒定。碩士生簽名:日菇支攻期:2o膨。么./與AFFIRMArrIoNIdeclarethatthisdisser

3、tation,submittedinfulfillmentoftherequirementsfortheawardofMasterofEngineeringinShandongUniversityofScienceandTechnology,iswhollymyownworkunlessreferencedofacknowledge.Thedocumenthasnotbeensubmittedforqualificationatanyotheracademicinstitute.signat一阢了Date:王擴(kuò)

4、/7≥.多.∽kz易,專山東科技大學(xué)碩士學(xué)位論文摘要在機(jī)器人學(xué)以及智能控制領(lǐng)域中,靜態(tài)未知環(huán)境中移動(dòng)機(jī)器人的路徑規(guī)劃理論與技術(shù)是一個(gè)研究熱點(diǎn),越來越多的應(yīng)用需求也對(duì)移動(dòng)機(jī)器人技術(shù)的研究提出了新的挑戰(zhàn)。強(qiáng)化學(xué)習(xí)作為一種具有很強(qiáng)在線自適應(yīng)性的學(xué)習(xí)方法,為提高移動(dòng)機(jī)器人的自主性和智能性提供了一個(gè)研究方向,在移動(dòng)機(jī)器人路徑規(guī)劃領(lǐng)域得到了廣泛的關(guān)注。首先分析了移動(dòng)機(jī)器人路徑規(guī)劃的方法,介紹了強(qiáng)化學(xué)習(xí)的相關(guān)理論,針對(duì)基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃在連續(xù)狀態(tài)空間和動(dòng)作空間的泛化問題、探索與利用平衡的問題以及獎(jiǎng)懲函數(shù)設(shè)計(jì)上的

5、問題,設(shè)計(jì)了相應(yīng)的解決方案,并提出了在靜態(tài)未知環(huán)境中移動(dòng)機(jī)器人的路徑規(guī)劃方法。針對(duì)靜態(tài)未知環(huán)境中連續(xù)狀態(tài)空間和動(dòng)作空問的泛化問題,引入了模糊推理系統(tǒng);為了解決探索與利用的平衡問題,采用模擬退火動(dòng)作選擇策略,在此基礎(chǔ)上,將模糊推理和模擬退火與Q學(xué)習(xí)相結(jié)合,提出了基于模糊推理和模擬退火的Q學(xué)習(xí)算法,并在應(yīng)用于移動(dòng)機(jī)器人的路徑規(guī)劃上。同時(shí),針對(duì)一般獎(jiǎng)懲函數(shù)對(duì)具體環(huán)境和路徑規(guī)劃描述不準(zhǔn)確從而導(dǎo)致學(xué)習(xí)收斂速度降低的問題,設(shè)計(jì)了一個(gè)動(dòng)態(tài)的非均勻獎(jiǎng)懲函數(shù),更加準(zhǔn)確地對(duì)每一個(gè)動(dòng)作進(jìn)行評(píng)價(jià)。仿真結(jié)果表明,該算法收斂速度更快,學(xué)習(xí)

6、效率更高,能夠找到一條光滑無碰撞的路徑。關(guān)鍵詞:路徑規(guī)劃,強(qiáng)化學(xué)習(xí),模糊推理,模擬退火山東科技大學(xué)碩士學(xué)位論文摘要AbstractStatictheoryandtechnologyofmobilerobotpathplanninginstaticunknownenvironmentsisahotresearchtopicinthefieldofroboticsandintelligentcontrol,moreandmoreapplicationsdemandhasbroughtnewchallengesfor

7、mobileroboticsresearch.Reinforcementlearningasastrongonlineadaptivelearningmethod,providesaresearchdirectiontoimprovetheautonmyandintelligentofmobilerobotandhasreceivedwideattentioninthefieldofmobilerobotpathplanning,Themethodofmobilerobotpathplanningisanaly

8、zedfirstly,andthenintroducedtherelatedtheoryofreinforcementlearning.Tosolvetheissuesinpathplanningbasedonreinforcementlearning,suchasgeneralizationproblemincontinuousstatespaceandactionspace,exp

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。