資源描述:
《基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、論文題目:基于Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究作者姓名:專業(yè)名稱:指導(dǎo)教師:論文提交日期:論文答辯日期:授予學(xué)位日期:至Q!蘭生§旦至Q!蘭生魚旦入學(xué)時(shí)間:研究方向:職稱:基且9一自一瞳箜鱧』基』11一-:U一一逝世趾RESEARCHoNMOBILEROBoTPIATHPLANNINGBASEDONQ-LEARNINGADissertationsubmittedinfulfillmentoftherequirementsofthedegreeofMrASTEROFENGINEERINGfromShandongUn
2、iversityofScienceandTechnologyDongWenzhengSupervisor:ProfessorZhaoZengshunCollegeofInformation&ElectricalEngineeringMay2013聲明本人呈交給山東科技大學(xué)的這篇碩士學(xué)位論文,除了所列參考文獻(xiàn)和世所公認(rèn)的文獻(xiàn)外,全部是本人在導(dǎo)師指導(dǎo)下的研究成果。該論文資料尚沒有呈交于其它任何學(xué)術(shù)機(jī)關(guān)作鑒定。碩士生簽名:日菇支攻期:2o膨。么./與AFFIRMArrIoNIdeclarethatthisdisser
3、tation,submittedinfulfillmentoftherequirementsfortheawardofMasterofEngineeringinShandongUniversityofScienceandTechnology,iswhollymyownworkunlessreferencedofacknowledge.Thedocumenthasnotbeensubmittedforqualificationatanyotheracademicinstitute.signat一阢了Date:王擴(kuò)
4、/7≥.多.∽kz易,專山東科技大學(xué)碩士學(xué)位論文摘要在機(jī)器人學(xué)以及智能控制領(lǐng)域中,靜態(tài)未知環(huán)境中移動(dòng)機(jī)器人的路徑規(guī)劃理論與技術(shù)是一個(gè)研究熱點(diǎn),越來越多的應(yīng)用需求也對(duì)移動(dòng)機(jī)器人技術(shù)的研究提出了新的挑戰(zhàn)。強(qiáng)化學(xué)習(xí)作為一種具有很強(qiáng)在線自適應(yīng)性的學(xué)習(xí)方法,為提高移動(dòng)機(jī)器人的自主性和智能性提供了一個(gè)研究方向,在移動(dòng)機(jī)器人路徑規(guī)劃領(lǐng)域得到了廣泛的關(guān)注。首先分析了移動(dòng)機(jī)器人路徑規(guī)劃的方法,介紹了強(qiáng)化學(xué)習(xí)的相關(guān)理論,針對(duì)基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃在連續(xù)狀態(tài)空間和動(dòng)作空間的泛化問題、探索與利用平衡的問題以及獎(jiǎng)懲函數(shù)設(shè)計(jì)上的
5、問題,設(shè)計(jì)了相應(yīng)的解決方案,并提出了在靜態(tài)未知環(huán)境中移動(dòng)機(jī)器人的路徑規(guī)劃方法。針對(duì)靜態(tài)未知環(huán)境中連續(xù)狀態(tài)空間和動(dòng)作空問的泛化問題,引入了模糊推理系統(tǒng);為了解決探索與利用的平衡問題,采用模擬退火動(dòng)作選擇策略,在此基礎(chǔ)上,將模糊推理和模擬退火與Q學(xué)習(xí)相結(jié)合,提出了基于模糊推理和模擬退火的Q學(xué)習(xí)算法,并在應(yīng)用于移動(dòng)機(jī)器人的路徑規(guī)劃上。同時(shí),針對(duì)一般獎(jiǎng)懲函數(shù)對(duì)具體環(huán)境和路徑規(guī)劃描述不準(zhǔn)確從而導(dǎo)致學(xué)習(xí)收斂速度降低的問題,設(shè)計(jì)了一個(gè)動(dòng)態(tài)的非均勻獎(jiǎng)懲函數(shù),更加準(zhǔn)確地對(duì)每一個(gè)動(dòng)作進(jìn)行評(píng)價(jià)。仿真結(jié)果表明,該算法收斂速度更快,學(xué)習(xí)
6、效率更高,能夠找到一條光滑無碰撞的路徑。關(guān)鍵詞:路徑規(guī)劃,強(qiáng)化學(xué)習(xí),模糊推理,模擬退火山東科技大學(xué)碩士學(xué)位論文摘要AbstractStatictheoryandtechnologyofmobilerobotpathplanninginstaticunknownenvironmentsisahotresearchtopicinthefieldofroboticsandintelligentcontrol,moreandmoreapplicationsdemandhasbroughtnewchallengesfor
7、mobileroboticsresearch.Reinforcementlearningasastrongonlineadaptivelearningmethod,providesaresearchdirectiontoimprovetheautonmyandintelligentofmobilerobotandhasreceivedwideattentioninthefieldofmobilerobotpathplanning,Themethodofmobilerobotpathplanningisanaly
8、zedfirstly,andthenintroducedtherelatedtheoryofreinforcementlearning.Tosolvetheissuesinpathplanningbasedonreinforcementlearning,suchasgeneralizationproblemincontinuousstatespaceandactionspace,exp