資源描述:
《基于深度強(qiáng)化學(xué)習(xí)的小行星探測器跳躍軌跡規(guī)劃研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文基于深度強(qiáng)化學(xué)習(xí)的小行星探測器跳躍軌跡規(guī)劃研究RESEARCHONHOPPINGTRAJECTORYPLANNINGFORASTEROIDPROBEVIADEEPREINFORCEMENTLEARNING陳康哈爾濱工業(yè)大學(xué)2018年6月國內(nèi)圖書分類號:V476.4學(xué)校代碼:10213國際圖書分類號:629.78密級:公開工學(xué)碩士學(xué)位論文基于深度強(qiáng)化學(xué)習(xí)的小行星探測器跳躍軌跡規(guī)劃研究碩士研究生:陳康導(dǎo)師:林曉輝申請學(xué)位:工學(xué)碩士學(xué)科:航空宇航科學(xué)與技術(shù)所在單位:衛(wèi)星技術(shù)研究所答辯日期:2018年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:V476.4U.D.C:
2、629.78DissertationfortheMasterDegreeinEngineeringRESEARCHONHOPPINGTRAJECTORYPLANNINGFORASTEROIDPROBEVIADEEPREINFORCEMENTLEARNINGCandidate:CHENKangSupervisor:LINXiao-huiAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:AerospaceScienceandTechnologyAffiliation:ResearchCenterofSatelliteTech.Dateo
3、fDefense:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文摘要小行星的微重力環(huán)境使得傳統(tǒng)的輪式探測器難以完成小行星表面勘測任務(wù),而采用跳躍移動方案的探測器可以輕易越過各類障礙物,能夠很好地適應(yīng)小行星環(huán)境,以更低的能源消耗探測更大的范圍。但目前的跳躍式小行星探測器相關(guān)研究中很少有對其跳躍軌跡規(guī)劃進(jìn)行研究,尤其缺乏大范圍轉(zhuǎn)移的探測器連續(xù)跳躍軌跡規(guī)劃研究。因此,本文在深入研究深度強(qiáng)化學(xué)習(xí)后將其應(yīng)用于跳躍軌跡規(guī)劃研究,針對平坦地面情況和避障任務(wù)分別設(shè)計了相應(yīng)的人工神經(jīng)網(wǎng)絡(luò),使用深
4、度強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練,并進(jìn)行了仿真測試驗證。論文主要研究內(nèi)容如下:將小行星探測器設(shè)計為在質(zhì)心處安裝有三軸正交飛輪的理想剛性立方體,對探測器在小行星表面的跳躍移動過程進(jìn)行了建模,并完成了在無控條件下的跳躍移動仿真,分析表明探測器在碰撞前的狀態(tài)是改變跳躍軌跡的決定因素。接著分析了基于碰撞點速度方向的簡單跳躍軌跡控制策略,指出其轉(zhuǎn)向角度難以精確控制,且在長遠(yuǎn)距離的跳躍移動中會由于碰撞導(dǎo)致速度下降,難以完成跳躍移動任務(wù),因此需要對探測器的跳躍軌跡規(guī)劃進(jìn)行進(jìn)一步的研究。在深入研究深度強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)上,基于深度確定性策略梯度算法框架設(shè)計了相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu),對探測器的跳躍軌跡規(guī)劃策略進(jìn)行學(xué)習(xí)。考慮到深
5、度強(qiáng)化學(xué)習(xí)所需的大量數(shù)據(jù)與仿真計算的高耗時之間的沖突,將在探測器跳躍軌跡規(guī)劃任務(wù)中并不重要的空中飛行過程進(jìn)行合理簡化,有效減少了仿真所需時間。若僅對探測器到達(dá)目標(biāo)進(jìn)行獎賞,會使獎賞值過于稀疏,不利于訓(xùn)練,因此針對跳躍移動任務(wù)設(shè)計了合理的單步獎賞值,加速了訓(xùn)練過程。將小行星表面視作理想的平坦地面,采用前饋神經(jīng)網(wǎng)絡(luò)作為策略網(wǎng)絡(luò),使用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行大量仿真數(shù)據(jù)的訓(xùn)練后,在仿真測試中表現(xiàn)出了良好的性能,能有效的在任意初始位置與速度完成向目標(biāo)點的跳躍移動。接著考慮了小行星表面存在的地形崎嶇區(qū)域,將其視作探測器所要避免與地面接觸的障礙區(qū)域,要求跳躍軌跡規(guī)劃策略具有避障能力?;诖?,引入了價值迭代網(wǎng)
6、絡(luò)的思想,使用價值迭代網(wǎng)絡(luò)對含有障礙區(qū)域位置信息的柵格地圖進(jìn)行處理,提取出有效的避障特征,再和探測器的其余特征融合。在對嵌有價值迭代網(wǎng)絡(luò)的策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練后,仿真測試結(jié)果表明通過引入價值迭代網(wǎng)絡(luò),使網(wǎng)絡(luò)學(xué)習(xí)到的策略具有了一定的避障能力,其在各項任務(wù)中表現(xiàn)都超過了前述的前饋神經(jīng)網(wǎng)絡(luò)。關(guān)鍵詞:小行星探測;輪控跳躍移動;跳躍軌跡規(guī)劃;深度強(qiáng)化學(xué)習(xí)-I-哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文AbstractTheasteroid'smicro-gravityenvironmentmakestraditionalwheeledprobesdifficulttocompleteasteroidsurfacesu
7、rveytasks,andtheuseofhoppingprobescaneasilycrossvariousobstacles,canbewelladaptedtotheasteroidenvironment,andlowerEnergyconsumptionprobesalargerrange.However,therearefewresearchesonthehoppingtrajectoryplann