正則化快速最小二乘時域差分算法的研究

正則化快速最小二乘時域差分算法的研究

ID:35185018

大小:6.35 MB

頁數(shù):74頁

時間:2019-03-21

正則化快速最小二乘時域差分算法的研究_第1頁
正則化快速最小二乘時域差分算法的研究_第2頁
正則化快速最小二乘時域差分算法的研究_第3頁
正則化快速最小二乘時域差分算法的研究_第4頁
正則化快速最小二乘時域差分算法的研究_第5頁
資源描述:

《正則化快速最小二乘時域差分算法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、,'—I?'??.'?’-'--'"一"文'.'...,V-f/?'..?..三-.巧一二■?-\.這V巧齊.:-兵汾;:-—-.?、?:氣'再,丫--?'?/_:'乂.1\;錢j單位代碼:0010‘、.;讀參學號郵顔J,;:;:>^:主夫聲::握.:^^《化今苗竄::專業(yè)學位羣苗碩±研究生學位論文’、l二題目II巧Kil長產(chǎn)睪》)珠武^4若言.?-.?..-,.;毛乂

2、-乂,:?備―篡違謗護-^嚴非一’-??;.打.?\,巧P替專業(yè)捉./.生寺於屯一-W..萬\:襄研究―如節(jié).一、'、-心飛.:r巧帶'衣容背;巧產(chǎn)吉.%指導教師寺:苗晏.;'.-‘,一、- ̄V'V企業(yè)導師g聲巧—巧襄’'-':'..>-^:盧-j^去難球轉(zhuǎn)’祖儀巧'—'^一:,—逼產(chǎn)媒於苗片.-’---,《■-、.:-.;.二巧、曰期:l〇?。猓犇晔拢苍唬崳姡В牐В崳姳本┗ご髮W學位論

3、文原創(chuàng)性聲明,本人鄭重聲明;所呈交的學位論文,是本人在導師的指導下獨立進行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個人或集體己經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻的個人和集體,均已在文中W明確方式標明。本人完全意識到本聲明的法律結(jié)果由本人承擔。瓜0。告‘1作者簽名:東日期:關(guān)于論文使用巧巧的說明學位論文作者完全了解北京化工大學有關(guān)保留和使用學位論文的規(guī)定,即:研究生在校攻讀學位期間論文工作的知識產(chǎn)權(quán)單位屬北京化工大學。學校有

4、權(quán)保留并向國家有關(guān)部口或機構(gòu)送交論文的復(fù)?。崳娂痛疟P,允許學位論文被査閱和借閱;學校可W公布學位論文的全部或部分內(nèi)容、縮印或其它復(fù)制手段保存、匯編,可允許采用影印學位論文。□論文暫不公開(或保密)注釋(或;本學位論文屬于暫不公開),在年解密后適用本授權(quán)書。保密范圍__'s/非暫不公開(或保密)論文注釋:本學位論文不屬于暫不公開(或保密)范圍,適用本授權(quán)書。。作者簽名^直日期:么化:兮0(6-導師簽名:^62:日期學位論文巧巧集中圖分類號TP273學科分類

5、號510.8010論文編號1001020160272密級公開學位授予單位代10010學位授予單位名稱北京化工大學苗作者姓名李論通學號2013210272獲學位專業(yè)名稱控制工程獲學位專業(yè)代碼085210國家自然科學基金項巧題來源?研究方向強化學習0論文題目正則化快速巧小二乘時域差分算法的研究"7^強化學習.策略評價,正則化,巧量式最小二乘時域差分學習,極關(guān)^詞限學習機20--論文答辯日巧160526?論文類型基

6、礎(chǔ)研究學化論文評兩義咎辯委員會情巧姓名職稱工作單位學科專長指導教師李大字教授北京化工大學先進控制評巧人I巧其兵教授北京化工大學先進控制北發(fā)評閱人2馬偉芳教放環(huán)境工程評閱人3評巧人4諸委員會主巧王晶m北京化工大學與巧?診巧答辯委員1巧其兵教巧北京化工大學先進控制答辯委員2王友清教授北京化工大學迭代學習控制答辯委員3化貝克副教授北京化工大學過捏智能仿真答辯委員4黃冉副教投北京化工大學自適拉控制答辯

7、委員5一::123發(fā)巧究4注.論文類型.基礎(chǔ)研究.應(yīng)用研究.開.其它二。.中圖分類號在《中國困書資料分類法》奎巧-玉.學科分類號在中華人民共和國國家標々(姐八137459)?學科分類與代碼》中奎詢。四四位化成.論文巧號由單位代碼和年份及學號的后。5£正則化快巧最小二乘時域差分II法的研究摘要策略評價與策略改進是強化學習中兩大子問題,其中,策略評價問題也稱為學習預(yù)測問題,為策略改迸W求得最優(yōu)策略提供基礎(chǔ)。在眾多策略評價算法之中,時域差分學習是強化學習中應(yīng)用最普

8、遍的方法,同時也為求解學習控制問題的方法提供強有力的基礎(chǔ)。正則化是一種能夠?qū)⑾闰炛R加入目標函數(shù)之中,克服值函數(shù)逼近器過擬合樣本的有效方法。該方法通過對基函數(shù)進行選擇,使得值函數(shù)逼近器產(chǎn)生稀疏解。因此,逼近器的結(jié)構(gòu)得到簡化、逼近器的泛化能為得到提升一種能夠在不影響樣本利用率的前。增量式技術(shù)是提下,顯著降低策略評價算法的算法復(fù)雜度的方法。目前這兩種方法在經(jīng)典的時域差分算法中得到了應(yīng)用一二

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。