資源描述:
《基于變量選擇偏差的變量選擇過程》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、II朵擊種成J:賽UNIIENCEANDr巨CHNOLOFCHINAIV巨RSITYOFELECTRONCSCOGY碩±學(xué)位論文胃MASTERTHESIS幽I-?。崳姡牐ⅲ蓿K一V:VV論文題園基于變量選擇偏差的變量選擇過程,晉占學(xué)科專業(yè)計算機(jī)欽件與利I論學(xué)號201321060213作者姓名王雙寶指導(dǎo)教師楊圃武教授■分類號密級UDC注1學(xué)位論文基于變量選擇偏差的變量選擇過程(題名和副題名)王雙寶(作者姓
2、名)指導(dǎo)教師楊國武教授電子科技大學(xué)成都(姓名、職稱、單位名稱)申請學(xué)位級別碩士學(xué)科專業(yè)計算機(jī)軟件與理論提交論文日期2016.03.28論文答辯日期2016.05.18學(xué)位授予單位和日期電子科技大學(xué)2016年06月答辯委員會主席評閱人注1:注明《國際十進(jìn)分類法UDC》的類號。VARIABLESELECTIONALGORITHMBASEDONVARIABLESELECTIONDEVIATIONAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyo
3、fChinaMajor:ComputerSoftwareandTheoryAuthor:ShuangbaoWangAdvisor:GuowuYangSchool:SchoolofComputerScience&Engineering獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加W標(biāo)注和致謝的地方夕h論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做
4、的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。作者簽名:日期年^月日論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可W采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定) ̄作者簽名:^毛導(dǎo)師簽名:日期;7^,6年《月日摘要摘要隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的維
5、度越來越高而且數(shù)據(jù)中的冗余信息越來越多,統(tǒng)計學(xué)習(xí)和機(jī)器學(xué)習(xí)從包含大量的冗余信息的數(shù)據(jù)中學(xué)習(xí)或發(fā)現(xiàn)有用的信息越來越困難,因此在對數(shù)據(jù)建模前需要進(jìn)行變量選擇。若假設(shè)潛在真實(shí)模型為線性模型時,常見的變量選擇算法有Lasso、MCP、SCAD等算法。但是Lasso算法所選擇的模型趨向于包含了大量的冗余變量;MCP算法所選擇的模型趨向于選擇更少的變量但丟失了部分重要的變量;SCAD算法所選擇的模型與潛在真實(shí)模型或真實(shí)模型的距離較大。因此,這三種變量選擇算法都存在它們自身的固有缺點(diǎn)。本文使用了變量選擇偏差的概念(變量選擇偏差可以有效
6、的刪除冗余變量的同時盡可能的保留重要變量),使用它度量選擇的模型與潛在真實(shí)模型的之間的距離。因而,本文提出了基于變量選擇偏差的變量選擇過程(下文稱為基于變量選擇偏差的變量選擇算法),同時基于此提出了基于變量選擇偏差的變量排序算法?;谧兞窟x擇偏差的變量選擇算法是選擇擁有最小的變量選擇偏差值的變量子集為最優(yōu)變量子集,其最優(yōu)變量子集與潛在的真實(shí)模型之間的對稱差最小,在擁有最少的冗余信息的同時盡可能地包含了有用的、隱藏在數(shù)據(jù)中的結(jié)構(gòu)信息。文中給出了求解最小變量選擇偏差值的最優(yōu)變量子集的過程和方法,并用數(shù)學(xué)方法證明了該方法的解是
7、全局最優(yōu)的?;谧兞窟x擇的偏差的變量排序,是使用變量選擇偏差對變量進(jìn)行加權(quán),選擇變量權(quán)大于某個閥值的變量作為最優(yōu)的變量子集。該算法所得到的變量子集與閥值大小有關(guān)。當(dāng)閥值為0.5時,基于變量選擇的變量選擇偏差的變量選擇算法和該算法所得到的變量子集是一樣的。因此,使閥值小于0.5,那么基于變量選擇偏差的變量排序算法所得到變量子集會包含有用信息會更多一些,將有助于對未知樣本的預(yù)測和區(qū)分。本文將兩個新的算法和三種傳統(tǒng)的變量選擇算法(Lasso、MCP、SC-AD)應(yīng)用于仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)上,將它們的在未知數(shù)據(jù)上表現(xiàn)出的性能進(jìn)行了
8、全面的對比。在噪聲水平不是很高的情況下,基于變量選擇偏差的變量選擇算法在模型預(yù)測能力上與Lasso相當(dāng),強(qiáng)于MCP和SCAD算法,但是選擇的冗余變量遠(yuǎn)少于Lasso算法。因此基于變量選擇偏差的變量選擇算法所選擇的變量子集中與潛在真實(shí)模型之間的距離相對于Lasso、MCP、SCAD的更近,更加可以有效的刻畫和描述數(shù)據(jù)。