高維模型選擇方法綜述二.doc

高維模型選擇方法綜述二.doc

ID:55697897

大?。?4.50 KB

頁(yè)數(shù):9頁(yè)

時(shí)間:2020-05-25

高維模型選擇方法綜述二.doc_第1頁(yè)
高維模型選擇方法綜述二.doc_第2頁(yè)
高維模型選擇方法綜述二.doc_第3頁(yè)
高維模型選擇方法綜述二.doc_第4頁(yè)
高維模型選擇方法綜述二.doc_第5頁(yè)
資源描述:

《高維模型選擇方法綜述二.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、高維模型選擇方法綜述(二)2013-4-129:08:33來(lái)源:李根鄒國(guó)華張新雨《數(shù)理統(tǒng)計(jì)與管理》(京)2012年4期第640?658頁(yè)1.1.2兩步法LASSO方法為了提高LASSO方法參數(shù)估計(jì)的準(zhǔn)確性和相合性,對(duì)其進(jìn)行修正是必要的,為此我們介紹兩步法LASSO的兩個(gè)例子:RelaxedLASSO與AdaptiveLASSO。RelaxedLASSO是由Meinshausen[17]提出的。它的主要思想為:先計(jì)算LASS。在由全路徑方法選取的調(diào)整參數(shù)下的參數(shù)估計(jì)結(jié)果(調(diào)整參數(shù)選擇將在第五節(jié)討論),選出合適的變量;

2、對(duì)于選出的變量,再次應(yīng)用LASSO,但減小或者消除懲罰因子的作用,因此第二步不進(jìn)行變量選擇。由此,RelaxedLASSO會(huì)得到與普通LASSO方法同樣的模型,但是回歸參數(shù)估計(jì)不同,前者不會(huì)過(guò)度縮小非零參數(shù),因?yàn)槟P瓦x擇和參數(shù)估計(jì)被分成兩個(gè)獨(dú)立的過(guò)程。上述方法是基于第一步LASSO能夠選出真實(shí)模型的前提假設(shè)的。放松懲罰項(xiàng)可以更準(zhǔn)確的估計(jì)參數(shù)值。若令第二步的懲罰項(xiàng)為零,則為典型的LASSO/OLS方法。一些經(jīng)驗(yàn)和理論的結(jié)果表明,該方法優(yōu)于普通的LASSO方法。更多的可參考Meinshausen[17]。另一個(gè)兩步法L

3、ASSO的例子是ZouE18]提出的AdaptiveLASSO。該方法利用全模型最小二乘估計(jì)計(jì)算不同變量的懲罰項(xiàng)。若某變量最小二乘參數(shù)估計(jì)值較大,則其更可能為真實(shí)模型中的變量,因此該變量在懲罰最小二乘估計(jì)時(shí)懲罰項(xiàng)應(yīng)較小,以確保其有更大的概率被選入模型。AdaptiveLASSO方法的懲罰項(xiàng)為pPx(ipi)=xI2-4—j=】i&i其中入,()>0為調(diào)整參數(shù)。注意到權(quán)重都是根據(jù)數(shù)據(jù)確定的,所以稱為AdaptiveLASSO□同RelaxedLASSO性質(zhì)類似,AdaptiveLASSO也可以減弱LASSO對(duì)非零系數(shù)

4、的縮減,從而減小偏差。但AdaptiveLASSO更重要的意義在于當(dāng)變量個(gè)數(shù)固定而樣本量趨于無(wú)窮時(shí),其具有相合性,且這些參數(shù)估計(jì)的分布與事先給定非零變量位置的最小二乘得到的參數(shù)估計(jì)的分布漸近相同。1.1.3有序變量的模型選擇方法有時(shí)數(shù)據(jù)變量呈現(xiàn)有序的結(jié)構(gòu),例如根據(jù)密度排列的蛋白質(zhì)的光譜波長(zhǎng)等。在這種情況下,我們希望相鄰變量之間的系數(shù)估計(jì)相差不要太大,即選擇模型中的變量總是與相鄰變量同時(shí)出現(xiàn)。LASSO方法并不能實(shí)現(xiàn)這個(gè)目的。Tibshirani等(2005)[19]提出了FusedLASS。以達(dá)到上述目的。該方法在

5、LASSO懲罰項(xiàng)基礎(chǔ)上添加了相鄰系數(shù)之差的懲罰項(xiàng),即最小化下述式子pP(1IIY-XPIP+Xi£l其中入2>0為調(diào)整參數(shù)。第二項(xiàng)懲罰項(xiàng)是對(duì)相鄰變量系數(shù)差距的懲罰,可鼓勵(lì)參數(shù)局部平緩變化。FusedLASSO-般用于變量存在自然順序的模型選擇中,它給出的參數(shù)估計(jì)在局部近似于常數(shù)。給定調(diào)整參數(shù)的值,則可利用二次算法來(lái)求解上述最小化問(wèn)題。1.1.4未知分組的群組模型選擇方法當(dāng)一組強(qiáng)相關(guān)的解釋變量同時(shí)存在時(shí),普通的LASSO方法傾向于選取其中一個(gè)變量。但有的情形下,我們希望將這一組強(qiáng)相關(guān)的變量都選出來(lái)。事實(shí)上,前面提到的

6、Bridge方法的懲罰項(xiàng)是嚴(yán)格凸的,并且具有群組效應(yīng),但是不能實(shí)現(xiàn)模型選擇。Zou和Hastie[20]結(jié)合LASSO方法與Bridge方法的優(yōu)點(diǎn),提出了既有群組效應(yīng)乂能進(jìn)行模型選擇的ElasticNet(EN)方法來(lái)解決未知變量分組情況下的組群模型選擇。該方法的簡(jiǎn)單形式如下:pp(1.9)(1.10)IIY-X。15£iBj+村i對(duì)數(shù)據(jù)集(X,Y)作如下變換X1*xp=(l+L)2

7、西」’其中I是pxp的單位矩陣。記,=可1鑰°,則可將EN方法的最優(yōu)化問(wèn)題轉(zhuǎn)化為L(zhǎng)ASSO方法的最優(yōu)化Piiy*-x*if+y£iB

8、:I?,=i因此當(dāng)設(shè)計(jì)陣列正交時(shí),利用LASSO結(jié)論可給出EN方法的參數(shù)估計(jì)如下aO(1.12)W(I印-E.?隊(duì)=,14S)?上述參數(shù)估計(jì)可視為L(zhǎng)ASSO估計(jì)(參數(shù)為E與嶺回歸估計(jì)(參數(shù)為.2)的結(jié)合,經(jīng)歷了兩次系數(shù)縮減的過(guò)程。這個(gè)操作不能夠明顯降低參數(shù)估計(jì)的方差,但卻帶來(lái)了額外的偏差。最簡(jiǎn)單的調(diào)整方法就是將上述參數(shù)估計(jì)結(jié)果乘以(1+入2)進(jìn)行尺度調(diào)整,Zou和Hastie[20]的模擬研究表明這樣調(diào)整的預(yù)測(cè)效果較好。在參數(shù)數(shù)目隨樣本量增加的情形下,Zou和Zhang[21]將EN方法進(jìn)行了推廣。EN方法在微陣列

9、數(shù)據(jù)分析中有重要應(yīng)用,因?yàn)樗鼉A向于把相關(guān)的基因作為—個(gè)組群同時(shí)刪除或選擇出來(lái)。除此之外,當(dāng)變量有共線性性時(shí),EN方法得到的選擇模型的預(yù)測(cè)準(zhǔn)確性比LASSO高,并且前者可以更好地處理變量數(shù)目超過(guò)樣本量的問(wèn)題。具體可以參見(jiàn)Zou和IIastie[20]的文章。與上一小節(jié)不同,有些情形下我們可以知道變量的分組情況,在進(jìn)行模型選擇時(shí),我們希望能同時(shí)保留或刪除同一組的

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。