高維模型選擇方法綜述二.doc

ID：55697897

大?。?4.50 KB

頁(yè)數(shù)：9頁(yè)

時(shí)間：2020-05-25

資源描述：

《高維模型選擇方法綜述二.doc》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、高維模型選擇方法綜述（二）2013-4-129:08:33來(lái)源：李根鄒國(guó)華張新雨《數(shù)理統(tǒng)計(jì)與管理》（京）2012年4期第640?658頁(yè)1.1.2兩步法LASSO方法為了提高LASSO方法參數(shù)估計(jì)的準(zhǔn)確性和相合性，對(duì)其進(jìn)行修正是必要的，為此我們介紹兩步法LASSO的兩個(gè)例子：RelaxedLASSO與AdaptiveLASSO。RelaxedLASSO是由Meinshausen［17］提出的。它的主要思想為：先計(jì)算LASS。在由全路徑方法選取的調(diào)整參數(shù)下的參數(shù)估計(jì)結(jié)果（調(diào)整參數(shù)選擇將在第五節(jié)討論），選出合適的變量；

2、對(duì)于選出的變量，再次應(yīng)用LASSO,但減小或者消除懲罰因子的作用，因此第二步不進(jìn)行變量選擇。由此，RelaxedLASSO會(huì)得到與普通LASSO方法同樣的模型，但是回歸參數(shù)估計(jì)不同，前者不會(huì)過(guò)度縮小非零參數(shù)，因?yàn)槟Ｐ瓦x擇和參數(shù)估計(jì)被分成兩個(gè)獨(dú)立的過(guò)程。上述方法是基于第一步LASSO能夠選出真實(shí)模型的前提假設(shè)的。放松懲罰項(xiàng)可以更準(zhǔn)確的估計(jì)參數(shù)值。若令第二步的懲罰項(xiàng)為零，則為典型的LASSO/OLS方法。一些經(jīng)驗(yàn)和理論的結(jié)果表明，該方法優(yōu)于普通的LASSO方法。更多的可參考Meinshausen［17］。另一個(gè)兩步法L

3、ASSO的例子是ZouE18］提出的AdaptiveLASSO。該方法利用全模型最小二乘估計(jì)計(jì)算不同變量的懲罰項(xiàng)。若某變量最小二乘參數(shù)估計(jì)值較大，則其更可能為真實(shí)模型中的變量，因此該變量在懲罰最小二乘估計(jì)時(shí)懲罰項(xiàng)應(yīng)較小，以確保其有更大的概率被選入模型。AdaptiveLASSO方法的懲罰項(xiàng)為pPx（ipi）=xI2-4—j=】i&i其中入，()>0為調(diào)整參數(shù)。注意到權(quán)重都是根據(jù)數(shù)據(jù)確定的，所以稱為AdaptiveLASSO□同RelaxedLASSO性質(zhì)類似，AdaptiveLASSO也可以減弱LASSO對(duì)非零系數(shù)

4、的縮減，從而減小偏差。但AdaptiveLASSO更重要的意義在于當(dāng)變量個(gè)數(shù)固定而樣本量趨于無(wú)窮時(shí)，其具有相合性，且這些參數(shù)估計(jì)的分布與事先給定非零變量位置的最小二乘得到的參數(shù)估計(jì)的分布漸近相同。1.1.3有序變量的模型選擇方法有時(shí)數(shù)據(jù)變量呈現(xiàn)有序的結(jié)構(gòu)，例如根據(jù)密度排列的蛋白質(zhì)的光譜波長(zhǎng)等。在這種情況下，我們希望相鄰變量之間的系數(shù)估計(jì)相差不要太大，即選擇模型中的變量總是與相鄰變量同時(shí)出現(xiàn)。LASSO方法并不能實(shí)現(xiàn)這個(gè)目的。Tibshirani等(2005)[19]提出了FusedLASS。以達(dá)到上述目的。該方法在

5、LASSO懲罰項(xiàng)基礎(chǔ)上添加了相鄰系數(shù)之差的懲罰項(xiàng)，即最小化下述式子pP（1IIY-XPIP+Xi￡l其中入2>0為調(diào)整參數(shù)。第二項(xiàng)懲罰項(xiàng)是對(duì)相鄰變量系數(shù)差距的懲罰,可鼓勵(lì)參數(shù)局部平緩變化。FusedLASSO-般用于變量存在自然順序的模型選擇中，它給出的參數(shù)估計(jì)在局部近似于常數(shù)。給定調(diào)整參數(shù)的值，則可利用二次算法來(lái)求解上述最小化問(wèn)題。1.1.4未知分組的群組模型選擇方法當(dāng)一組強(qiáng)相關(guān)的解釋變量同時(shí)存在時(shí)，普通的LASSO方法傾向于選取其中一個(gè)變量。但有的情形下，我們希望將這一組強(qiáng)相關(guān)的變量都選出來(lái)。事實(shí)上，前面提到的

6、Bridge方法的懲罰項(xiàng)是嚴(yán)格凸的，并且具有群組效應(yīng)，但是不能實(shí)現(xiàn)模型選擇。Zou和Hastie[20]結(jié)合LASSO方法與Bridge方法的優(yōu)點(diǎn)，提出了既有群組效應(yīng)乂能進(jìn)行模型選擇的ElasticNet(EN)方法來(lái)解決未知變量分組情況下的組群模型選擇。該方法的簡(jiǎn)單形式如下:pp(1.9)(1.10)IIY-X。15￡iBj+村i對(duì)數(shù)據(jù)集(X,Y)作如下變換X1*xp=(l+L)2

7、西」’其中I是pxp的單位矩陣。記,=可1鑰°,則可將EN方法的最優(yōu)化問(wèn)題轉(zhuǎn)化為L(zhǎng)ASSO方法的最優(yōu)化Piiy*-x*if+y￡iB

8、：I?，=i因此當(dāng)設(shè)計(jì)陣列正交時(shí)，利用LASSO結(jié)論可給出EN方法的參數(shù)估計(jì)如下aO(1.12)W(I印-E.?隊(duì)=,14S)?上述參數(shù)估計(jì)可視為L(zhǎng)ASSO估計(jì)（參數(shù)為E與嶺回歸估計(jì)（參數(shù)為.2）的結(jié)合，經(jīng)歷了兩次系數(shù)縮減的過(guò)程。這個(gè)操作不能夠明顯降低參數(shù)估計(jì)的方差,但卻帶來(lái)了額外的偏差。最簡(jiǎn)單的調(diào)整方法就是將上述參數(shù)估計(jì)結(jié)果乘以（1+入2）進(jìn)行尺度調(diào)整，Zou和Hastie[20]的模擬研究表明這樣調(diào)整的預(yù)測(cè)效果較好。在參數(shù)數(shù)目隨樣本量增加的情形下，Zou和Zhang[21]將EN方法進(jìn)行了推廣。EN方法在微陣列

9、數(shù)據(jù)分析中有重要應(yīng)用，因?yàn)樗鼉A向于把相關(guān)的基因作為—個(gè)組群同時(shí)刪除或選擇出來(lái)。除此之外，當(dāng)變量有共線性性時(shí)，EN方法得到的選擇模型的預(yù)測(cè)準(zhǔn)確性比LASSO高，并且前者可以更好地處理變量數(shù)目超過(guò)樣本量的問(wèn)題。具體可以參見(jiàn)Zou和IIastie[20]的文章。與上一小節(jié)不同，有些情形下我們可以知道變量的分組情況，在進(jìn)行模型選擇時(shí)，我們希望能同時(shí)保留或刪除同一組的

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 9



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

高維模型選擇方法綜述二.doc

高維模型選擇方法綜述二.doc

相關(guān)文章

相關(guān)標(biāo)簽