高維模型選擇方法綜述二.doc

高維模型選擇方法綜述二.doc

ID:55697897

大?。?4.50 KB

頁數(shù):9頁

時間:2020-05-25

高維模型選擇方法綜述二.doc_第1頁
高維模型選擇方法綜述二.doc_第2頁
高維模型選擇方法綜述二.doc_第3頁
高維模型選擇方法綜述二.doc_第4頁
高維模型選擇方法綜述二.doc_第5頁
資源描述:

《高維模型選擇方法綜述二.doc》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。

1、高維模型選擇方法綜述(二)2013-4-129:08:33來源:李根鄒國華張新雨《數(shù)理統(tǒng)計與管理》(京)2012年4期第640?658頁1.1.2兩步法LASSO方法為了提高LASSO方法參數(shù)估計的準確性和相合性,對其進行修正是必要的,為此我們介紹兩步法LASSO的兩個例子:RelaxedLASSO與AdaptiveLASSO。RelaxedLASSO是由Meinshausen[17]提出的。它的主要思想為:先計算LASS。在由全路徑方法選取的調整參數(shù)下的參數(shù)估計結果(調整參數(shù)選擇將在第五節(jié)討論),選出合適的變量;

2、對于選出的變量,再次應用LASSO,但減小或者消除懲罰因子的作用,因此第二步不進行變量選擇。由此,RelaxedLASSO會得到與普通LASSO方法同樣的模型,但是回歸參數(shù)估計不同,前者不會過度縮小非零參數(shù),因為模型選擇和參數(shù)估計被分成兩個獨立的過程。上述方法是基于第一步LASSO能夠選出真實模型的前提假設的。放松懲罰項可以更準確的估計參數(shù)值。若令第二步的懲罰項為零,則為典型的LASSO/OLS方法。一些經驗和理論的結果表明,該方法優(yōu)于普通的LASSO方法。更多的可參考Meinshausen[17]。另一個兩步法L

3、ASSO的例子是ZouE18]提出的AdaptiveLASSO。該方法利用全模型最小二乘估計計算不同變量的懲罰項。若某變量最小二乘參數(shù)估計值較大,則其更可能為真實模型中的變量,因此該變量在懲罰最小二乘估計時懲罰項應較小,以確保其有更大的概率被選入模型。AdaptiveLASSO方法的懲罰項為pPx(ipi)=xI2-4—j=】i&i其中入,()>0為調整參數(shù)。注意到權重都是根據(jù)數(shù)據(jù)確定的,所以稱為AdaptiveLASSO□同RelaxedLASSO性質類似,AdaptiveLASSO也可以減弱LASSO對非零系數(shù)

4、的縮減,從而減小偏差。但AdaptiveLASSO更重要的意義在于當變量個數(shù)固定而樣本量趨于無窮時,其具有相合性,且這些參數(shù)估計的分布與事先給定非零變量位置的最小二乘得到的參數(shù)估計的分布漸近相同。1.1.3有序變量的模型選擇方法有時數(shù)據(jù)變量呈現(xiàn)有序的結構,例如根據(jù)密度排列的蛋白質的光譜波長等。在這種情況下,我們希望相鄰變量之間的系數(shù)估計相差不要太大,即選擇模型中的變量總是與相鄰變量同時出現(xiàn)。LASSO方法并不能實現(xiàn)這個目的。Tibshirani等(2005)[19]提出了FusedLASS。以達到上述目的。該方法在

5、LASSO懲罰項基礎上添加了相鄰系數(shù)之差的懲罰項,即最小化下述式子pP(1IIY-XPIP+Xi£l其中入2>0為調整參數(shù)。第二項懲罰項是對相鄰變量系數(shù)差距的懲罰,可鼓勵參數(shù)局部平緩變化。FusedLASSO-般用于變量存在自然順序的模型選擇中,它給出的參數(shù)估計在局部近似于常數(shù)。給定調整參數(shù)的值,則可利用二次算法來求解上述最小化問題。1.1.4未知分組的群組模型選擇方法當一組強相關的解釋變量同時存在時,普通的LASSO方法傾向于選取其中一個變量。但有的情形下,我們希望將這一組強相關的變量都選出來。事實上,前面提到的

6、Bridge方法的懲罰項是嚴格凸的,并且具有群組效應,但是不能實現(xiàn)模型選擇。Zou和Hastie[20]結合LASSO方法與Bridge方法的優(yōu)點,提出了既有群組效應乂能進行模型選擇的ElasticNet(EN)方法來解決未知變量分組情況下的組群模型選擇。該方法的簡單形式如下:pp(1.9)(1.10)IIY-X。15£iBj+村i對數(shù)據(jù)集(X,Y)作如下變換X1*xp=(l+L)2

7、西」’其中I是pxp的單位矩陣。記,=可1鑰°,則可將EN方法的最優(yōu)化問題轉化為LASSO方法的最優(yōu)化Piiy*-x*if+y£iB

8、:I?,=i因此當設計陣列正交時,利用LASSO結論可給出EN方法的參數(shù)估計如下aO(1.12)W(I印-E.?隊=,14S)?上述參數(shù)估計可視為LASSO估計(參數(shù)為E與嶺回歸估計(參數(shù)為.2)的結合,經歷了兩次系數(shù)縮減的過程。這個操作不能夠明顯降低參數(shù)估計的方差,但卻帶來了額外的偏差。最簡單的調整方法就是將上述參數(shù)估計結果乘以(1+入2)進行尺度調整,Zou和Hastie[20]的模擬研究表明這樣調整的預測效果較好。在參數(shù)數(shù)目隨樣本量增加的情形下,Zou和Zhang[21]將EN方法進行了推廣。EN方法在微陣列

9、數(shù)據(jù)分析中有重要應用,因為它傾向于把相關的基因作為—個組群同時刪除或選擇出來。除此之外,當變量有共線性性時,EN方法得到的選擇模型的預測準確性比LASSO高,并且前者可以更好地處理變量數(shù)目超過樣本量的問題。具體可以參見Zou和IIastie[20]的文章。與上一小節(jié)不同,有些情形下我們可以知道變量的分組情況,在進行模型選擇時,我們希望能同時保留或刪除同一組的

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。