基于懲罰函數(shù)的beta回歸變量選擇方法

基于懲罰函數(shù)的beta回歸變量選擇方法

ID:15173795

大小:861.00 KB

頁數(shù):16頁

時間:2018-08-01

基于懲罰函數(shù)的beta回歸變量選擇方法_第1頁
基于懲罰函數(shù)的beta回歸變量選擇方法_第2頁
基于懲罰函數(shù)的beta回歸變量選擇方法_第3頁
基于懲罰函數(shù)的beta回歸變量選擇方法_第4頁
基于懲罰函數(shù)的beta回歸變量選擇方法_第5頁
資源描述:

《基于懲罰函數(shù)的beta回歸變量選擇方法》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫

1、基于懲罰函數(shù)的Beta回歸變量選擇方法本文受到國家自然科學基金青年項目(71201139,71303200)、國家社科基金(13&ZD148,13CTJ001)和教育部人文社科項目(12YJC790263)的資助。內容提要:當因變量取值在(0,1)區(qū)間的比例數(shù)據(jù)時,Beta回歸是常用的模型,該模型基于因變量服從Beta分布的假設,通過連接函數(shù)將樣本服從Beta分布的均值與自變量聯(lián)系起來。本文主要研究基于懲罰函數(shù)的Beta回歸模型變量選擇方法,研究了在LASSOSCAD和MCP三種懲罰方法下的極大似然估計,同時實現(xiàn)了變量選擇和回歸系數(shù)的估計。本文還研究了

2、其漸進性質與Oracle性質,并且給出了計算機模擬。最后,將該方法應用到股息率的影響因素研究中。關鍵詞:Beta回歸;變量選擇;懲罰函數(shù);Oracle性質中圖分類號:0212文獻標識碼:AVariableSelectionforBetaRegressionbasedonPenalizedFunctionAbstract:Betaregressionisthepopularmodelwhenthedependentvariableisproportionaldataininterval(0,1),whichassumesthedependentvaria

3、bleisbetadistribution,connectingthemeanofbetadistributionandindependentvariablesvialinkfunction.Thisarticlemainfocusonthevariableselectionforbetaregressionbasedonpenalizedfunction,givingmaximumlikelihoodestimationwithLASSO,SCADandMCPpenaltymethods,thevariableselectionandestimati

4、onofcoefficientscanbeconductedatthesametime.Wealsogivetheproofofitsasymptoticalandoraclepropertiesandtheresultsofsimulations.Finally,weapplythismethodtoselectsignificantfactorsfordividendrate.KeyWords:BetaRegression;Variableselection;Penalizedfunction;OracleProperties一、引言線性回歸模型是

5、最常用的回歸模型,其假設因變量的取值區(qū)間為,但對因變量取值限制在區(qū)間的比例數(shù)據(jù)時,直接線性回歸建模就不合適了,因為其擬合值很可能會落在區(qū)間外。而比例數(shù)據(jù)在實際中是很常見的,比如股息率、升學率、電視收視率、環(huán)境效率等。對于這種比例數(shù)據(jù)的因變量,傳統(tǒng)的方法是將因變量轉換到實數(shù)區(qū)間上,用自變量與轉換后的因變量的均值建模。然而,這種方法的回歸系數(shù)難以解釋,而且比例數(shù)據(jù)通常具有非對稱性,基于正態(tài)分布假設下做出的推斷可能會導致預測失誤。為解決傳統(tǒng)回歸所存在的問題,F(xiàn)errari和Cribari-Neto(2004)提出了Beta回歸。由于Beta分布的密度函數(shù)的形

6、狀變化十分靈活,能夠描述各種各樣的分布,且回歸系數(shù)具有較好的解釋意義,因此廣受歡迎。Beta回歸模型的參數(shù)估計和統(tǒng)計診斷可以通過R包betareg實現(xiàn)(Cribari-Neto和Zeileis,2010)。隨著計算機技術的飛速發(fā)展,極大地便利了數(shù)據(jù)的獲取和存儲,很多部門積累了大量的數(shù)據(jù),比如股票市場的逐筆交易記錄、商業(yè)銀行交易記錄等,同時這些數(shù)據(jù)的維度也越來越高,高維模型中噪聲變量多,一個最重要的問題是模型選擇,在許多情形下,這等價于如何選擇自變量的問題。若不對它們加以篩選,引入過多變量,從理論上來說,一方面會導致模型不穩(wěn)健,極大地降低了估計和預測精度

7、;另一方面會加大模型的復雜度,無法突出最重要的自變量。在回歸分析中,往往先引入大量的自變量,然后篩選對因變量影響顯著的自變量,這樣可以減少模型的設定偏差。關于變量的選擇,計量經濟學中常用的方法有最優(yōu)子集法(subsetselection)、逐步(向前、向后)回歸法(stepwise)、逐段法(stagewise)等(方匡南等,2014)。但是這些方法存在許多缺點,F(xiàn)an和Li(2001)指出最優(yōu)子集法遍歷所有子集搜索最優(yōu)解,因此計算成本高,特別是很大時,基本不可能實現(xiàn)求解;Breiman(1996)指出逐步回歸法缺乏穩(wěn)定性,對數(shù)據(jù)的微小變動非常敏感。懲

8、罰函數(shù)法是目前高維數(shù)據(jù)研究領域廣受歡迎的一類方法,它通過對模型的回歸系數(shù)進行約束,使部分系數(shù)壓

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。