資源描述:
《基于懲罰函數(shù)的beta回歸變量選擇方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、基于懲罰函數(shù)的Beta回歸變量選擇方法本文受到國家自然科學(xué)基金青年項(xiàng)目(71201139,71303200)、國家社科基金(13&ZD148,13CTJ001)和教育部人文社科項(xiàng)目(12YJC790263)的資助。內(nèi)容提要:當(dāng)因變量取值在(0,1)區(qū)間的比例數(shù)據(jù)時(shí),Beta回歸是常用的模型,該模型基于因變量服從Beta分布的假設(shè),通過連接函數(shù)將樣本服從Beta分布的均值與自變量聯(lián)系起來。本文主要研究基于懲罰函數(shù)的Beta回歸模型變量選擇方法,研究了在LASSOSCAD和MCP三種懲罰方法下的極大似然估計(jì),同時(shí)實(shí)現(xiàn)了變量選擇和
2、回歸系數(shù)的估計(jì)。本文還研究了其漸進(jìn)性質(zhì)與Oracle性質(zhì),并且給出了計(jì)算機(jī)模擬。最后,將該方法應(yīng)用到股息率的影響因素研究中。關(guān)鍵詞:Beta回歸;變量選擇;懲罰函數(shù);Oracle性質(zhì)中圖分類號(hào):0212文獻(xiàn)標(biāo)識(shí)碼:AVariableSelectionforBetaRegressionbasedonPenalizedFunctionAbstract:Betaregressionisthepopularmodelwhenthedependentvariableisproportionaldataininterval(0,1),w
3、hichassumesthedependentvariableisbetadistribution,connectingthemeanofbetadistributionandindependentvariablesvialinkfunction.Thisarticlemainfocusonthevariableselectionforbetaregressionbasedonpenalizedfunction,givingmaximumlikelihoodestimationwithLASSO,SCADandMCPpena
4、ltymethods,thevariableselectionandestimationofcoefficientscanbeconductedatthesametime.Wealsogivetheproofofitsasymptoticalandoraclepropertiesandtheresultsofsimulations.Finally,weapplythismethodtoselectsignificantfactorsfordividendrate.KeyWords:BetaRegression;Variabl
5、eselection;Penalizedfunction;OracleProperties一、引言線性回歸模型是最常用的回歸模型,其假設(shè)因變量的取值區(qū)間為,但對因變量取值限制在區(qū)間的比例數(shù)據(jù)時(shí),直接線性回歸建模就不合適了,因?yàn)槠鋽M合值很可能會(huì)落在區(qū)間外。而比例數(shù)據(jù)在實(shí)際中是很常見的,比如股息率、升學(xué)率、電視收視率、環(huán)境效率等。對于這種比例數(shù)據(jù)的因變量,傳統(tǒng)的方法是將因變量轉(zhuǎn)換到實(shí)數(shù)區(qū)間上,用自變量與轉(zhuǎn)換后的因變量的均值建模。然而,這種方法的回歸系數(shù)難以解釋,而且比例數(shù)據(jù)通常具有非對稱性,基于正態(tài)分布假設(shè)下做出的推斷可能會(huì)導(dǎo)致
6、預(yù)測失誤。為解決傳統(tǒng)回歸所存在的問題,F(xiàn)errari和Cribari-Neto(2004)提出了Beta回歸。由于Beta分布的密度函數(shù)的形狀變化十分靈活,能夠描述各種各樣的分布,且回歸系數(shù)具有較好的解釋意義,因此廣受歡迎。Beta回歸模型的參數(shù)估計(jì)和統(tǒng)計(jì)診斷可以通過R包betareg實(shí)現(xiàn)(Cribari-Neto和Zeileis,2010)。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,極大地便利了數(shù)據(jù)的獲取和存儲(chǔ),很多部門積累了大量的數(shù)據(jù),比如股票市場的逐筆交易記錄、商業(yè)銀行交易記錄等,同時(shí)這些數(shù)據(jù)的維度也越來越高,高維模型中噪聲變量多,一
7、個(gè)最重要的問題是模型選擇,在許多情形下,這等價(jià)于如何選擇自變量的問題。若不對它們加以篩選,引入過多變量,從理論上來說,一方面會(huì)導(dǎo)致模型不穩(wěn)健,極大地降低了估計(jì)和預(yù)測精度;另一方面會(huì)加大模型的復(fù)雜度,無法突出最重要的自變量。在回歸分析中,往往先引入大量的自變量,然后篩選對因變量影響顯著的自變量,這樣可以減少模型的設(shè)定偏差。關(guān)于變量的選擇,計(jì)量經(jīng)濟(jì)學(xué)中常用的方法有最優(yōu)子集法(subsetselection)、逐步(向前、向后)回歸法(stepwise)、逐段法(stagewise)等(方匡南等,2014)。但是這些方法存在許多缺
8、點(diǎn),F(xiàn)an和Li(2001)指出最優(yōu)子集法遍歷所有子集搜索最優(yōu)解,因此計(jì)算成本高,特別是很大時(shí),基本不可能實(shí)現(xiàn)求解;Breiman(1996)指出逐步回歸法缺乏穩(wěn)定性,對數(shù)據(jù)的微小變動(dòng)非常敏感。懲罰函數(shù)法是目前高維數(shù)據(jù)研究領(lǐng)域廣受歡迎的一類方法,它通過對模型的回歸系數(shù)進(jìn)行約束,使部分系數(shù)壓