線性回歸、logistic回歸和一般回歸

ID：37669286

大小：842.55 KB

頁數(shù)：9頁

時間：2019-05-28

資源描述：

《線性回歸、logistic回歸和一般回歸》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、對回歸方法的認(rèn)識JerryLeadcsxulijie@gmail.com2011年2月27日1摘要本報告是在學(xué)習(xí)斯坦福大學(xué)機(jī)器學(xué)習(xí)課程前四節(jié)加上配套的講義后的總結(jié)與認(rèn)識。前四節(jié)主要講述了回歸問題，屬于有監(jiān)督學(xué)習(xí)中的一種方法。該方法的核心思想是從離散的統(tǒng)計數(shù)據(jù)中得到數(shù)學(xué)模型，然后將該數(shù)學(xué)模型用于預(yù)測或者分類。該方法處理的數(shù)據(jù)可以是多維的。講義最初介紹了一個基本問題，然后引出了線性回歸的解決方法，然后針對誤差問題做了概率解釋。2問題引入假設(shè)有一個房屋銷售的數(shù)據(jù)如下：面積(m^2)銷售價錢（萬元）12325015032087160102220……

2、這個表類似于北京5環(huán)左右的房屋價錢，我們可以做出一個圖，x軸是房屋的面積。y軸是房屋的售價，如下：如果來了一個新的面積，假設(shè)在銷售價錢的記錄中沒有的，我們怎么辦呢？我們可以用一條曲線去盡量準(zhǔn)的擬合這些數(shù)據(jù)，然后如果有新的輸入過來，我們可以在將曲線上這個點對應(yīng)的值返回。如果用一條直線去擬合，可能是下面的樣子：綠色的點就是我們想要預(yù)測的點。首先給出一些概念和常用的符號。房屋銷售記錄表：訓(xùn)練集(trainingset)或者訓(xùn)練數(shù)據(jù)(trainingdata),是我們流程中的輸入數(shù)據(jù)，一般稱為x房屋銷售價錢：輸出數(shù)據(jù)，一般稱為y擬合的函數(shù)（或者稱為

3、假設(shè)或者模型）：一般寫做y=h(x)訓(xùn)練數(shù)據(jù)的條目數(shù)(#trainingset),：一條訓(xùn)練數(shù)據(jù)是由一對輸入數(shù)據(jù)和輸出數(shù)據(jù)組成的輸入數(shù)據(jù)的維度n(特征的個數(shù)，#features)這個例子的特征是兩維的，結(jié)果是一維的。然而回歸方法能夠解決特征多維，結(jié)果是一維多離散值或一維連續(xù)值的問題。3學(xué)習(xí)過程下面是一個典型的機(jī)器學(xué)習(xí)的過程，首先給出一個輸入數(shù)據(jù)，我們的算法會通過一系列的過程得到一個估計的函數(shù)，這個函數(shù)有能力對沒有見過的新數(shù)據(jù)給出一個新的估計，也被稱為構(gòu)建一個模型。就如同上面的線性回歸函數(shù)。4線性回歸線性回歸假設(shè)特征和結(jié)果滿足線性關(guān)系。其實線

4、性關(guān)系的表達(dá)能力非常強(qiáng)大，每個特征對結(jié)果的影響強(qiáng)弱可以有前面的參數(shù)體現(xiàn)，而且每個特征變量可以首先映射到一個函數(shù)，然后再參與線性計算。這樣就可以表達(dá)特征與結(jié)果之間的非線性關(guān)系。我們用X1，X2..Xn去描述feature里面的分量，比如x1=房間的面積，x2=房間的朝向，等等，我們可以做出一個估計函數(shù)：θ在這兒稱為參數(shù)，在這的意思是調(diào)整feature中每個分量的影響力，就是到底是房屋的面積更重要還是房屋的地段更重要。為了如果我們令X0=1，就可以用向量的方式來表示了：我們程序也需要一個機(jī)制去評估我們θ是否比較好，所以說需要對我們做出的h函數(shù)進(jìn)

5、行評估，一般這個函數(shù)稱為損失函數(shù)（lossfunction）或者錯誤函數(shù)(errorfunction)，描述h函數(shù)不好的程度，在下面，我們稱這個函數(shù)為J函數(shù)在這兒我們可以做出下面的一個錯誤函數(shù)：這個錯誤估計函數(shù)是去對x(i)的估計值與真實值y(i)差的平方和作為錯誤估計函數(shù)，前面乘上的1/2是為了在求導(dǎo)的時候，這個系數(shù)就不見了。至于為何選擇平方和作為錯誤估計函數(shù)，講義后面從概率分布的角度講解了該公式的來源。如何調(diào)整θ以使得J(θ)取得最小值有很多方法，其中有最小二乘法(minsquare)，是一種完全是數(shù)學(xué)描述的方法，和梯度下降法。5梯度下

6、降法在選定線性回歸模型后，只需要確定參數(shù)θ，就可以將模型用來預(yù)測。然而θ需要在J(θ)最小的情況下才能確定。因此問題歸結(jié)為求極小值問題，使用梯度下降法。梯度下降法最大的問題是求得有可能是全局極小值，這與初始點的選取有關(guān)。梯度下降法是按下面的流程進(jìn)行的：1）首先對θ賦值，這個值可以是隨機(jī)的，也可以讓θ是一個全零的向量。2）改變θ的值，使得J(θ)按梯度下降的方向進(jìn)行減少。梯度方向由J(θ)對θ的偏導(dǎo)數(shù)確定，由于求的是極小值，因此梯度方向是偏導(dǎo)數(shù)的反方向。結(jié)果為迭代更新的方式有兩種，一種是批梯度下降，也就是對全部的訓(xùn)練數(shù)據(jù)求得誤差后再對θ進(jìn)行更

7、新，另外一種是增量梯度下降，每掃描一步都要對θ進(jìn)行更新。前一種方法能夠不斷收斂，后一種方法結(jié)果可能不斷在收斂處徘徊。一般來說，梯度下降法收斂速度還是比較慢的。另一種直接計算結(jié)果的方法是最小二乘法。6最小二乘法將訓(xùn)練特征表示為X矩陣，結(jié)果表示成y向量，仍然是線性回歸模型，誤差函數(shù)不變。那么θ可以直接由下面公式得出但此方法要求X是列滿秩的，而且求矩陣的逆比較慢。7選用誤差函數(shù)為平方和的概率解釋假設(shè)根據(jù)特征的預(yù)測結(jié)果與實際結(jié)果有誤差∈(?)，那么預(yù)測結(jié)果???(i)和真實結(jié)果?(?)滿足下式：一般來講，誤差滿足平均值為0的高斯分布，也就是正態(tài)分布

8、。那么x和y的條件概率也就是這樣就估計了一條樣本的結(jié)果概率，然而我們期待的是模型能夠在全部樣本上預(yù)測最準(zhǔn)，也就是概率積最大。這個概率積成為最大似然估計。我們希望在最大似然估計得到

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 9



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

線性回歸、logistic回歸和一般回歸

線性回歸、logistic回歸和一般回歸

相關(guān)文章

相關(guān)標(biāo)簽

線性回歸、logistic回歸和一般回歸

線性回歸、logistic回歸和一般回歸

相關(guān)文章

相關(guān)標(biāo)簽

線性回歸、logistic回歸和一般回歸

線性回歸、logistic回歸和一般回歸