資源描述:
《線性回歸、logistic回歸和一般回歸》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、對回歸方法的認(rèn)識JerryLeadcsxulijie@gmail.com2011年2月27日1摘要本報告是在學(xué)習(xí)斯坦福大學(xué)機(jī)器學(xué)習(xí)課程前四節(jié)加上配套的講義后的總結(jié)與認(rèn)識。前四節(jié)主要講述了回歸問題,屬于有監(jiān)督學(xué)習(xí)中的一種方法。該方法的核心思想是從離散的統(tǒng)計數(shù)據(jù)中得到數(shù)學(xué)模型,然后將該數(shù)學(xué)模型用于預(yù)測或者分類。該方法處理的數(shù)據(jù)可以是多維的。講義最初介紹了一個基本問題,然后引出了線性回歸的解決方法,然后針對誤差問題做了概率解釋。2問題引入假設(shè)有一個房屋銷售的數(shù)據(jù)如下:面積(m^2)銷售價錢(萬元)12325015032087160102220……
2、這個表類似于北京5環(huán)左右的房屋價錢,我們可以做出一個圖,x軸是房屋的面積。y軸是房屋的售價,如下:如果來了一個新的面積,假設(shè)在銷售價錢的記錄中沒有的,我們怎么辦呢?我們可以用一條曲線去盡量準(zhǔn)的擬合這些數(shù)據(jù),然后如果有新的輸入過來,我們可以在將曲線上這個點對應(yīng)的值返回。如果用一條直線去擬合,可能是下面的樣子:綠色的點就是我們想要預(yù)測的點。首先給出一些概念和常用的符號。房屋銷售記錄表:訓(xùn)練集(trainingset)或者訓(xùn)練數(shù)據(jù)(trainingdata),是我們流程中的輸入數(shù)據(jù),一般稱為x房屋銷售價錢:輸出數(shù)據(jù),一般稱為y擬合的函數(shù)(或者稱為
3、假設(shè)或者模型):一般寫做y=h(x)訓(xùn)練數(shù)據(jù)的條目數(shù)(#trainingset),:一條訓(xùn)練數(shù)據(jù)是由一對輸入數(shù)據(jù)和輸出數(shù)據(jù)組成的輸入數(shù)據(jù)的維度n(特征的個數(shù),#features)這個例子的特征是兩維的,結(jié)果是一維的。然而回歸方法能夠解決特征多維,結(jié)果是一維多離散值或一維連續(xù)值的問題。3學(xué)習(xí)過程下面是一個典型的機(jī)器學(xué)習(xí)的過程,首先給出一個輸入數(shù)據(jù),我們的算法會通過一系列的過程得到一個估計的函數(shù),這個函數(shù)有能力對沒有見過的新數(shù)據(jù)給出一個新的估計,也被稱為構(gòu)建一個模型。就如同上面的線性回歸函數(shù)。4線性回歸線性回歸假設(shè)特征和結(jié)果滿足線性關(guān)系。其實線
4、性關(guān)系的表達(dá)能力非常強(qiáng)大,每個特征對結(jié)果的影響強(qiáng)弱可以有前面的參數(shù)體現(xiàn),而且每個特征變量可以首先映射到一個函數(shù),然后再參與線性計算。這樣就可以表達(dá)特征與結(jié)果之間的非線性關(guān)系。我們用X1,X2..Xn去描述feature里面的分量,比如x1=房間的面積,x2=房間的朝向,等等,我們可以做出一個估計函數(shù):θ在這兒稱為參數(shù),在這的意思是調(diào)整feature中每個分量的影響力,就是到底是房屋的面積更重要還是房屋的地段更重要。為了如果我們令X0=1,就可以用向量的方式來表示了:我們程序也需要一個機(jī)制去評估我們θ是否比較好,所以說需要對我們做出的h函數(shù)進(jìn)
5、行評估,一般這個函數(shù)稱為損失函數(shù)(lossfunction)或者錯誤函數(shù)(errorfunction),描述h函數(shù)不好的程度,在下面,我們稱這個函數(shù)為J函數(shù)在這兒我們可以做出下面的一個錯誤函數(shù):這個錯誤估計函數(shù)是去對x(i)的估計值與真實值y(i)差的平方和作為錯誤估計函數(shù),前面乘上的1/2是為了在求導(dǎo)的時候,這個系數(shù)就不見了。至于為何選擇平方和作為錯誤估計函數(shù),講義后面從概率分布的角度講解了該公式的來源。如何調(diào)整θ以使得J(θ)取得最小值有很多方法,其中有最小二乘法(minsquare),是一種完全是數(shù)學(xué)描述的方法,和梯度下降法。5梯度下
6、降法在選定線性回歸模型后,只需要確定參數(shù)θ,就可以將模型用來預(yù)測。然而θ需要在J(θ)最小的情況下才能確定。因此問題歸結(jié)為求極小值問題,使用梯度下降法。梯度下降法最大的問題是求得有可能是全局極小值,這與初始點的選取有關(guān)。梯度下降法是按下面的流程進(jìn)行的:1)首先對θ賦值,這個值可以是隨機(jī)的,也可以讓θ是一個全零的向量。2)改變θ的值,使得J(θ)按梯度下降的方向進(jìn)行減少。梯度方向由J(θ)對θ的偏導(dǎo)數(shù)確定,由于求的是極小值,因此梯度方向是偏導(dǎo)數(shù)的反方向。結(jié)果為迭代更新的方式有兩種,一種是批梯度下降,也就是對全部的訓(xùn)練數(shù)據(jù)求得誤差后再對θ進(jìn)行更
7、新,另外一種是增量梯度下降,每掃描一步都要對θ進(jìn)行更新。前一種方法能夠不斷收斂,后一種方法結(jié)果可能不斷在收斂處徘徊。一般來說,梯度下降法收斂速度還是比較慢的。另一種直接計算結(jié)果的方法是最小二乘法。6最小二乘法將訓(xùn)練特征表示為X矩陣,結(jié)果表示成y向量,仍然是線性回歸模型,誤差函數(shù)不變。那么θ可以直接由下面公式得出但此方法要求X是列滿秩的,而且求矩陣的逆比較慢。7選用誤差函數(shù)為平方和的概率解釋假設(shè)根據(jù)特征的預(yù)測結(jié)果與實際結(jié)果有誤差∈(?),那么預(yù)測結(jié)果???(i)和真實結(jié)果?(?)滿足下式:一般來講,誤差滿足平均值為0的高斯分布,也就是正態(tài)分布
8、。那么x和y的條件概率也就是這樣就估計了一條樣本的結(jié)果概率,然而我們期待的是模型能夠在全部樣本上預(yù)測最準(zhǔn),也就是概率積最大。這個概率積成為最大似然估計。我們希望在最大似然估計得到