資源描述:
《logistic模型和建模流程概述》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、...Logistic模型及建模流程概述1.Logistic模型介紹1.1問題的提出在商業(yè)及金融領(lǐng)域中,存在這么一類問題,問題中需要被解釋的目標量通??梢杂肶ES或者NO兩種取值來表示,如:l賣出了商品為YES,未賣出商品為NO;l顧客對超市的本次宣傳活動做了響應(yīng)為YES,沒有任何響應(yīng)為NO;l信用卡持卡人本月逾期付款為YES,按時還款了為NO;等等;對于這類問題的分析,我們不可以采用標準的線性回歸對其進行建模分析,是因為l目標變量的二元分布違背了線性回歸的重要假設(shè)l模型的目標是給出一個(0,1)之間的概率,而標準的線性回歸模型產(chǎn)生的值是在這個范圍之外1.2Logistic模
2、型對于上述問題,我們提出了logistic模型:Logistic模型可以保證:l值在-¥和+¥之間;l估計出來的概率值在0和1之間;l與事件odds()直接相關(guān);l可以很好地將問題轉(zhuǎn)化為數(shù)學(xué)問題,并且模型結(jié)果容易解釋;1.3Logistics回歸的假設(shè)l概率是自變量的logistics函數(shù)WORD格式可編輯版...這樣得到的概率似乎沒有實際意義,只是反映一種趨勢,比較大時p就會比較大取log值得到:logodds這樣可以線性化,我們把這模型稱為‘linearinthelog-odds’l模型假設(shè):1)沒有重要變量被忽略,不包含使得系數(shù)有偏的相關(guān)變量2)不包含外來變量,包含的不
3、相關(guān)變量會增加參數(shù)估計的標準誤差,但是卻不會使得系數(shù)有偏。l觀測值獨立l自變量的觀測值沒有誤差1.1最大似然準則拋一枚硬幣10次,結(jié)果如下:THTTTHTTTH假設(shè)結(jié)果獨立,考慮得到的結(jié)果的概率,P(THTTTHTTTH)=P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3[1-P(H)]7,如果我們能計算出參數(shù)P(H)的值,就能得到擲硬幣結(jié)果的概率的數(shù)值。如果我們已知擲硬幣的結(jié)果,如何得到P(H)的值呢?假設(shè)P=P(H),y=硬幣頭像一面朝上的次數(shù),n=擲硬幣的次數(shù)似然函數(shù)給出了擲硬幣結(jié)果的似然值,它是P的函數(shù);最大似然估計指出P的
4、最佳估計值是使得似然函數(shù)最大的值。為了簡化計算,代替最大化L(P),我們對L(P)取log值,然后取最大值,log是單調(diào)遞增函數(shù),這樣使得L(P)最大的P的值也是使得log(L(P))最大的值。最大化log似然函數(shù),使:解出P值:1.2將最大似然估計用于logistics回歸令Y=(y1,y2,y3,…,yn)是隨機變量(Y1,Y2,Y3,…..Yn)的一組樣本值,WORD格式可編輯版...然后似然函數(shù)可以寫成where,但是假如樣本值不獨立的話,此步驟就存在問題。對似然函數(shù)取log值,得:令Logistics回歸的似然等式對上式的參數(shù)取導(dǎo)數(shù):使上面兩式為零,解出參數(shù)的似然估
5、計值。這些方程都是非線性的,所以利用迭代可以找出答案。這個過程也有可能是不收斂的。WORD格式可編輯版...在介紹完logistic模型后,我們開始按照數(shù)據(jù)建模的流程來對各個分析環(huán)節(jié)進行討論。1.模型設(shè)計(ModelDesign)1.1建模目標我們在對數(shù)據(jù)做分析之前,首先需要考慮的是構(gòu)造模型的商業(yè)目的所在。比如說我們針對汽車貸款的數(shù)據(jù)進行分析,是希望能夠估計出每筆汽車貸款人可能會發(fā)生違約的概率,從而建立一個信貸審批的決策流程。如果沒有明確模型的目的和用途,模型的構(gòu)建工作就難進行下去。除了明確建模商業(yè)目的外,我們還需要確定模型的實施事項。比如說構(gòu)建好的模型是實驗?zāi)P?,局域范圍?nèi)
6、使用,還是全面推廣;模型的使用時間是多長;……,這些問題都需要事先考慮清楚。總的來說,我們在建模分析模型之前,需要考慮好:l我們?yōu)槭裁葱枰P??l如何使用我們建好的模型?l誰將使用我們的模型?l模型什么時候需要?1.2數(shù)據(jù)明確了建模目標之后,我們需要系統(tǒng)地整理我們的數(shù)據(jù)或者說樣本了。我們需要了解:l我們可能可以運用的數(shù)據(jù)有哪些;l哪些是內(nèi)部數(shù)據(jù)源的數(shù)據(jù),哪些是需要向客戶索取的;l我們需要多久的數(shù)據(jù);l數(shù)據(jù)有部分缺失怎么辦;l如何抽取能夠代表總體的無偏樣本;l是不是每個變量都有現(xiàn)實意義;我們還需要單獨針對目標變量進行分析。在解決某些問題的時候,目標變量并不能很容易的明確下來,我
7、們需要根據(jù)實際的業(yè)務(wù)經(jīng)驗,將數(shù)據(jù)做一些統(tǒng)計、變換,得到建模所需的目標變量值。比方說,我們在預(yù)測每位汽車貸款人發(fā)生違約的概率時,我們需要實現(xiàn)定義哪些貸款人發(fā)生過違約,那什么樣的行為才能定義為違約呢?在美國,通常定義聯(lián)系9個月以上沒有還款的行為定義為違約事件,在建模時,我們將這樣一批樣本的目標變量定義為“1”,剩余樣本的目標變量定義為“0”,然后再用logisitic模型對其建模分析。在建模過程之前,我們需要對抽取出來的樣本進行分成訓(xùn)練集、驗證集和測試集,分別用于不同的建模分析階段。WORD格式可編輯版..