資源描述:
《《SAS多元統(tǒng)計分析》PPT課件》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、Chapter7SAS多元統(tǒng)計分析Chapter7SAS多元統(tǒng)計分析多元統(tǒng)計分析是統(tǒng)計學(xué)的重要應(yīng)用工具,SAS實現(xiàn)了許多常用的多元統(tǒng)計分析方法。SAS用于多變量分析的過程有PRINCOMP(主成分分析)、FACTOR(因子分析)、CANCORR(典型相關(guān)分析)、MDS(多維標度過程)、MULTTEST(多重檢驗)、PRINQUAL(定性數(shù)據(jù)的主分量分析)、CORRESP(對應(yīng)分析),用于判別分析的過程有DISCRIM(判別分析)、CANDISC(典型判別)、STEPDISC(逐步判別),用于聚類分析的過程有CLUSTER(譜系聚類)、FASTCLU
2、S(K均值快速聚類)、MODECLUS(非參數(shù)聚類)、VARCLUS(變量聚類)、TREE(畫譜系聚類的結(jié)果譜系圖并給出分類結(jié)果)。下一頁返回本節(jié)首頁Chapter7SAS多元統(tǒng)計分析一、主成分分析二、因子分析三、聚類分析四、判別分析下一頁返回本節(jié)首頁上一頁一、主成分分析㈠主成分分析簡介㈡數(shù)學(xué)模型與幾何解釋㈢PRINCOMP過程㈣菜單操作方法㈤主成分的應(yīng)用⒈主成分回歸:解決多重共線性問題⒉綜合評價下一頁返回本節(jié)首頁上一頁㈠主成分分析簡介在實際經(jīng)濟工作中,我們經(jīng)常碰到多變量或多指標問題,比如,企業(yè)經(jīng)濟效益的評價、地區(qū)經(jīng)濟發(fā)展情況比較等問題。這些問題的研究
3、一般都先要設(shè)定研究的指標,也就是設(shè)定評價企業(yè)經(jīng)濟效益與評價地區(qū)經(jīng)濟發(fā)展情況的指標體系。由于變量或指標較多,分析問題具有相當?shù)膹?fù)雜性。然而,在多數(shù)情況下,這些不同的變量或指標之間,存在一定的相關(guān)性。這樣,人們自然希望用較少的變量或指標來代替原來較多的變量或指標,而這些較少的變量或信息涵蓋了原來變量或指標的信息。利用這種降維的思想,產(chǎn)生了主成分分析方法。下一頁上一頁主成分分析,就是設(shè)法將原來變量或指標重新組合成一組新的、互不相關(guān)的幾個綜合變量或指標,同時根據(jù)實際需要從中選取幾個較少的綜合變量或指標來盡可能多地反映原變量或指標的信息。這種將多變量或多指標轉(zhuǎn)化
4、成少數(shù)幾個互不相關(guān)的綜合變量或綜合指標的統(tǒng)計方法叫做主成分分析或稱主分量分析。需要注意的是,主成分分析往往不是目的,而是達到目的的一種手段。因此,它常常用在大型研究項目的某個中間環(huán)節(jié)中。例如,將它用到多重回歸中,便產(chǎn)生了主成分回歸,它可以克服回歸問題中由于自變量之間的高度相關(guān)而產(chǎn)生的分析困難。另外,主成分分析還可以用于典型相關(guān)分析、聚類分析和因子分析中。下一頁返回本節(jié)首頁上一頁㈡數(shù)學(xué)模型與幾何解釋假設(shè)我們所討論的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標的問題,轉(zhuǎn)變?yōu)橛懻損個指標的線
5、性組合的問題,而這些新的指標F1,F(xiàn)2,…,F(xiàn)k(k≤p),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。這種由討論多個指標降為少數(shù)幾個綜合指標的過程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標的線性組合Fi。滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為1。即?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸為了方便,我們在二維空間中討論主成分的幾何意義。設(shè)有n個樣品,每個樣品有兩個觀測變量xl和
6、x2,在由變量xl和x2所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl的方差和x2的方差定量地表示。顯然,如果只考慮xl和x2中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。如果我們將xl軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)?角度,得到新坐標軸Fl和F2。Fl和F2是兩個新變量。根據(jù)旋轉(zhuǎn)變換的公式:旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研
7、究某經(jīng)濟問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。㈢PRINCOMP過程進行主成份分析PRINCOMP過程的一般格式:ProcPrincompDATA=數(shù)據(jù)集選項列表>;Var變量列表;P
8、artial變量列表;Weight變量;Freq變量;By變量;Run;下一頁上一頁⒈PROC