主成分分析方法在主成分分析方法中的應用

主成分分析方法在主成分分析方法中的應用

ID:37144655

大小:653.50 KB

頁數(shù):17頁

時間:2019-05-19

主成分分析方法在主成分分析方法中的應用_第1頁
主成分分析方法在主成分分析方法中的應用_第2頁
主成分分析方法在主成分分析方法中的應用_第3頁
主成分分析方法在主成分分析方法中的應用_第4頁
主成分分析方法在主成分分析方法中的應用_第5頁
資源描述:

《主成分分析方法在主成分分析方法中的應用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、.主成分分析與因子分析及SPSS實現(xiàn)(一):原理與方法?(2014-09-0813:33:57)轉(zhuǎn)載▼一、主成分分析(1)問題提出在問題研究中,為了不遺漏和準確起見,往往會面面俱到,取得大量的指標來進行分析。比如為了研究某種疾病的影響因素,我們可能會收集患者的人口學資料、病史、體征、化驗檢查等等數(shù)十項指標。如果將這些指標直接納入多元統(tǒng)計分析,不僅會使模型變得復雜不穩(wěn)定,而且還有可能因為變量之間的多重共線性引起較大的誤差。有沒有一種辦法能對信息進行濃縮,減少變量的個數(shù),同時消除多重共線性?這時,主成分分析隆重登場。(2)主成分分析的原理主成分分析的本

2、質(zhì)是坐標的旋轉(zhuǎn)變換,將原始的n個變量進行重新的線性組合,生成n個新的變量,他們之間互不相關(guān),稱為n個“成分”。同時按照方差最大化的原則,保證第一個成分的方差最大,然后依次遞減。這n個成分是按照方差從大到小排列的,其中前m個成分可能就包含了原始變量的大部分方差(及變異信息)。那么這m個成分就成為原始變量的“主成分”,他們包含了原始變量的大部分信息。注意得到的主成分不是原始變量篩選后的剩余變量,而是原始變量經(jīng)過重新組合后的“綜合變量”。我們以最簡單的二維數(shù)據(jù)來直觀的解釋主成分分析的原理。假設(shè)現(xiàn)在有兩個變量X1、X2,在坐標上畫出散點圖如下:可見,他們之

3、間存在相關(guān)關(guān)系,如果我們將坐標軸整體逆時針旋轉(zhuǎn)45°,變成新的坐標系Y1、Y2,如下圖:..根據(jù)坐標變化的原理,我們可以算出:Y1=sqrt(2)/2*X1+sqrt(2)/2*X2Y2=sqrt(2)/2*X1-sqrt(2)/2*X2其中sqrt(x)為x的平方根。通過對X1、X2的重新進行線性組合,得到了兩個新的變量Y1、Y2。此時,Y1、Y2變得不再相關(guān),而且Y1方向變異(方差)較大,Y2方向的變異(方差)較小,這時我們可以提取Y1作為X1、X2的主成分,參與后續(xù)的統(tǒng)計分析,因為它攜帶了原始變量的大部分信息。至此我們解決了兩個問題:降維和消

4、除共線性。對于二維以上的數(shù)據(jù),就不能用上面的幾何圖形直觀的表示了,只能通過矩陣變換求解,但是本質(zhì)思想是一樣的。二、因子分析(一)原理和方法:因子分析是主成分分析的擴展。在主成分分析過程中,新變量是原始變量的線性組合,即將多個原始變量經(jīng)過線性(坐標)變換得到新的變量。因子分析中,是對原始變量間的內(nèi)在相關(guān)結(jié)構(gòu)進行分組,相關(guān)性強的分在一組,組間相關(guān)性較弱,這樣各組變量代表一個基本要素(公共因子)。通過原始變量之間的復雜關(guān)系對原始變量進行分解,得到公共因子和特殊因子。將原始變量表示成公共因子的線性組合。其中公共因子是所有原始變量中所共同具有的特征,而特殊因

5、子則是原始變量所特有的部分。因子分析強調(diào)對新變量(因子)的實際意義的解釋。舉個例子:比如在市場調(diào)查中我們收集了食品的五項指標(x1-x5):味道、價格、風味、是否快餐、能量,經(jīng)過因子分析,我們發(fā)現(xiàn)了:x1=0.02*z1+0.99*z2+e1x2=0.94*z1-0.01*z2+e2..x3=0.13*z1+0.98*z2+e3x4=0.84*z1+0.42*z2+e4x5=0.97*z1-0.02*z2+e1(以上的數(shù)字代表實際為變量間的相關(guān)系數(shù),值越大,相關(guān)性越大)第一個公因子z1主要與價格、是否快餐、能量有關(guān),代表“價格與營養(yǎng)”第二個公因子z

6、2主要與味道、風味有關(guān),代表“口味”e1-5是特殊因子,是公因子中無法解釋的,在分析中一般略去。同時,我們也可以將公因子z1、z2表示成原始變量的線性組合,用于后續(xù)分析。(二)使用條件:(1)樣本量足夠大。通常要求樣本量是變量數(shù)目的5倍以上,且大于100例。(2)原始變量之間具有相關(guān)性。如果變量之間彼此獨立,無法使用因子分析。在SPSS中可用KMO檢驗和Bartlett球形檢驗來判斷。(3)生成的公因子要有實際的意義,必要時可通過因子旋轉(zhuǎn)(坐標變化)來達到。三、主成分分析和因子分析的聯(lián)系與區(qū)別聯(lián)系:兩者都是降維和信息濃縮的方法。生成的新變量均代表了

7、原始變量的大部分信息且互相獨立,都可以用于后續(xù)的回歸分析、判別分析、聚類分析等等。區(qū)別:(1)主成分分析是按照方差最大化的方法生成的新變量,強調(diào)新變量貢獻了多大比例的方差,不關(guān)心新變量是否有明確的實際意義。(2)因子分析著重要求新變量具有實際的意義,能解釋原始變量間的內(nèi)在結(jié)構(gòu)。下一篇文章,將介紹主成分分析和因子分析的在SPSS中的實現(xiàn)。主成分分析與因子分析及SPSS實現(xiàn)(二):實例討論?(2014-09-1306:34:09)轉(zhuǎn)載▼標簽:?spss?教育?統(tǒng)計?因子分析分類:?SPSSSPSS沒有提供單獨的主成分分析方法,而是混在因子分析當中,下面

8、通過一個例子來討論主成分分析與因子分析的實現(xiàn)方法及相關(guān)問題。一、問題提出男子十項全能比賽包含100米跑、跳遠、跳高、撐桿跳

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。