資源描述:
《主成分分析方法在主成分分析方法中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、專業(yè)資料主成分分析與因子分析及SPSS實(shí)現(xiàn)(一):原理與方法?(2014-09-0813:33:57)轉(zhuǎn)載▼一、主成分分析(1)問(wèn)題提出在問(wèn)題研究中,為了不遺漏和準(zhǔn)確起見(jiàn),往往會(huì)面面俱到,取得大量的指標(biāo)來(lái)進(jìn)行分析。比如為了研究某種疾病的影響因素,我們可能會(huì)收集患者的人口學(xué)資料、病史、體征、化驗(yàn)檢查等等數(shù)十項(xiàng)指標(biāo)。如果將這些指標(biāo)直接納入多元統(tǒng)計(jì)分析,不僅會(huì)使模型變得復(fù)雜不穩(wěn)定,而且還有可能因?yàn)樽兞恐g的多重共線性引起較大的誤差。有沒(méi)有一種辦法能對(duì)信息進(jìn)行濃縮,減少變量的個(gè)數(shù),同時(shí)消除多重共線性?這時(shí),主成分分析隆重登場(chǎng)。(2)主成分分
2、析的原理主成分分析的本質(zhì)是坐標(biāo)的旋轉(zhuǎn)變換,將原始的n個(gè)變量進(jìn)行重新的線性組合,生成n個(gè)新的變量,他們之間互不相關(guān),稱為n個(gè)“成分”。同時(shí)按照方差最大化的原則,保證第一個(gè)成分的方差最大,然后依次遞減。這n個(gè)成分是按照方差從大到小排列的,其中前m個(gè)成分可能就包含了原始變量的大部分方差(及變異信息)。那么這m個(gè)成分就成為原始變量的“主成分”,他們包含了原始變量的大部分信息。注意得到的主成分不是原始變量篩選后的剩余變量,而是原始變量經(jīng)過(guò)重新組合后的“綜合變量”。我們以最簡(jiǎn)單的二維數(shù)據(jù)來(lái)直觀的解釋主成分分析的原理。假設(shè)現(xiàn)在有兩個(gè)變量X1、X2
3、,在坐標(biāo)上畫(huà)出散點(diǎn)圖如下:可見(jiàn),他們之間存在相關(guān)關(guān)系,如果我們將坐標(biāo)軸整體逆時(shí)針旋轉(zhuǎn)45°,變成新的坐標(biāo)系Y1、Y2,如下圖:word完美格式專業(yè)資料根據(jù)坐標(biāo)變化的原理,我們可以算出:Y1=sqrt(2)/2*X1+sqrt(2)/2*X2Y2=sqrt(2)/2*X1-sqrt(2)/2*X2其中sqrt(x)為x的平方根。通過(guò)對(duì)X1、X2的重新進(jìn)行線性組合,得到了兩個(gè)新的變量Y1、Y2。此時(shí),Y1、Y2變得不再相關(guān),而且Y1方向變異(方差)較大,Y2方向的變異(方差)較小,這時(shí)我們可以提取Y1作為X1、X2的主成分,參與后續(xù)的統(tǒng)
4、計(jì)分析,因?yàn)樗鼣y帶了原始變量的大部分信息。至此我們解決了兩個(gè)問(wèn)題:降維和消除共線性。對(duì)于二維以上的數(shù)據(jù),就不能用上面的幾何圖形直觀的表示了,只能通過(guò)矩陣變換求解,但是本質(zhì)思想是一樣的。二、因子分析(一)原理和方法:因子分析是主成分分析的擴(kuò)展。在主成分分析過(guò)程中,新變量是原始變量的線性組合,即將多個(gè)原始變量經(jīng)過(guò)線性(坐標(biāo))變換得到新的變量。因子分析中,是對(duì)原始變量間的內(nèi)在相關(guān)結(jié)構(gòu)進(jìn)行分組,相關(guān)性強(qiáng)的分在一組,組間相關(guān)性較弱,這樣各組變量代表一個(gè)基本要素(公共因子)。通過(guò)原始變量之間的復(fù)雜關(guān)系對(duì)原始變量進(jìn)行分解,得到公共因子和特殊因子。
5、將原始變量表示成公共因子的線性組合。其中公共因子是所有原始變量中所共同具有的特征,而特殊因子則是原始變量所特有的部分。因子分析強(qiáng)調(diào)對(duì)新變量(因子)的實(shí)際意義的解釋。舉個(gè)例子:比如在市場(chǎng)調(diào)查中我們收集了食品的五項(xiàng)指標(biāo)(x1-x5):味道、價(jià)格、風(fēng)味、是否快餐、能量,經(jīng)過(guò)因子分析,我們發(fā)現(xiàn)了:x1=0.02*z1+0.99*z2+e1x2=0.94*z1-0.01*z2+e2word完美格式專業(yè)資料x(chóng)3=0.13*z1+0.98*z2+e3x4=0.84*z1+0.42*z2+e4x5=0.97*z1-0.02*z2+e1(以上的數(shù)字代
6、表實(shí)際為變量間的相關(guān)系數(shù),值越大,相關(guān)性越大)第一個(gè)公因子z1主要與價(jià)格、是否快餐、能量有關(guān),代表“價(jià)格與營(yíng)養(yǎng)”第二個(gè)公因子z2主要與味道、風(fēng)味有關(guān),代表“口味”e1-5是特殊因子,是公因子中無(wú)法解釋的,在分析中一般略去。同時(shí),我們也可以將公因子z1、z2表示成原始變量的線性組合,用于后續(xù)分析。(二)使用條件:(1)樣本量足夠大。通常要求樣本量是變量數(shù)目的5倍以上,且大于100例。(2)原始變量之間具有相關(guān)性。如果變量之間彼此獨(dú)立,無(wú)法使用因子分析。在SPSS中可用KMO檢驗(yàn)和Bartlett球形檢驗(yàn)來(lái)判斷。(3)生成的公因子要有實(shí)
7、際的意義,必要時(shí)可通過(guò)因子旋轉(zhuǎn)(坐標(biāo)變化)來(lái)達(dá)到。三、主成分分析和因子分析的聯(lián)系與區(qū)別聯(lián)系:兩者都是降維和信息濃縮的方法。生成的新變量均代表了原始變量的大部分信息且互相獨(dú)立,都可以用于后續(xù)的回歸分析、判別分析、聚類分析等等。區(qū)別:(1)主成分分析是按照方差最大化的方法生成的新變量,強(qiáng)調(diào)新變量貢獻(xiàn)了多大比例的方差,不關(guān)心新變量是否有明確的實(shí)際意義。(2)因子分析著重要求新變量具有實(shí)際的意義,能解釋原始變量間的內(nèi)在結(jié)構(gòu)。下一篇文章,將介紹主成分分析和因子分析的在SPSS中的實(shí)現(xiàn)。主成分分析與因子分析及SPSS實(shí)現(xiàn)(二):實(shí)例討論?(20
8、14-09-1306:34:09)轉(zhuǎn)載▼標(biāo)簽:?spss?教育?統(tǒng)計(jì)?因子分析分類:?SPSSSPSS沒(méi)有提供單獨(dú)的主成分分析方法,而是混在因子分析當(dāng)中,下面通過(guò)一個(gè)例子來(lái)討論主成分分析與因子分析的實(shí)現(xiàn)方法及相關(guān)問(wèn)題。一、問(wèn)題提出男子