資源描述:
《金融數(shù)據(jù)論文 上市公司論文》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、金融數(shù)據(jù)論文上市公司論文基于主成分分析和聚類分析的上市公司分類 摘要:本文利用數(shù)據(jù)挖掘中的主成分分析和聚類分析技術(shù),考察了上市公司的經(jīng)營業(yè)績,并對其進(jìn)行歸類。具體采取了系統(tǒng)聚類和K-means聚類相結(jié)合的聚類方法,綜合這兩種方法的優(yōu)缺點(diǎn),以新疆板塊的所有上市公司為樣本,進(jìn)行了實證分析,所得結(jié)果可以給各方面人士提供信息決策的依據(jù)。上市公司可根據(jù)聚類結(jié)果了解其自身經(jīng)營管理的薄弱方面,針對這些有所重點(diǎn)的進(jìn)行改進(jìn);而投資者則可以據(jù)此找出最優(yōu)的公司,為其投資決策提供選擇的依據(jù)?! £P(guān)鍵詞:經(jīng)營業(yè)績;主成分分析;系統(tǒng)聚類;K-means 一、引言 隨著我國金融市場的不斷發(fā)展,
2、上市公司的數(shù)量也在逐年增加,2009年我國股票市場正式推出了創(chuàng)業(yè)板,為許多高科技的中小公司提供了一個籌融資的平臺。在此同時,對于投資者來說,其投資股票的選擇余地也變得更加的廣泛。但是這么多公司,有的經(jīng)營業(yè)績好,有的經(jīng)營業(yè)績差。對投資者來說,如何區(qū)分出業(yè)績較好的公司和業(yè)績較差的公司,直接影響到其投資的成功率。因此,通過一定的方法對上市公司進(jìn)行分類,顯得比較重要。 在這一方面,國內(nèi)很多的學(xué)者,在區(qū)分上市公司的財務(wù)狀況時,使用的方法基本上是主成分分析和聚類分析這兩種方法相結(jié)合。其中比較具有代表性的是,鄧秀勤(1999),將聚類分析方法應(yīng)用到股票市場的板塊分析,它選取了每股收益、每股
3、凈資產(chǎn)、股東權(quán)益率、凈資產(chǎn)收益率、凈利潤率等5個反應(yīng)盈利能力的財務(wù)指標(biāo),進(jìn)行系統(tǒng)聚類分析。但是這種做法,在指標(biāo)的選擇上有些不足,單單從盈利能力指標(biāo)考慮,不能夠很好的反映出上市公司的綜合實力。周焯華等(2002),綜合考慮行業(yè)因素和公司因素,選取了17個指標(biāo)來考察上市公司的業(yè)績,從而它在指標(biāo)體系的選擇上有一個比較好的改進(jìn),但是它在面對如此多的指標(biāo)的時候,沒有進(jìn)行降維處理,而直接進(jìn)行了聚類分析,是否所有的指標(biāo)都發(fā)揮了一定的效力值得我們懷疑。陶冶等(2005),應(yīng)用該方法對中小板的股票進(jìn)行了投資價值的分析。謝思(2007),利用因子分析和聚類分析相結(jié)合的方法對金融類的上市公司進(jìn)行了經(jīng)
4、營績效的分析,這是對以前諸多方法的一個不錯的改進(jìn)??偨Y(jié)國內(nèi)學(xué)者,對上市公司分類所用方法的一個共性,單單使用了系統(tǒng)聚類分析得出聚類結(jié)果?! 《n家煒(2006)指出,如果單純的使用系統(tǒng)聚類這種方法,有個缺陷,系統(tǒng)聚類屬于層次法的一種,它一旦一個步驟(合并或分裂)完成,它就不能被撤消。書中指出的另外一種方法,K-means則在類的數(shù)目的確定上過于主觀性。考慮每種聚類方法各自的局限性和優(yōu)勢,建議在做聚類分析時,將凝聚法和K-means這兩種方法結(jié)合起來,會達(dá)到一個更好的效果?! 』诖?,本文首先選取比較全面的財務(wù)指標(biāo),然后利用主成分分析和聚類分析相結(jié)合的方法來評價上市公司的業(yè)績,進(jìn)而
5、對某一區(qū)域板塊的所有上市公司進(jìn)行分類。在聚類的過程中,本文首先通過系統(tǒng)聚類的方法確定分類的數(shù)目,然后在此類數(shù)目的基礎(chǔ)上,利用K-means方法進(jìn)行再聚類?! 《⒅鞒煞址治龊途垲惙治觥 ≈鞒煞址治龅墓ぷ鲗ο笫歉呔S定量變量形成的數(shù)據(jù)。在統(tǒng)計學(xué)中,主成分分析的主要作用是:在盡量減少原始信息損失的條件下,將高維問題轉(zhuǎn)化為低維問題。其基本原理:統(tǒng)計學(xué)認(rèn)為,變異的數(shù)據(jù)可以提供某種識辨信息,數(shù)據(jù)之間的變異越大,能夠提供的識辨信息就越多。由于統(tǒng)計學(xué)通常采用方差來表示數(shù)據(jù)之間的變異大小,因此數(shù)據(jù)的方差越大,數(shù)據(jù)能夠提供的識辨信息量就越大。在高維數(shù)據(jù)集中,各分量數(shù)據(jù)所提供的全部識辨信息量
6、可以用各分量的方差之和來表示。一種較好的辦法是利用原始數(shù)據(jù)庫建立新的數(shù)據(jù)庫,新數(shù)據(jù)庫能夠保持原始數(shù)據(jù)庫的全部識辨信息,并且新數(shù)據(jù)庫所含有的識辨信息能夠較多地集中在少數(shù)幾個分量上,這樣我們利用這幾個分量就可以在盡量減少原始信息損失的條件,將高維問題轉(zhuǎn)化為低維問題?! 【垲愂菍⑽锢砘虺橄髮ο蟮募戏纸M成為由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異,聚類是一種無指導(dǎo)的學(xué)習(xí),不依賴預(yù)先定義的類和訓(xùn)練樣本。聚類分析主要集中在基于距離的聚類分析?! 【垲惙治銮笆紫纫龅氖菍?shù)據(jù)變量標(biāo)準(zhǔn)化,數(shù)據(jù)類型大致分為區(qū)
7、間標(biāo)度變量、二元變量、標(biāo)稱型、序數(shù)型和比例標(biāo)度型變量、混合類型變量。而本文中用到的都是區(qū)間標(biāo)度變量,區(qū)間標(biāo)度變量是一個線性標(biāo)度的連續(xù)度量。為了實現(xiàn)度量值的標(biāo)準(zhǔn)化,一種方法是將原來的度量值轉(zhuǎn)換為無單位的值。我們用距離判斷樣本之間的相似程度,聚類分析算法有劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法等,本文選取的方法是劃分法中K-means法和層次法中的凝聚法?! 澐址椒ㄊ?,給定一個含有n個對象的數(shù)據(jù)庫,一個劃分方法構(gòu)建數(shù)據(jù)的k個劃分,每個劃分表示一個聚類,且k≤n。