資源描述:
《數(shù)據(jù)挖掘?qū)哟尉垲愃惴ㄑ芯烤C述》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、數(shù)據(jù)挖掘?qū)哟尉垲愃惴ㄑ芯烤C述摘要聚類問題是數(shù)據(jù)挖掘中的重要問題之一,是一種非監(jiān)督的學習方法。分層聚類技術(shù)在圖像處理、入侵檢測和牛物信息學等方而有著極為重要的應(yīng)用,是數(shù)據(jù)挖掘領(lǐng)域的研究熱點z—。本文總結(jié)了分層聚類算法技術(shù)的研究現(xiàn)狀,分析算法性能的主要差異,并指出其今后的發(fā)展趨勢。關(guān)鍵詞層次聚類,數(shù)據(jù)挖掘,聚類算法ReviewofhierarchicalclusteringalgorithminDataMiningAbstractClusteringproblemofdataminingisoneofimportantissues,itisa
2、kindofunsupervisedlearningmethods.Stratifiedclustertechnologyinimageprocessing,intrusiondetectionandbioinformaticshasextremelyimportantapplicationandisdataminingareaofresearchoneofthehotspots?Thispapersummarizesthelayeredclusteringalgorithmtechnologyresearch,analyzesthema
3、indifferencearithmeticperformance,andpointedoutthefuturedevelopmenttrend.KeywordsHierarchicalclustering,Datamining,Clusteringalgorithm1引言隨著計算機技術(shù)的發(fā)展,信息數(shù)據(jù)越來越多,如何從海量數(shù)據(jù)中提収對人們有價值的信息已經(jīng)成為一個非常迫切的問題。由此產(chǎn)生了數(shù)據(jù)挖掘技術(shù),它是一門新興的交叉學科,匯集了來白機器學習、模式識別、數(shù)據(jù)庫、統(tǒng)計學、人工智能等各領(lǐng)域的研究成果。聚類分析是數(shù)據(jù)挖掘屮的一個重要研究領(lǐng)域。它
4、在圖像處理、入侵檢測和生物信息學等方面有著極為重要的應(yīng)用。數(shù)據(jù)挖掘是從大雖數(shù)據(jù)中提取出可信、新穎、冇效并能被人理解的模式的高級處理過程。其口標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識。聚類分析作為一個獨立的工具來獲得數(shù)據(jù)分布的情況,是數(shù)據(jù)挖掘的一個重要研究分支。在數(shù)據(jù)挖掘領(lǐng)域,研究工作己經(jīng)集屮在為人型數(shù)據(jù)庫的有效和實際的聚類分析尋找適當?shù)姆椒??;钴S的主題集中在聚類方法的對伸縮性,方法對聚類復(fù)雜形狀和類型的數(shù)據(jù)的有效性,高維聚類分析技術(shù),以及針對大型數(shù)據(jù)庫中混合數(shù)值和分類數(shù)據(jù)的聚類方法。迄今為止,人們己經(jīng)提出了很多聚類算法,它們可以分為如下兒類
5、:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法,這些算法対于不同的研究対象各有優(yōu)缺點。在聚類算法當屮,劃分方法和層次方法是最常見的兩類聚類技術(shù),具屮劃分方法具有較高的執(zhí)行效率,而層次方法在算法上比較符合數(shù)據(jù)的特性,所以相對于劃分方法聚類的效果比較好。山層次聚類算法和基于劃分的K-Means聚類算法是實際應(yīng)用中聚類分析的支柱,算法簡單、快速而H?能冇效地處理大數(shù)據(jù)集。層次聚類方法是通過將數(shù)據(jù)組織為若十組并形成一個相應(yīng)的樹來進行聚類的。根據(jù)層是自底而上還是白頂而下形成。一個完全層次聚類的質(zhì)量由于無法對己經(jīng)做的合并或分解進
6、行調(diào)整而受到影響。但是層次聚類算法沒有使用準則函數(shù),它所潛含的對數(shù)據(jù)結(jié)構(gòu)的假設(shè)更少,所以它的通用性更強。2基于層次的聚類算法2.1凝聚的和分裂的層次聚類層次聚類是聚類問題研究中一個重要的組成部分。分層聚類的基本原則對以表述為:如果輸入n個數(shù)據(jù)點(或數(shù)集),我們定義n個數(shù)簇,其中毎個簇含一個數(shù)據(jù)。確定距離(簇與簇Z間的距離可以通過很多的方法來定義,最常川的是單連接度量。其定義兩個簇Z間的距離為一個簇中所有成員與另一簇中所有成員之間的最短距離。)層次化聚類算法可以進一步地分為兩類:凝聚和分裂。凝聚算法:在每層選擇兩個最相似的簇被合并,合并后的
7、簇在更高層參與類似的合并。分裂算法:它首先把整個數(shù)據(jù)集看成一個簇,然后依據(jù)數(shù)據(jù)集的特性在每一層分成越來越小的簇。非層次化方法的聚類算法也有很多,其中,K-Means算法是最經(jīng)典的,還有K-Means的變種。層次化聚類算法就是將數(shù)據(jù)對彖組成一棵聚類的樹。根據(jù)層次分解是口底向上生成述是頂向下生成,層次的聚類方法可以細分為凝聚的和分裂的層次聚類。凝聚的層次聚類:凝聚的層次聚類是口底向上的策略。首先將每個對彖作為一個類,然后合并這些原子類為越來越大的類,直到所有的対象都在一個類中,或者某個終結(jié)條件被滿足。分裂的層次聚類是種自頂向下的策略與凝聚的層
8、次聚類相反,它首先將所有對象置于一個類中,然后逐漸細分為越來越小的類,直到每個對彖口成一類,或者達到了某個終結(jié)條件,例如達到了某個希望的類數(shù)冃,或者兩個最近的類Z間的距離超過了某個閩值。絕人多