資源描述:
《子空間聚類改進算法研究綜述》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、第27卷第5期計算機仿真2010年5月文章編號:1006—9348(2010)05—0174—04子空間聚類改進算法研究綜述李霞,徐樹維(1.同濟大學建筑與城市規(guī)劃學院,上海200092;2.河南大學計算中心,河南開封475001)摘要:高維數(shù)據(jù)聚類是聚類技術的難點和重點,子空問聚類是實現(xiàn)高維數(shù)據(jù)集聚類的有效途徑。CLIQUE算法是最早提出的基于密度和網(wǎng)格的子空間聚類算法,自動子空間聚類算法的實用性和高效性,帶來了子空間聚類算法的空前發(fā)展。深入分析CLIQUE算法的優(yōu)點和局限性;介紹了一些近幾年提出的子空間聚類算法,并針對CLIQUE算法的局限性作了改進,聚類的效率和精確性得到了提高;最后對
2、子空間聚類算法的發(fā)展趨勢進行了討論。關鍵詞:數(shù)據(jù)挖掘;聚類;高位數(shù)據(jù)集;子空間中圖分類號:TP311文獻標識碼:ASummaryofSubspaceClusteringAlgorithmsResearchBasedonCLIQUELIXiaII.XUShu—wel(1.CollegeofArchitectureandUrbanPlanning,TongjiUniversity,Shanghai200092,China;2.ComputerCenter,HenanUniversity,KaifengHenan475001,China)ABSTRACT:Theclusteringofhighdi
3、mensionaldataisakeyprobleminclusteringmethods.Subspaceclusteringisaneffectiveapproachtorealizeclusteringinhighdimensionaldata.Asapioneerdensityandgridbasedclusteringal·gorithm,CLIQUEalgorithmhas,withitspracticalityandhighefficiency,greatlyfacilitatedthedevelopmentofsub—spaceclusteringalgorithm.?Thi
4、spaper?analyzesindepththeadvantagesandlimitationsofCLIQUEalgorithmandintroducesseveralsubspaceclusteringalgorithms?putforwardinrecentyearswhichhaveallbeen?updatedto?ad—dressthelimitationsofCLIQUEalgorithmandthereforeimprovedtheeficiencyandaccuracyforclustering.?Inad—dition,thispaperalsodiscussesthe
5、developmenttrendofsubspaceclusteringalgorithm.KEYWORDS:Datamining;Clustering;Highdimensionaldatasets;Subspace1引言SCAN等。由于高維數(shù)據(jù)的稀疏性、空空間現(xiàn)象以及維度所謂聚類,就是將一個數(shù)據(jù)集中的數(shù)據(jù)進行分組,使得效應的影響,在高維數(shù)據(jù)空間中使用傳統(tǒng)算法會遇到以下問每一組內(nèi)的數(shù)據(jù)盡可能相似而不同組內(nèi)的數(shù)據(jù)盡可能不同。題:①隨著維數(shù)增長,聚類的時間和空間復雜度迅速上升從聚類分析是一項重要的研究課題,在數(shù)據(jù)挖掘、模式識別、統(tǒng)而導致算法的性能下降;②高維數(shù)據(jù)集中存在大量無關的屬計數(shù)據(jù)分析、
6、自然語言理解等領域都有廣泛的應用前景。聚性,并且在這些不相關的維上十分稀疏,這就使得在所有維類分析同時也是一個具有很強挑戰(zhàn)性的領域,它的一些潛在中存在簇的可能性幾乎為零,所以傳統(tǒng)的聚類算法不適合對應用對算法提出了特別的要求?:可擴展性、處理不同數(shù)據(jù)高維數(shù)據(jù)進行聚類;③距離函數(shù)難于定義,聚類操作的基礎類型的能力、發(fā)現(xiàn)具有任意形狀的聚類的能力、輸人參數(shù)對是數(shù)據(jù)對象之間相似性的度量,相似度高的對象歸為一類。領域知識的最小限度的依賴性、能夠處理異常數(shù)據(jù)的能力、但在高維情況下距離函數(shù)失效,因此必須通過重新定義合適數(shù)據(jù)輸入順序對聚類結果的不敏感性、處理高維數(shù)據(jù)的能的距離函數(shù)或相似性度量函數(shù)以避開“維度效
7、應”的影響。力、基于約束的聚類以及聚類結果的可解釋性和可用性。子空間聚類是針對大規(guī)模高維數(shù)據(jù)聚類的有效方法。迄今為止,僅僅數(shù)據(jù)庫界的研究人員就已經(jīng)提出了不少近年來,國內(nèi)外的研究大多集中在算法的創(chuàng)新與改進,提出數(shù)據(jù)聚類算法,比較著名的有CLARANS、BIRCHJ、DB一了眾多的子空間聚類算法,很少有研究者對這些算法作細致的比較和分析。本文從最具代表性的CLIQUE算法人手,以基金項目:河南省教育廳自然科學研究