資源描述:
《基于孤立因子的層次聚類算法與應用------K-means算法與有效性指標研究-畢業(yè)論文.doc》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、基于孤立因子的層次聚類算法與應用本科畢業(yè)論文(科研訓練、畢業(yè)設計)題目:基于孤立因子的層次聚類算法與應用—K-means算法與有效性指標研究姓名:學院:軟件學院系:專業(yè):軟件工程年級:學號:指導教師(校內):職稱:指導教師(校內):職稱:年月日第24頁基于孤立因子的層次聚類算法與應用基于孤立因子的層次聚類算法與應用AClusteringAlgorithmBasedonOutlier-handlingFactoranditsApplications[摘要]數(shù)據(jù)挖掘是數(shù)據(jù)庫系統(tǒng)和新的數(shù)據(jù)庫應用的一個有
2、希望的、欣欣向榮的學科前沿。作為一個數(shù)據(jù)挖掘的功能,聚類分析能作為一個獨立的工具來獲得數(shù)據(jù)分布的情況,觀察每個簇的特點,集中對特定的某些簇做進一步的分析。此外,聚類分析可以作為其它算法的預處理步驟,這些算法再在生成的簇上進行處理。由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù),聚類分析已經成為數(shù)據(jù)挖掘研究領域中一個非常活躍的研究課題。本文在分析BIRCH[1]算法與CLAP[4]算法的優(yōu)缺點基礎上,結合孤立點挖掘算法,提出一種基于孤立點預測的層次聚類算法,并且用VisualC++實現(xiàn)了CLOF算法系統(tǒng)。系統(tǒng)包含了輸
3、入/輸出、數(shù)據(jù)預處理、CLOF算法核心和圖像還原預處理四個模塊。CLOF算法首先采用隨機抽樣,通過初步聚類的結果定義子聚類和數(shù)據(jù)項的孤立因子,并采用全局因子和局部因子定義相結合,改進了孤立點的去除和吸收算法,提高了聚類的質量,降低了對數(shù)據(jù)輸入順序的敏感性,增強了對噪聲數(shù)據(jù)處理的穩(wěn)健性,并在大型數(shù)據(jù)庫聚類、圖像壓縮和圖像分割等方面進一步得到驗證。[關鍵詞]聚類BIRCH算法CLAP算法K-means算法第24頁基于孤立因子的層次聚類算法與應用AClusteringAlgorithmBasedonOu
4、tlier-handlingFactoranditsApplicationsAbstract:Dataminingisapromisingandflourishingfrontierindatabasesystemsandnewdatabaseapplications.Asadataminingfunction,clusteranalysiscanbeusedasastand-alonetooltogaininsightintothedistributionofdata,toobservethec
5、haracteristicsofeachcluster,andtofocusonaparticularsetofclustersforfurtheranalysis.Alternatively,itmayserveasapreprocessingstepforotheralgorithms,suchascharacterizationandclassification,whichwouldthenoperateonthedetectedclusters.Owingtothehugeamountso
6、fdatacollectedindatabases,clusteranalysishasrecentlybecomeahighlyactivetopicindataminingresearch.Inthispaper,weproposeanewhierarchicalclusteringalgorithmtoimprovetheperformanceoftheBIRCHalgorithmandCLAPalgorithm;furthermore,weachievethesystemofCLOFalg
7、orithmusingVisualC++.Thesystemcontainsfourmodules:input/output,datapreprocess,thekernelofCLOFalgorithm,thepreprocessofimagerevivification.Basedonpreprocessingtherandomsamples,wedefineanoutlier-handlingfactor(OF)relativetoclusterfeatureentryaswellasdat
8、aitem.ThisnewalgorithmcanbeusedtoimproveclusteringqualityandeliminatethesensitivityofinputorderthroughtheglobalOFandlocalOF.Finally,weinvestigateapplicationsofthealgorithmproposedfordealingwithlargedatabase,pixelclassificationandimagecompressi