資源描述:
《基于密度的并行聚類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、湖南大學碩士學位論文基于密度的并行聚類算法研究姓名:毛韶陽申請學位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:李肯立20070514高教碩士學位論文摘要隨著現(xiàn)代生物技術(shù)的不斷發(fā)展特別是基因組計劃的實施,人們不斷的獲得大量基因序列數(shù)據(jù),互聯(lián)網(wǎng)上的基因數(shù)據(jù)正呈指數(shù)增長,這些內(nèi)涵豐富的數(shù)據(jù)為人們分析和研究基因的組成與功能之間的關(guān)系提供了基礎(chǔ)。現(xiàn)代信息技術(shù)的發(fā)展尤其是超級計算機的飛速發(fā)展所帶來的高速計算能力正引導(dǎo)著算法研究者們不斷研究出新的并行聚類算法,以解決高維海量基因序列數(shù)據(jù)的計算問題。大量事實說明,一個準確、高效的并行聚類算法對生物計算尤其是基因序列數(shù)據(jù)計算的影響力是不可估量
2、的。本文首先對目前的幾種典型的串行聚類算法就適用數(shù)據(jù)屬性范圍、時間復(fù)雜度等方面進行了分析,提出了對基因序列數(shù)據(jù)采用基于密度聚類的觀點,提出了一種和基因序列數(shù)據(jù)相匹配的密度函數(shù)計算方法及一個相適應(yīng)的鄰域半徑計算公式。通過對并行計算模型的研究,設(shè)計了一種基于密度的并行聚類算法,通過32nn次時間復(fù)雜度為O()的并行運算,能使并行聚類過程的時間復(fù)雜度變?yōu)镺()。PP比較傳統(tǒng)的基于密度的聚法算法而言,增加了一次計算,以增加一次計算為代價來減少計算機操作上的開銷。最后在計算機群上對本文所提算法進行了驗證,實驗結(jié)果表明:此算法對高維海量基因序列數(shù)據(jù)有著很好的聚類效果,簇內(nèi)數(shù)據(jù)收斂度
3、高,展示了良好的時間優(yōu)越性。關(guān)鍵詞:并行算法;聚類算法;消息傳遞;基因序列;密度函數(shù)I基于密度的并行聚類算法研究ABSTRACTWiththecontinuousdevelopmentofmodernbiologytechnology,especiallytheimplementoftheHumanGenomeProject,peoplehaveacquiredquantitiesofgenesequencedata,thegene'sdataintheInternetispresentingexponentialincrease,whichsuppliesbasisf
4、orpeople'sanalyzingandresearchtherelationshipofgene'scomposingandfunctions.Thedevelopmentofthemoderninformationtechnicalespeciallythesupercomputerhasbroughthigh-speedcomputeability,itcanguidetheresearcherstofindnewclusteringalgorithmforthehighdimensionthousandsgenesequencedataanalyses.Lo
5、tsofexperimentsshowthatanaccurateandefficientparallelalgorithmisimpossibletoestimatetheinfluencetothebiologycomputeespeciallytothegenesequencedata.Firstly,thispaperanalyzedsometypicalserialclusteringalgorithmaboutdatapropertyandthetimecomplexity,putforwardapointthatthegenesequencedataclu
6、steringmaybaseonthedensity,andproposeamethodofcomputingaboutthedensityfunctionandtheneighborarearadius.Secondly,thispaperstudiedtheparallelalgorithmmodel,anddesignedaparallelclusteringalgorithmbasedonthedensity,itcanmaketheparallelclusteringntimecomplexityintoO()throughthreetimecomputing
7、withthetimecomplexityP2nofO().Comparetothetraditionalclusteringalgorithm,itaddedoncecompute.PTakeaddingoncecalculationaspricetoreducetheprocessingexpense.Finally,validatedthisalgorithmoncomputerclusters,theexperimentshowthattheparallelclusteringalgorithmhasefficientcluste