資源描述:
《基因序列圖形表達(dá)及聚類分析應(yīng)用研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、湖南大學(xué)碩士學(xué)位論文基因序列圖形表達(dá)及聚類分析應(yīng)用研究姓名:周迎春申請學(xué)位級別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:駱嘉偉20070618碩士學(xué)位論文摘要隨著生物信息學(xué)和醫(yī)學(xué)的迅速發(fā)展,以及各種生物的基因和蛋白質(zhì)的研究,產(chǎn)生了越來越多的龐大的生物基因序列數(shù)據(jù)通過分析這些序列數(shù)據(jù)可以獲得對人類有益的有關(guān)生物結(jié)構(gòu)和功能的信息。數(shù)據(jù)挖掘技術(shù)尤其是聚類分析技術(shù)是基因序列分析的一種重要的手段,本文著重研究基因序列圖形表達(dá)和基于圖形表達(dá)的基因序列的聚類技術(shù)分析與應(yīng)用。本文提出了一種基于生物學(xué)特征的非退化3-D圖形表達(dá)方法,利用此圖形表達(dá)來表征基因序列不僅使原始序列的生物學(xué)特征
2、得以保留,而且還克服了圖形的非退化現(xiàn)象。在建立基因序列矩陣過程中引入了幾何中心,采用矩陣的最大特征值不變量來表征原始基因序列。在基因序列圖形表達(dá)數(shù)據(jù)聚類分析中,本文提出一種基于多維偽F統(tǒng)計(jì)量的動(dòng)態(tài)模糊K-均值聚類分析方法。該聚類分析方法能保證最終類內(nèi)散步矩陣之跡達(dá)到最小,把多維空間的數(shù)據(jù)有效的分為具有特定數(shù)目的不同的類,給出最佳聚類個(gè)數(shù)。利用文中基因序列圖形表達(dá)建立H5N1病毒基因序列圖形表達(dá)數(shù)據(jù)對本文聚類分析方法進(jìn)行驗(yàn)證,結(jié)果表明該聚類分析方法具有較好的合理性。在BIRCH聚類算法分析研究中,詳細(xì)分析討論了BIRCH算法中存在的不足,并針對其不足進(jìn)行一定的改進(jìn),
3、提出了一種基于離差平方和的改進(jìn)多閥值BIRCH算法,充分利用離差平方和來建立簇與簇的相關(guān)性,相對于單純以簇之間的中心距離來建立相關(guān)性有一定的改進(jìn),同時(shí)在分裂因子的確定上采用了簇中直徑的最大值,克服因采用經(jīng)驗(yàn)值確定分裂因子的缺陷。最后,引入到基因序列圖形表達(dá)數(shù)據(jù)聚類分析應(yīng)用中。關(guān)鍵詞:基因序列;圖形表達(dá);偽F統(tǒng)計(jì)量;模糊聚類;BIRCH算法II基因序列圖形表達(dá)及聚類分析應(yīng)用研究AbstractTherapiddevelopmentofBiologyandtheresearchonproteinsequences,moreandmoremolecularsequenc
4、esdatahavebeengenerated.Wecangainsomeinformationaboutbiologystructureandfunctionbyanalyzingthesedata.Bioinformaticsismainlydealwithcomplexcomputationsinvolvinggenesequences,proteinsequencesbymathematicsandcomputerscience.Thetechnologyofdatamining,especiallytheclusteringisanimportantme
5、anstoanalyzegenesequences.Thispaperemphasizesonresearchinggenesequencegraphicalrepresentationandtheapplicationofclusteringtechnologybasedonthegraphicalrepresentation.Inthispaper,anovel3-Dgraphicalrepresentationwithno-degenerationispresented.Thenew3-Dgraphicalhasthevirtueofavoidingtheo
6、verlaporcrosswithoutlosingbiologicalinformationandcontainingthemainlybiologicalcharacteristicsoftheoriginalitysequence.Inordertoconstructthesequencematrix,thegeometricalcenterisintroduced.Thegenesequenceisdeclaredbythemaxeigenvalueofgenesequencematrix.Theclusteringtechnologyanalyzingo
7、nthegenesequencegraphicalrepresentationdataistheprimarycontent.inthispaper,WeintroducefakeF-statisticandproposeadynamicFuzzyK-meansclusteringanalysistechnology,thisclusteringtechnologycanensurealestinner-clusterdispersematrixtraceoffinalclusteringresultandpartitionthepointsinmulti-dim
8、ensio