基因序列圖形表達(dá)及聚類分析應(yīng)用研究

基因序列圖形表達(dá)及聚類分析應(yīng)用研究

ID:33612642

大小:1.07 MB

頁數(shù):71頁

時(shí)間:2019-02-27

基因序列圖形表達(dá)及聚類分析應(yīng)用研究_第1頁
基因序列圖形表達(dá)及聚類分析應(yīng)用研究_第2頁
基因序列圖形表達(dá)及聚類分析應(yīng)用研究_第3頁
基因序列圖形表達(dá)及聚類分析應(yīng)用研究_第4頁
基因序列圖形表達(dá)及聚類分析應(yīng)用研究_第5頁
資源描述:

《基因序列圖形表達(dá)及聚類分析應(yīng)用研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、湖南大學(xué)碩士學(xué)位論文基因序列圖形表達(dá)及聚類分析應(yīng)用研究姓名:周迎春申請學(xué)位級別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:駱嘉偉20070618碩士學(xué)位論文摘要隨著生物信息學(xué)和醫(yī)學(xué)的迅速發(fā)展,以及各種生物的基因和蛋白質(zhì)的研究,產(chǎn)生了越來越多的龐大的生物基因序列數(shù)據(jù)通過分析這些序列數(shù)據(jù)可以獲得對人類有益的有關(guān)生物結(jié)構(gòu)和功能的信息。數(shù)據(jù)挖掘技術(shù)尤其是聚類分析技術(shù)是基因序列分析的一種重要的手段,本文著重研究基因序列圖形表達(dá)和基于圖形表達(dá)的基因序列的聚類技術(shù)分析與應(yīng)用。本文提出了一種基于生物學(xué)特征的非退化3-D圖形表達(dá)方法,利用此圖形表達(dá)來表征基因序列不僅使原始序列的生物學(xué)特征

2、得以保留,而且還克服了圖形的非退化現(xiàn)象。在建立基因序列矩陣過程中引入了幾何中心,采用矩陣的最大特征值不變量來表征原始基因序列。在基因序列圖形表達(dá)數(shù)據(jù)聚類分析中,本文提出一種基于多維偽F統(tǒng)計(jì)量的動(dòng)態(tài)模糊K-均值聚類分析方法。該聚類分析方法能保證最終類內(nèi)散步矩陣之跡達(dá)到最小,把多維空間的數(shù)據(jù)有效的分為具有特定數(shù)目的不同的類,給出最佳聚類個(gè)數(shù)。利用文中基因序列圖形表達(dá)建立H5N1病毒基因序列圖形表達(dá)數(shù)據(jù)對本文聚類分析方法進(jìn)行驗(yàn)證,結(jié)果表明該聚類分析方法具有較好的合理性。在BIRCH聚類算法分析研究中,詳細(xì)分析討論了BIRCH算法中存在的不足,并針對其不足進(jìn)行一定的改進(jìn),

3、提出了一種基于離差平方和的改進(jìn)多閥值BIRCH算法,充分利用離差平方和來建立簇與簇的相關(guān)性,相對于單純以簇之間的中心距離來建立相關(guān)性有一定的改進(jìn),同時(shí)在分裂因子的確定上采用了簇中直徑的最大值,克服因采用經(jīng)驗(yàn)值確定分裂因子的缺陷。最后,引入到基因序列圖形表達(dá)數(shù)據(jù)聚類分析應(yīng)用中。關(guān)鍵詞:基因序列;圖形表達(dá);偽F統(tǒng)計(jì)量;模糊聚類;BIRCH算法II基因序列圖形表達(dá)及聚類分析應(yīng)用研究AbstractTherapiddevelopmentofBiologyandtheresearchonproteinsequences,moreandmoremolecularsequenc

4、esdatahavebeengenerated.Wecangainsomeinformationaboutbiologystructureandfunctionbyanalyzingthesedata.Bioinformaticsismainlydealwithcomplexcomputationsinvolvinggenesequences,proteinsequencesbymathematicsandcomputerscience.Thetechnologyofdatamining,especiallytheclusteringisanimportantme

5、anstoanalyzegenesequences.Thispaperemphasizesonresearchinggenesequencegraphicalrepresentationandtheapplicationofclusteringtechnologybasedonthegraphicalrepresentation.Inthispaper,anovel3-Dgraphicalrepresentationwithno-degenerationispresented.Thenew3-Dgraphicalhasthevirtueofavoidingtheo

6、verlaporcrosswithoutlosingbiologicalinformationandcontainingthemainlybiologicalcharacteristicsoftheoriginalitysequence.Inordertoconstructthesequencematrix,thegeometricalcenterisintroduced.Thegenesequenceisdeclaredbythemaxeigenvalueofgenesequencematrix.Theclusteringtechnologyanalyzingo

7、nthegenesequencegraphicalrepresentationdataistheprimarycontent.inthispaper,WeintroducefakeF-statisticandproposeadynamicFuzzyK-meansclusteringanalysistechnology,thisclusteringtechnologycanensurealestinner-clusterdispersematrixtraceoffinalclusteringresultandpartitionthepointsinmulti-dim

8、ensio

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。