資源描述:
《基于聚類分析的基因表達(dá)差異篩選方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中南大學(xué)碩士學(xué)位論文基于聚類分析的基因表達(dá)差異篩選方法研究姓名:熊芳申請學(xué)位級別:碩士專業(yè):計算機(jī)技術(shù)指導(dǎo)教師:肖大光;陽菊華20070501摘要人類基因組計劃的順利完成標(biāo)志著生命科學(xué)的研究進(jìn)入了后基因組時代??茖W(xué)家的研究重點轉(zhuǎn)向了從大規(guī)模生物數(shù)據(jù)中發(fā)掘蘊含的結(jié)構(gòu)和功能信息。基因表達(dá)系列分析(sAGE)微陣列和基因芯片等技術(shù)的運用使得研究者可以同時觀察成千上萬條基因在某個生命過程中的表達(dá)情況,己經(jīng)成為了生物信息學(xué)研究的一個重要方向。如何利用計算機(jī)科學(xué)中的分析技術(shù),從海量基因表達(dá)數(shù)據(jù)中篩選出對了解生命過程有指導(dǎo)意義的信息成為當(dāng)
2、前生物信息學(xué)研究的新課題。聚類分析是在分析基因表達(dá)數(shù)據(jù)時最常使用的方法之一。具有相似表達(dá)特征的基因能夠被聚到一起,提示這些基因具有相近的生物學(xué)功能。我們對基于CF樹的兩種BIRCH算法進(jìn)行了分析和研究,發(fā)現(xiàn)其有兩點不足,一是采用統(tǒng)一閾值形成多個簇,二是不能發(fā)現(xiàn)不規(guī)則形狀的簇。本文提出了一種基于多代表點的特征樹,它基于BIRCH算法的思想,融人了CURE算法的優(yōu)點,可以對海量的聚類數(shù)據(jù)進(jìn)行壓縮,并且能夠捕捉復(fù)雜形狀的簇。利用該數(shù)據(jù)結(jié)構(gòu),采用隨機(jī)采樣的方法,提出了一個適合的處理數(shù)據(jù)的聚類算法,該算法能夠滿足上述聚類算法的要求,有
3、效地快速地處理海量數(shù)據(jù)。并從定量和定性兩方面分析了改進(jìn)算法。同時,文中也介紹了我們基于擴(kuò)展的cF樹的聚類軟件系統(tǒng)實現(xiàn),并運行了實例,應(yīng)用于胃癌SAGE文庫,有效而快速的篩選出腫瘤差異表達(dá)基因。篩選出的胃癌差異表達(dá)基因可指導(dǎo)后續(xù)分子生物學(xué)實驗研究,驗證后有望成為新的胃癌分子靶標(biāo)。通過對篩選出的EST進(jìn)行進(jìn)一步生物信息學(xué)分析和分子生物學(xué)實驗,有望克隆新的胃癌相關(guān)基因。關(guān)鍵詞生物信息學(xué),基因表達(dá)序列分析,聚類算法,擴(kuò)展CF-樹Abs仃actWiththeaccomplishmentofHumanGenomeProject,theb
4、iologicalresearchcomestothenewpostogenomeera.ScientistsnOWfocusonexploringgenomestructuresandfunctionsfrombiologicaldata.Serialanalysisofgeneexpression(SAGE),DNAmicro-arrayandgenechiptechnologyhavenowmadeitpossibletosimultaneouslymonitortheexpressionlevelsofthousan
5、dsofgenesduringbiologicalprocesses,Andserialanalysisofgeneexpression(SAGE)hasbecomeaveryimportantbranchofbioinformaticsresearch.Howtousetheanalysistechnologiesofcomputersciencetoanalysisthemillionsdataanddiscovertheusefulandinstructiveknowledgeofbiologicalexperimen
6、tisattractingmoreandmoreattentionsfortheinformationbiology.ClusteringanalysisiSthefrequentmethodtoanalysisthegeneexpressiondata.GeneswithsimilarexpressionparentsCanbeclusteredtogether謝msimilarfunctions,allofthemhavetheclosebiologyfunction.Throughmassiveanalysesandr
7、esearch,wefindthetwoofBIRCH-clusteringarithmeticbasedonCF—treehavetheirshortcomingseach,oneusesthesamethresholdtoshapemulti-cluster,andtheotherCan’tfindanomalouscluster.Thispaperpresentsmulti-representativepointsalgorithmbaseOilthefeaturetree,thealgorithmbasedOilth
8、eideaofBmCHalgorithm,addadvantageoftheCUREalgorithm,itCancompressmassiveclusteringdata,andCancapturethecomplexshapesoftheclusters.Usethedatastruc