資源描述:
《試析生物信息平臺(tái)構(gòu)建及序列比對(duì)算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、西南大學(xué)碩士學(xué)位論文生物信息平臺(tái)構(gòu)建及序列比對(duì)算法研究姓名:孫榮榮申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):農(nóng)業(yè)機(jī)械化工程指導(dǎo)教師:余建橋20080501摘要生物信息平臺(tái)構(gòu)建及序列比對(duì)算法研究農(nóng)業(yè)機(jī)械化工程專業(yè)碩士研究生孫榮榮指導(dǎo)教師余建橋教授摘要生物信息學(xué)是當(dāng)今最重要、最前沿的科學(xué)發(fā)展領(lǐng)域之一,已被廣泛用于基因序列數(shù)據(jù)的獲取、處理、分析和管理等許多方面,對(duì)于分子生物學(xué)和生物醫(yī)學(xué)研究的深入發(fā)展發(fā)揮了巨大作用。序列比對(duì)是生物信息學(xué)中一種基本的信息處理方法,對(duì)于發(fā)現(xiàn)核酸和蛋白質(zhì)序列上的功能結(jié)構(gòu)和進(jìn)化的信息具有非常重要的意義。本文的工作是在本人所從事開發(fā)的柑橘生物信息平臺(tái)的基礎(chǔ)上進(jìn)行的。針對(duì)生物信息
2、平臺(tái)開發(fā)過程中遇到的問題——海量的基因數(shù)據(jù)庫序列比對(duì),我們?cè)谄脚_(tái)中采用了快速、高效的序列比對(duì)算法。本文的主要工作包括基因序列比對(duì)算法研究和生物信息平臺(tái)的構(gòu)建。本文首先采用了一種基于.NET和sQLSen,er相關(guān)技術(shù)構(gòu)建生物信息平臺(tái)的方案。在此基礎(chǔ)上選擇INSDSqeXML作為中間數(shù)據(jù)格式,以XML為數(shù)據(jù)存儲(chǔ)語言。使用大型關(guān)系數(shù)據(jù)庫SQLSen,er構(gòu)建二級(jí)生物信息數(shù)據(jù)庫。其次,對(duì)BLAST算法進(jìn)行了改進(jìn),提出了基于十六進(jìn)制編碼序列通過循環(huán)位移尋找最優(yōu)比對(duì)序列的思想,本算法通過將二進(jìn)制表示的DNA序列轉(zhuǎn)換為十六進(jìn)制,并根據(jù)序列片斷相似度得到最佳搜索窗口值,從而提高搜索速度和準(zhǔn)
3、確度。本文在搭建好的生物信息平臺(tái)基礎(chǔ)上,以柑橘基因數(shù)據(jù)為例建立出實(shí)驗(yàn)環(huán)境并實(shí)現(xiàn)了相應(yīng)算法。最后是生物信息平臺(tái)的構(gòu)建,本文所建立的生物信息平臺(tái)是以生物信息學(xué)為基礎(chǔ),通過編程而實(shí)現(xiàn)的生物信息處理系統(tǒng),包括生物信息二級(jí)數(shù)據(jù)庫和生物信息處理模塊,其作用是通過序列檢索、序列比對(duì)、相似性搜索、同源性搜索等操作從大量的序列信息中獲取基因結(jié)構(gòu)、功能和進(jìn)化等知識(shí),以便理解數(shù)據(jù)中蘊(yùn)含的生物學(xué)意義,決定研究方向和策略。實(shí)驗(yàn)表明,本文所構(gòu)建的生物信息平臺(tái)整合多個(gè)一級(jí)數(shù)據(jù)庫數(shù)據(jù)及服務(wù)資源,并且開發(fā)和整合了大量的生物信息工具,為用戶提供統(tǒng)一的查詢平臺(tái);數(shù)據(jù)格式、查詢方式與公開數(shù)據(jù)庫兼容性好,查詢靈活、功
4、能強(qiáng):運(yùn)用xML存儲(chǔ)數(shù)據(jù)使得數(shù)據(jù)庫內(nèi)容更新更加方便;改進(jìn)算法的應(yīng)用則使系統(tǒng)對(duì)用戶操作的響應(yīng)時(shí)間更短,查詢的準(zhǔn)確率更高;自己獨(dú)立開發(fā),維護(hù)與開發(fā)方便、成本低。關(guān)鍵詞:序列比對(duì)BLAST算法生物信息數(shù)據(jù)庫兩南大學(xué)碩士學(xué)位論文AbstractThebioinfonnaticsisoneofmemostimponantandadVancedsciencedeVel叩mentrealmsnowadayS.Ith笛a(bǔ)lreadybeenusedforobtaining,handling,aIlalyzingandmanagingofthegenesequencedataextensiVe
5、ly,whichh器agreatimpactint}ledeVel叩mentofm01ecularbiology鋤dbiomedicalscience.Thesequenceali印哪entisal【indofb私icmethodofhalldlinginf0兀nationinbioinfo肌atics.ItisVe叮importanttodiscoVe巧the‰ctionsmlctlIreandeVoIutioninfbm詛tionofnucleicacida11dpmtein.111ist11esisca耐es0nt11ebioinfo冊(cè)ationtemceofcitms
6、whichI鋤studying.Aimedattlleactualproblemsintheprocessofbioinfo冊(cè)ationprocession爭一alargequ卸tityofgenedataba∞sequencealignment,weusedf如t,ef6cientsequencealig姍entalgori吐lmi11ourterrace.Themainworkofmistllesisincludesreseafchofgenesequenceali伊衄entalgo^tlImandcreatIl他ofbioinf.onnationte】rrace.111
7、istextfirstputoutakindofpl鋤tocreatebioinf0冊(cè)ationtemcew淌t11e.NET鋤drelatedtccllniqueof廿leSQLSen,er.IIlt11isfoundationweselectINSDSqeXML弱acen艦ldatafo徹瞰,u辯dXMLtosaVedata,觚d啪edlarge咒lationdataba∞SQLServertosetupaseconda巧bioinf.0nnaticsda協(xié)ase.111en,improveBLAS