基于結(jié)構(gòu)信息的rna多序列比對(duì)

基于結(jié)構(gòu)信息的rna多序列比對(duì)

ID:15155530

大小:51.00 KB

頁數(shù):21頁

時(shí)間:2018-08-01

基于結(jié)構(gòu)信息的rna多序列比對(duì)_第1頁
基于結(jié)構(gòu)信息的rna多序列比對(duì)_第2頁
基于結(jié)構(gòu)信息的rna多序列比對(duì)_第3頁
基于結(jié)構(gòu)信息的rna多序列比對(duì)_第4頁
基于結(jié)構(gòu)信息的rna多序列比對(duì)_第5頁
資源描述:

《基于結(jié)構(gòu)信息的rna多序列比對(duì)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于結(jié)構(gòu)信息的RNA多序列比對(duì)【摘要】本研究提出了一種考慮了結(jié)構(gòu)信息的同源RNA多序列比對(duì)算法,它先利用熱力學(xué)方法計(jì)算出每條序列的配對(duì)概率矩陣,得到結(jié)構(gòu)信息,由此構(gòu)造各條序列的結(jié)構(gòu)信息矢量,結(jié)合傳統(tǒng)序列比對(duì)方法,提出優(yōu)化目標(biāo)函數(shù),采用動(dòng)態(tài)規(guī)劃算法和漸進(jìn)比對(duì)得到最后的多序列比對(duì)。試驗(yàn)證實(shí)了該方法的有效性。【關(guān)鍵詞】多序列比對(duì);RNA二級(jí)結(jié)構(gòu);配對(duì)概率矩陣;結(jié)構(gòu)信息矢量;動(dòng)態(tài)規(guī)劃Abstract:WepresentedaRNAsequencesmulti-alignmentmethodbasedonstructuralinformation.Firstly,wecomputedba

2、sepairingprobabilityofeverysequencebythermodynamicmethod.Secondly,thestructuralinformationvectorwasconstructedthroughgottenstructureinformationandbeenpairalignmenteachother,asresult,aguidetreewasconstructed.Finally,combinetraditionalsequencealignment,wepresentedtheobjectivefunctionandgotthefi

3、nalmulti-alignmentbydynamicprogrammingalgorithmandprogressivealignmentwithguidetree.Wetestvalidityofourmethodon7sequencesofIREthroughcomparingwithClutalWandT-Coffee.21Keywords:Multiplesequencesalignment;Secondarystructures;Basepairingprobability;Structuralinformationvector;Dynamicprogramminga

4、lgorithm1引言多序列比對(duì)是生物序列分析的基礎(chǔ),傳統(tǒng)的多序列比對(duì)(如ClustralW[1]、T-Coffee[2])通常用于數(shù)據(jù)庫搜索或是結(jié)構(gòu)特點(diǎn)探測,但是對(duì)RNA分子,這些方法就不適用了,因?yàn)镽NA分子的功能主要由其二級(jí)結(jié)構(gòu)確定,在進(jìn)化過程中RNA的結(jié)構(gòu)比序列具有更強(qiáng)的保守性,許多RNA有關(guān)的分析研究也正是應(yīng)用了這一特點(diǎn),如RNA結(jié)構(gòu)分析[3-5]、RNA同源搜索[6]、非編碼RNA探測[7-8]和基于RNA的系統(tǒng)進(jìn)化推斷[9]。而這些RNA序列分析方法都是要求先進(jìn)行準(zhǔn)確的多序列比對(duì),這里的準(zhǔn)確,就是指序列比對(duì)不僅要考慮序列信息,而且要更多的考慮結(jié)構(gòu)信息。21基于序列和

5、結(jié)構(gòu)信息的RNA多序列比對(duì)一般可以分為兩類[10]:概率方法和非概率方法。概率方法基于上下文無關(guān)語法(SCFG),要求一個(gè)初始比對(duì)作為輸入,而輸出的質(zhì)量對(duì)初始比對(duì)的依靠性較強(qiáng)。該方法被用于對(duì)RNA家族進(jìn)行建?;蚴峭ㄟ^比較分析來預(yù)測二級(jí)結(jié)構(gòu),比如Cove[11]、RNACAD[12]和Pfold[4]。非概率方法,像MARNA[10],RNAlign[13],PMmulti[14],這種方法先進(jìn)行雙序列比對(duì),然后漸進(jìn)的完成多序列比對(duì)。我們提出的方法屬于后者。2算法Sankoff[15]首先提出同時(shí)進(jìn)行序列比對(duì)和結(jié)構(gòu)預(yù)測,但是該算法的時(shí)間復(fù)雜度為O(N6),空間復(fù)雜度為O(N4),其

6、中N為序列長度。已有的幾個(gè)采用此方法的程序都使用了不同的限制,比如,F(xiàn)oldalign[16]利用了核心比對(duì)和貪婪算法,而Dynalign[17]則是通過限制兩個(gè)序列間的最大距離來減少復(fù)雜度。我們采用類似Sankoff算法的思路,但不是為了同時(shí)進(jìn)行序列比對(duì)和結(jié)構(gòu)預(yù)測,只是為了得到考慮結(jié)構(gòu)信息的多序列比對(duì)?;静襟E是:首先,對(duì)每條序列,分別計(jì)算出其堿基配對(duì)概率矩陣,然后將這些矩陣變換成易于比較的結(jié)構(gòu)信息矢量,通過兩兩比對(duì)這些矢量,構(gòu)造出一個(gè)比對(duì)指導(dǎo)樹,最后根據(jù)比對(duì)指導(dǎo)樹,漸進(jìn)的得到多序列比對(duì)。2.1堿基對(duì)配對(duì)概率矩陣為了得到配對(duì)概率矩陣,首先要進(jìn)行劃分函數(shù)的計(jì)算,McCaskill

7、[18]給出了RNA二級(jí)結(jié)構(gòu)的劃分函數(shù)的概念。RNA二級(jí)結(jié)構(gòu)的劃分函數(shù)Q定義為:21Q=∑Se-△G(S)/RT(1)式中,ΔG是結(jié)構(gòu)的Gibbs自由能變化量,R是氣體常數(shù),T是絕對(duì)溫度,S是所有可能二級(jí)結(jié)構(gòu)的集合。McCaskill提出了一種動(dòng)態(tài)規(guī)劃算法來確定二級(jí)結(jié)構(gòu)形成中的劃分函數(shù),該算法給出了序列中每個(gè)可能堿基對(duì)的配對(duì)概率,用一個(gè)概率點(diǎn)圖顯示,程序RNAfold[20-21]就是采用的這種算法。因?yàn)閷?duì)能量規(guī)則進(jìn)行了簡化,對(duì)多分支環(huán)的處理是用單鏈堿基的自由能來模擬堿基堆積間的

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。