基于結(jié)構(gòu)信息的rna多序列比對(duì)

ID：15155530

大小：51.00 KB

頁數(shù)：21頁

時(shí)間：2018-08-01

資源描述：

《基于結(jié)構(gòu)信息的rna多序列比對(duì)》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于結(jié)構(gòu)信息的RNA多序列比對(duì)【摘要】本研究提出了一種考慮了結(jié)構(gòu)信息的同源RNA多序列比對(duì)算法，它先利用熱力學(xué)方法計(jì)算出每條序列的配對(duì)概率矩陣，得到結(jié)構(gòu)信息，由此構(gòu)造各條序列的結(jié)構(gòu)信息矢量，結(jié)合傳統(tǒng)序列比對(duì)方法，提出優(yōu)化目標(biāo)函數(shù)，采用動(dòng)態(tài)規(guī)劃算法和漸進(jìn)比對(duì)得到最后的多序列比對(duì)。試驗(yàn)證實(shí)了該方法的有效性。【關(guān)鍵詞】多序列比對(duì)；RNA二級(jí)結(jié)構(gòu)；配對(duì)概率矩陣；結(jié)構(gòu)信息矢量；動(dòng)態(tài)規(guī)劃Abstract：WepresentedaRNAsequencesmulti-alignmentmethodbasedonstructuralinformation.Firstly,wecomputedba

2、sepairingprobabilityofeverysequencebythermodynamicmethod.Secondly,thestructuralinformationvectorwasconstructedthroughgottenstructureinformationandbeenpairalignmenteachother,asresult,aguidetreewasconstructed.Finally,combinetraditionalsequencealignment,wepresentedtheobjectivefunctionandgotthefi

3、nalmulti-alignmentbydynamicprogrammingalgorithmandprogressivealignmentwithguidetree.Wetestvalidityofourmethodon7sequencesofIREthroughcomparingwithClutalWandT-Coffee.21Keywords：Multiplesequencesalignment;Secondarystructures;Basepairingprobability;Structuralinformationvector;Dynamicprogramminga

4、lgorithm1引言多序列比對(duì)是生物序列分析的基礎(chǔ)，傳統(tǒng)的多序列比對(duì)（如ClustralW［1］、T-Coffee［2］）通常用于數(shù)據(jù)庫搜索或是結(jié)構(gòu)特點(diǎn)探測，但是對(duì)RNA分子，這些方法就不適用了，因?yàn)镽NA分子的功能主要由其二級(jí)結(jié)構(gòu)確定，在進(jìn)化過程中RNA的結(jié)構(gòu)比序列具有更強(qiáng)的保守性，許多RNA有關(guān)的分析研究也正是應(yīng)用了這一特點(diǎn)，如RNA結(jié)構(gòu)分析［3-5］、RNA同源搜索［6］、非編碼RNA探測［7-8］和基于RNA的系統(tǒng)進(jìn)化推斷［9］。而這些RNA序列分析方法都是要求先進(jìn)行準(zhǔn)確的多序列比對(duì)，這里的準(zhǔn)確，就是指序列比對(duì)不僅要考慮序列信息，而且要更多的考慮結(jié)構(gòu)信息。21基于序列和

5、結(jié)構(gòu)信息的RNA多序列比對(duì)一般可以分為兩類［10］：概率方法和非概率方法。概率方法基于上下文無關(guān)語法（SCFG），要求一個(gè)初始比對(duì)作為輸入，而輸出的質(zhì)量對(duì)初始比對(duì)的依靠性較強(qiáng)。該方法被用于對(duì)RNA家族進(jìn)行建?；蚴峭ㄟ^比較分析來預(yù)測二級(jí)結(jié)構(gòu)，比如Cove［11］、RNACAD［12］和Pfold［4］。非概率方法，像MARNA［10］，RNAlign［13］，PMmulti［14］，這種方法先進(jìn)行雙序列比對(duì)，然后漸進(jìn)的完成多序列比對(duì)。我們提出的方法屬于后者。2算法Sankoff［15］首先提出同時(shí)進(jìn)行序列比對(duì)和結(jié)構(gòu)預(yù)測，但是該算法的時(shí)間復(fù)雜度為O(N6)，空間復(fù)雜度為O(N4)，其

6、中N為序列長度。已有的幾個(gè)采用此方法的程序都使用了不同的限制，比如，F(xiàn)oldalign［16］利用了核心比對(duì)和貪婪算法，而Dynalign［17］則是通過限制兩個(gè)序列間的最大距離來減少復(fù)雜度。我們采用類似Sankoff算法的思路，但不是為了同時(shí)進(jìn)行序列比對(duì)和結(jié)構(gòu)預(yù)測，只是為了得到考慮結(jié)構(gòu)信息的多序列比對(duì)?；静襟E是：首先，對(duì)每條序列，分別計(jì)算出其堿基配對(duì)概率矩陣，然后將這些矩陣變換成易于比較的結(jié)構(gòu)信息矢量，通過兩兩比對(duì)這些矢量，構(gòu)造出一個(gè)比對(duì)指導(dǎo)樹，最后根據(jù)比對(duì)指導(dǎo)樹，漸進(jìn)的得到多序列比對(duì)。2.1堿基對(duì)配對(duì)概率矩陣為了得到配對(duì)概率矩陣，首先要進(jìn)行劃分函數(shù)的計(jì)算，McCaskill

7、［18］給出了RNA二級(jí)結(jié)構(gòu)的劃分函數(shù)的概念。RNA二級(jí)結(jié)構(gòu)的劃分函數(shù)Q定義為：21Q=∑Se-△G(S)/RT(1)式中，ΔG是結(jié)構(gòu)的Gibbs自由能變化量，R是氣體常數(shù)，T是絕對(duì)溫度，S是所有可能二級(jí)結(jié)構(gòu)的集合。McCaskill提出了一種動(dòng)態(tài)規(guī)劃算法來確定二級(jí)結(jié)構(gòu)形成中的劃分函數(shù)，該算法給出了序列中每個(gè)可能堿基對(duì)的配對(duì)概率，用一個(gè)概率點(diǎn)圖顯示，程序RNAfold［20-21］就是采用的這種算法。因?yàn)閷?duì)能量規(guī)則進(jìn)行了簡化，對(duì)多分支環(huán)的處理是用單鏈堿基的自由能來模擬堿基堆積間的

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 21



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于結(jié)構(gòu)信息的rna多序列比對(duì)

基于結(jié)構(gòu)信息的rna多序列比對(duì)

相關(guān)文章

相關(guān)標(biāo)簽