序列比對在生物信息學(xué)應(yīng)用-.doc

序列比對在生物信息學(xué)應(yīng)用-.doc

ID:56762061

大?。?6.00 KB

頁數(shù):4頁

時間:2020-07-08

序列比對在生物信息學(xué)應(yīng)用-.doc_第1頁
序列比對在生物信息學(xué)應(yīng)用-.doc_第2頁
序列比對在生物信息學(xué)應(yīng)用-.doc_第3頁
序列比對在生物信息學(xué)應(yīng)用-.doc_第4頁
資源描述:

《序列比對在生物信息學(xué)應(yīng)用-.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、序列比對在生物信息學(xué)中的應(yīng)用最常見的比對是蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對是將多個蛋白質(zhì)或核酸同時進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和profile,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息和預(yù)測一些新發(fā)現(xiàn)基因的功能。序列兩兩比對序列比對的理論基礎(chǔ)是進(jìn)化學(xué)說,如果兩個序列之間具有足夠的相似性

2、,就推測二者可能有共同的進(jìn)化祖先,經(jīng)過序列內(nèi)殘基的替換、殘基或序列片段的缺失、以及序列重組等遺傳變異過程分別演化而來。序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。在殘基-殘基比對中,可以明顯看到序列中某些氨基酸殘基比其它位置上的殘基更保守,這些信息揭示了這些保守位點(diǎn)上的殘基對蛋白質(zhì)的結(jié)構(gòu)和功能是至關(guān)重要的,例如它們可能是酶的活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成特定結(jié)構(gòu)motif的殘基等等。通過大量實(shí)驗(yàn)和序列比對的分析,一般認(rèn)為蛋白質(zhì)

3、的結(jié)構(gòu)和功能比序列具有更大的保守性,因此粗略的說,如果序列之間的相似性超過30%,它們就很可能是同源的。早期的序列比對是全局的序列比較,但由于蛋白質(zhì)具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新蛋白質(zhì),因此局部比對會更加合理。通常用打分矩陣描述序列兩兩比對,兩條序列分別作為矩陣的兩維,矩陣點(diǎn)是兩維上對應(yīng)兩個殘基的相似性分?jǐn)?shù),分?jǐn)?shù)越高則說明兩個殘基越相似。因此,序列比對問題變成在矩陣?yán)飳ふ易罴驯葘β窂?。Genbank、SWISS-PROT等序列數(shù)據(jù)庫提供的序列搜索服務(wù)都是以序列兩兩比對為基礎(chǔ)的。不同之處在于為了提高搜索的速度和效率,通常的序列搜索

4、算法都進(jìn)行了一定程度的優(yōu)化,如最常見的FASTA工具和BLAST工具。FASTA是第一個被廣泛應(yīng)用的序列比對和搜索工具包,包含若干個獨(dú)立的程序。FASTA為了提供序列搜索的速度,會先建立序列片段的“字典”,查詢序列先會在字典里搜索可能的匹配序列,字典中的序列長度由ktup參數(shù)控制,缺省的ktup=2。FASTA的結(jié)果報(bào)告中會給出每個搜索到的序列與查詢序列的最佳比對結(jié)果,以及這個比對的統(tǒng)計(jì)學(xué)顯著性評估E值。BLAST是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,相比FASTA有更多改進(jìn),速度更快,并建立在嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。BLAST包含五個程序和若

5、干個相應(yīng)的數(shù)據(jù)庫,分別針對不同的查詢序列和要搜索的數(shù)據(jù)庫類型。其中翻譯的核酸庫指搜索比對時會把核酸數(shù)據(jù)按密碼子按所有可能的閱讀框架轉(zhuǎn)換成蛋白質(zhì)序列。PSI-BLAST的特色是每次用profile搜索數(shù)據(jù)庫后再利用搜索的結(jié)果重新構(gòu)建profile,然后用新的profile再次搜索數(shù)據(jù)庫,如此反復(fù)直至沒有新的結(jié)果產(chǎn)生為止。PSI-BLAST先用帶空位的BLAST搜索數(shù)據(jù)庫,將獲得的序列通過多序列比對來構(gòu)建第一個profile。PSI-BLAST自然地拓展了BLAST方法,能尋找蛋白質(zhì)序列中的隱含模式,有研究表明這種方法可以有效的找到很多序列差異較

6、大而結(jié)構(gòu)功能相似的相關(guān)蛋白,甚至可以與一些結(jié)構(gòu)比對方法,如threading相媲美。多序列比對顧名思義,多序列比對就是把兩條以上可能有系統(tǒng)進(jìn)化關(guān)系的序列進(jìn)行比對的方法。目前對多序列比對的研究還在不斷前進(jìn)中,現(xiàn)有的大多數(shù)算法都基于漸進(jìn)的比對的思想,在序列兩兩比對的基礎(chǔ)上逐步優(yōu)化多序列比對的結(jié)果。進(jìn)行多序列比對后可以對比對結(jié)果進(jìn)行進(jìn)一步處理,例如構(gòu)建序列模式的profile,將序列聚類構(gòu)建分子進(jìn)化樹等等。目前使用最廣泛的多序列比對程序是CLUSTALW(它的PC版本是CLUSTALX)CLUSTALW是一種漸進(jìn)的比對方法,先將多個序列兩兩比對構(gòu)建

7、距離矩陣,反應(yīng)序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹,對關(guān)系密切的序列進(jìn)行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對,直到所有序列都被加入為止。核酸與蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測分析人們獲得各種核酸和蛋白質(zhì)序列的目的是了解這個序列在生物體中充當(dāng)了怎樣的角色。例如,DNA序列中重復(fù)片段、編碼區(qū)、啟動子、內(nèi)含子/外顯子、轉(zhuǎn)錄調(diào)控因子結(jié)合位點(diǎn)等信息;蛋白質(zhì)的分子量、等電點(diǎn)、二級結(jié)構(gòu)、三級結(jié)構(gòu)、四級結(jié)構(gòu)、膜蛋白的跨膜區(qū)段、酶的活性位點(diǎn)、以及蛋白質(zhì)之間相互作用等結(jié)構(gòu)和功能信息。雖然用實(shí)驗(yàn)的方法是多年以來解決這類問

8、題的主要途徑,但新的思路是利用已有的對生物大分子結(jié)構(gòu)和功能特性的認(rèn)識,用生物信息學(xué)的方法通過計(jì)算機(jī)模擬和計(jì)算來“預(yù)測”出這些信息或提供與之相關(guān)的輔助信息。由于生物信

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。