資源描述:
《《多序列比對(duì)》ppt課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、多序列比對(duì)雙序列比對(duì)是序列分析的基礎(chǔ)。然而,對(duì)于構(gòu)成基因家族的成組的序列來說,我們要建立多個(gè)序列之間的關(guān)系,這樣才能揭示整個(gè)基因家族的特征。多序列比對(duì)在闡明一組相關(guān)序列的重要生物學(xué)模式方面起著相當(dāng)重要的作用。多序列比對(duì)有時(shí)用來區(qū)分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關(guān)系,以便對(duì)一個(gè)基因家族的特征有一個(gè)簡(jiǎn)明扼要的了解。與雙序列比對(duì)一樣,多序列比對(duì)的方法建立在某個(gè)數(shù)學(xué)或生物學(xué)模型之上。因此,正如我們不能對(duì)雙序列比對(duì)的結(jié)果得出“正確或錯(cuò)誤”的簡(jiǎn)單結(jié)論一樣,多序列比對(duì)的結(jié)果也沒有絕對(duì)正確和絕對(duì)錯(cuò)誤之分,而只能認(rèn)為所使用的模型在多大程
2、度上反映了序列之間的相似性關(guān)系以及它們的生物學(xué)特征。目前,構(gòu)建多序列比對(duì)模型的方法大體可以分為兩大類。第一類是基于氨基酸殘基的相似性,如物化性質(zhì)、殘基之間的可突變性等。另一類方法則主要利用蛋白質(zhì)分子的二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)信息,也就是說根據(jù)序列的高級(jí)結(jié)構(gòu)特征確定比對(duì)結(jié)果。這兩種方法所得結(jié)果可能有很大差別。一般說來,很難斷定哪種方法所得結(jié)果一定正確,應(yīng)該說,它們從不同角度反映蛋白質(zhì)序列中所包含的生物學(xué)信息?;谛蛄行畔⒑突诮Y(jié)構(gòu)信息的比對(duì)都是非常重要的比對(duì)模型,但它們都有不可避免的局限性,因?yàn)檫@兩種方法都不能完全反映蛋白質(zhì)分子所攜帶的全部信息。蛋白質(zhì)
3、序列是經(jīng)過DNA序列轉(zhuǎn)錄翻譯得到的。從信息論的角度看,它應(yīng)該與DNA分子所攜帶的信息更為“接近”。而蛋白質(zhì)結(jié)構(gòu)除了序列本身帶來的信息外,還包括經(jīng)過翻譯后加工修飾所增加的結(jié)構(gòu)信息,包括殘基的修飾,分子間的相互作用等,最終形成穩(wěn)定的天然蛋白質(zhì)結(jié)構(gòu)。因此,這也是對(duì)完全基于序列數(shù)據(jù)比對(duì)方法批評(píng)的主要原因。如果能夠利用結(jié)構(gòu)數(shù)據(jù),對(duì)于序列比對(duì)無疑有很大幫助。不幸的是,與大量的序列數(shù)據(jù)相比,實(shí)驗(yàn)測(cè)得的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)實(shí)在少得可憐。在大多數(shù)情況下,并沒有結(jié)構(gòu)數(shù)據(jù)可以利用,我們只能依靠序列的相似性和一些生物化學(xué)特性建立一個(gè)比較滿意的多序列比對(duì)模型。多序列比對(duì)的
4、定義為了便于描述,對(duì)多序列比對(duì)過程給出下面的定義。把多序列比對(duì)看作一張二維表,表中每一行代表一個(gè)序列,每一列代表一個(gè)殘基的位置。將序列依照下列規(guī)則填入表中:(a)一個(gè)序列所有殘基的相對(duì)位置保持不變;(b)將不同序列間相同或相似的殘基放入同一列,即盡可能將序列間相同或相似殘基上下對(duì)齊(表1)。1234567891ⅠYDGGAV-EALⅡYDGG---EALⅢFEGGILVEALⅣFD-GILVQAVⅤYEGGAVVQAL表1多序列比對(duì)的定義表示五個(gè)短序列(I-V)的比對(duì)結(jié)果。通過插入空位,使5個(gè)序列中大多數(shù)相同或相似殘基放入同一列,并保持每個(gè)序列
5、殘基順序不變我們稱比對(duì)前序列中殘基的位置為絕對(duì)位置。如序列Ⅰ的第3位的殘基是甘氨酸G,則絕對(duì)位置Ⅰ3就是甘氨酸,而不能變成任何其它氨基酸。相應(yīng)地,我們稱比對(duì)后序列中殘基的位置為相對(duì)位置。顯然,同一列中所有殘基的相對(duì)位置相同,而每個(gè)殘基的絕對(duì)位置不同,因?yàn)樗鼈儊碜圆煌男蛄?。絕對(duì)位置是序列本身固有的屬性,或者說是比對(duì)前的位置,而相對(duì)位置則是經(jīng)過比對(duì)后的位置,也就比對(duì)過程賦予它的屬性。算法復(fù)雜性多序列比對(duì)的計(jì)算量相當(dāng)可觀,因此有必要分析以下技術(shù)的復(fù)雜性。雙序列比對(duì)所需要的計(jì)算時(shí)間和內(nèi)存空間與這兩個(gè)序列的長(zhǎng)度有關(guān),或者說正比于這兩個(gè)序列長(zhǎng)度的乘積,用
6、O(m1m2)表示。其中m1、m2是指兩條序列的長(zhǎng)度。三序列比對(duì)則可以理解為將雙序列比對(duì)的兩維空間擴(kuò)展到三維,即在原有二維平面上增加一條坐標(biāo)軸。這樣算法復(fù)雜性就變成了O(m1m2m3),其中m3表示第三條序列的長(zhǎng)度。隨著序列數(shù)量的增加,算法復(fù)雜性也不斷增加。我們用O(m1m2m3…mn)表示對(duì)n個(gè)序列進(jìn)行比對(duì)時(shí)的算法復(fù)雜性,其中mn是最后一條序列的長(zhǎng)度。若序列長(zhǎng)度相差不大,則可簡(jiǎn)化成O(mn),其中n表示序列的數(shù)目,m表示序列的長(zhǎng)度。顯然,隨著序列數(shù)量的增加,序列比對(duì)的算法復(fù)雜性按指數(shù)規(guī)律增長(zhǎng)。降低算法復(fù)雜性,是研究多序列比對(duì)的一個(gè)重要方面。為
7、此,產(chǎn)生了不少很有實(shí)用意義的多序列比對(duì)算法。這些方法的特點(diǎn)是利用啟發(fā)式(heuristics)算法降低算法復(fù)雜性,以獲得一個(gè)較為滿意但并不一定是最優(yōu)的比對(duì)結(jié)果,用來找出子序列、構(gòu)建進(jìn)化樹、查找保守序列或序列模板,以及進(jìn)行聚類(clustering)分析等。有的算法將動(dòng)態(tài)規(guī)劃和啟發(fā)性算法結(jié)合起來。例如,對(duì)所有的序列進(jìn)行兩兩比對(duì),將所有的序列與某個(gè)特定的序列進(jìn)行比對(duì),根據(jù)某種給定的親源樹進(jìn)行分組比對(duì),等等。必須指出,上述方法求得的結(jié)果通常不是最優(yōu)解,至少需要經(jīng)過n-1次雙序列比對(duì),其中n為參與比對(duì)的序列個(gè)數(shù)。比對(duì)方法1.手工比對(duì)方法手工比對(duì)方法在文
8、獻(xiàn)中經(jīng)??吹健R?yàn)殡y免加入一些主觀因素,手工比對(duì)通常被認(rèn)為有很大的隨意性。其實(shí),即使用計(jì)算機(jī)程序進(jìn)行自動(dòng)比對(duì),所得結(jié)果中的片面性也不能予以忽視。在運(yùn)行