資源描述:
《《序列比對(duì)》PPT課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第五章序列比對(duì)2021/9/2BIOINFORMATICS1本章提要:介紹了序列相似性的概念,列舉了描述DNA和蛋白質(zhì)序列相似性的計(jì)分矩陣。介紹了序列比較的基本操作—“比對(duì)”的概念,以雙序列比對(duì)為例詳細(xì)學(xué)習(xí)了序列整體比對(duì)的Needleman-Wunsch算法,序列局部比對(duì)的Smith-Waterman算法。介紹了多序列比對(duì)的概念,簡要介紹了幾種多序列比對(duì)的算法,學(xué)習(xí)了一個(gè)常用的多序列比對(duì)軟件—ClustalW的使用和用途。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院2序列比較是生物信息學(xué)中最基本、最重要的操作,通過序列比較可以發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化的
2、信息。序列比較的根本任務(wù)是:通過比較生物分子序列,發(fā)現(xiàn)它們的相似性,找出序列之間共同的區(qū)域,同時(shí)辨別序列之間的差異。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院3在分子生物學(xué)中,DNA或蛋白質(zhì)的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是結(jié)構(gòu)的相似,也可能是功能的相似。研究序列相似性的目的之一是,通過相似的序列得到相似的結(jié)構(gòu)或相似的功能。通過比較未知序列與已知序列(尤其是功能和結(jié)構(gòu)已知的序列)之間的相似性,可以很容易地預(yù)測(cè)未知序列的功能。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院4這種方法在大多數(shù)情況下是成功的,當(dāng)然,也存在著這樣
3、的情況,即兩條序列幾乎沒有相似之處,但分子卻折疊成相同的空間形狀,并具有相同的功能。這里先不考慮空間結(jié)構(gòu)或功能的相似性,僅研究序列的相似性。研究序列相似性的另一個(gè)目的是通過序列的相似性,判別序列之間的同源性,推測(cè)序列之間的進(jìn)化關(guān)系。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院5序列比較可以分為4種情況:(1)、假設(shè)有兩條長度相近的、來自同一個(gè)字母表的序列,它們之間非常相似,僅僅有一些細(xì)微的差別,例如字符的插入、字符的刪除和字符替換,要求找出這兩條序列的差別。這種操作實(shí)際應(yīng)用比較多,例如,有兩個(gè)實(shí)驗(yàn)室同時(shí)測(cè)定某個(gè)基因的DNA序列,其結(jié)果可能不一樣,需要通過序列比
4、較來比較實(shí)驗(yàn)結(jié)果。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院6(2)、假設(shè)有兩條序列,要求判斷是否有一條序列的前綴與另一條序列的后綴相似,如果是,則分別取出前綴和后綴。該操作常用于大規(guī)模DNA測(cè)序中序列片段的組裝。(3)、假設(shè)有兩條序列,要求判斷其中的一條序列是否是另一條序列的子序列。這種操作常用于搜索特定的序列模式。(4)、假設(shè)有兩條序列,要求判斷這兩條序列中是否有非常相似的子序列。這種操作可用于分析保守序列。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院7當(dāng)然,進(jìn)行序列比較時(shí),往往還需要說明是采取全局比較,還是采取局部比較。全局比較是比較
5、兩條完整的序列,而局部比較是找出最大相似的子序列。本章著重介紹通用的序列比較方法。了解序列比較的原理對(duì)于正確、合理、靈活地使用相關(guān)生物信息學(xué)資源和軟件有重要的指導(dǎo)意義。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院8§5.1序列的相似性5.1.1幾個(gè)基本概念序列的相似性可以是定量的數(shù)值,也可以是定性的描述。相似度是一個(gè)數(shù)值,反映兩條序列的相似程度。關(guān)于兩條序列之間的關(guān)系,有許多名詞,如相同、相似、同源、同功、直系同源、并系同源等。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院9在很多時(shí)候,往往通過一個(gè)簡單序列相似性的比較就可以對(duì)未知序列進(jìn)行初步的
6、功能預(yù)測(cè),為后續(xù)實(shí)驗(yàn)確定初步的研究方向。本節(jié)將主要講述如何采用生物信息學(xué)技術(shù)對(duì)核酸序列進(jìn)行較為全面的分析。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院10在進(jìn)行序列比較時(shí)經(jīng)常使用“同源”(homology)和“相似”(similarity)這兩個(gè)概念,這是兩個(gè)經(jīng)常容易被混淆的不同概念。兩條序列同源是指它們具有共同的祖先。在這個(gè)意義上,無所謂同源的程度,兩條序列要么同源,要么不同源。而相似則是有程度的差別,如兩條序列的相似程度達(dá)到30%或60%。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院11一般來說,相似性很高的兩條序列往往具有同源關(guān)系;但也
7、有例外,即兩條序列的相似性很高,但它們可能并不是同源序列,這兩條序列的相似性可能是由隨機(jī)因素所產(chǎn)生的,這在進(jìn)化上稱為“趨同”(convergence),這樣一對(duì)序列可稱為同功序列。直系同源(orthologous)序列是來自于不同種屬的同源序列,而并系同源(paralogous)序列則是來自于同一種屬的序列,它是由進(jìn)化過程中的序列復(fù)制而產(chǎn)生的。2021/9/2BIOINFORMATICS數(shù)理與生物工程學(xué)院125.1.2點(diǎn)標(biāo)方法分析兩序列間的相似性點(diǎn)標(biāo)(dotplot)是兩序列對(duì)位排列中最基本