資源描述:
《生物信息學(xué) 第5章 常用分析軟件》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第5章常用分析軟件一、基因結(jié)構(gòu)基因的概念是隨著遺傳學(xué)、分子生物學(xué)、生物化學(xué)等領(lǐng)域的發(fā)展不斷完善的。從分子生物學(xué)角度來看,基因是負(fù)載特定生物遺傳信息的DNA分子片段,在一定的條件下能夠表達(dá)這種遺傳信息,產(chǎn)生特定的生理功能。原核生物基因結(jié)構(gòu):一個完整的原核基因結(jié)構(gòu)是從基因的5'端啟動子區(qū)域開始,到3'端終止區(qū)域結(jié)束?;虻霓D(zhuǎn)錄開始位置由轉(zhuǎn)錄起始位點確定,轉(zhuǎn)錄過程直至遇到轉(zhuǎn)錄終止位點結(jié)束,轉(zhuǎn)錄的內(nèi)容包括5'端非翻譯區(qū)、開放閱讀框及3'端非翻譯區(qū)。基因翻譯的準(zhǔn)確起止位置由起始密碼子和終止密碼子決定,翻譯的對象即
2、為介于這兩者之間的開放閱讀框ORF。真核生物基因結(jié)構(gòu):一個完整的真核生物基因,不但包括編碼區(qū)域,還包括5'端和3'端兩側(cè)長度不等的特異性序列,雖然這些序列不編碼氨基酸,卻在基因表達(dá)的過程中起著重要的作用。所以,嚴(yán)格的“基因”這一術(shù)語的分子生物學(xué)定義是:產(chǎn)生一條多肽鏈或功能RNA所必須的全部核苷酸序列。二、蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)是一種生物大分子,蛋白質(zhì)中相鄰的氨基酸通過肽鍵形成一條伸展的肽鏈,這條鏈稱為蛋白質(zhì)的一級結(jié)構(gòu),不同蛋白質(zhì)其肽鏈的長度不同,肽鏈中不同氨基酸的組成和排列順序也各不相同。肽鏈上的氨基酸殘基形
3、成局部的二級結(jié)構(gòu),各種二級結(jié)構(gòu)在空間卷曲折疊形成特定的三維空間結(jié)構(gòu)。有的蛋白質(zhì)由多條肽鏈組成,每條肽鏈稱為亞基,亞基之間又有特定的空間關(guān)系,稱為蛋白質(zhì)的四級結(jié)構(gòu)。DNA序列特征分析分析DNA序列,除了進(jìn)行序列比對之外,更重要的工作是從序列中找到基因及其表達(dá)調(diào)控信息。尋找基因的工作有兩個:一是識別與基因相關(guān)的特殊序列信號,如啟動子、起始密碼子,通過信號識別大致確定基因所在的區(qū)域;二是預(yù)測基因的編碼區(qū)域,或預(yù)測外顯子所在的區(qū)域。在此基礎(chǔ)上,結(jié)合兩個方面的結(jié)果確定基因的位置和結(jié)構(gòu)。絕大部分基因表達(dá)調(diào)控信息隱藏
4、在基因序列的上游區(qū)域,在組成上具有一定的特征,可以通過序列分析識別這些特征。真核生物的開放閱讀框真核生物的開放閱讀框不僅含有編碼蛋白的外顯子(exon),而且還有內(nèi)含子(intron),并且內(nèi)含子將開放閱讀框分割為若干個小片段。開放閱讀框的長度變化范圍非常大,因此真核生物的基因預(yù)測遠(yuǎn)比原核生物困難。但是,在真核生物的開放閱讀框中,外顯子與內(nèi)含子之間的連接絕大部分情況下滿足GT-AG規(guī)律:內(nèi)含子序列5'端的起始兩個核苷酸總是GT,并且其3'端的最后兩個核苷酸總是AG,即:5'-GT……AG-3',這個規(guī)律
5、有助于真核生物開放閱讀框的識別。CpG島——CpGislandsCpG島是指DNA序列上的一個區(qū)域,此區(qū)域含有大量相聯(lián)的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)。CpG島的概念是Gardiner-garden和Fromner于1987年提出的,基因中平均每100Kb即可出現(xiàn)。CpG島位于基因的啟動子和第一個外顯子區(qū),約有60%~80%的人類基因的啟動子和起始外顯子含有CpG島,其中GC含量大于50%,長度超過200bp。因此搜索CpG島可以為基因及其啟動子預(yù)測提供重要線索。利用CpGP
6、lot預(yù)測分析CpG島CpGPlot是預(yù)測CpG島的在線工具,它是由歐洲分子生物學(xué)實驗室EMBL——EuropeanMolecularBiologyLaboratory提供的。其網(wǎng)址為:http://www.ebi.ac.uk/Tools/emboss/cpgplot/index.htmlCpGPlot在線操作頁面用CpGplot預(yù)測AC002390序列的CpG島的結(jié)果用CpGReport預(yù)測AC002390序列的CpG島的結(jié)果五、密碼子偏好性密碼子使用偏性是指生物體中編碼同一種氨基酸的同義密碼子的非均
7、勻使用現(xiàn)象。這一現(xiàn)象的產(chǎn)生與諸多因素有關(guān),如基因的表達(dá)水平、翻譯起始效應(yīng)、基因的堿基組分、某些二核苷酸的出現(xiàn)頻率、G+C含量、基因的長度、tRNA的豐度、蛋白質(zhì)的結(jié)構(gòu)及密碼子一反密碼子間結(jié)合能的大小等。所以對密碼子使用偏好性的分析具有重要的生物學(xué)意義。利用CodonW分析密碼子偏好性CodonW是美國DEC公司開發(fā)的對密碼子的使用進(jìn)行分析的免費的軟件工具。此軟件是建立在大量的統(tǒng)計學(xué)分析的基礎(chǔ)上,為了簡化在線分析的復(fù)雜性而開發(fā)的,它可以在Windows環(huán)境下運行,并且可以同時處理2000條以上的序列。通過
8、對DNA或RNA序列的分析,CodonW會產(chǎn)生關(guān)于密碼子使用的相關(guān)指標(biāo)的統(tǒng)計學(xué)分析的數(shù)據(jù),我們可以利用這些數(shù)據(jù)對我們所要了解的序列進(jìn)行分析。其下載網(wǎng)址為:ftp://molbiol.ox.ac.uk/cu/codonW.tar.Z。CodonW1.4主菜單的操作頁面11個密碼子使用的指標(biāo)序號全稱縮寫1234567891011CodonAdaptationIndexFrequencyofOptimalCodonsCodonBiasIndexT