資源描述:
《介紹幾個(gè)進(jìn)化樹(shù)分析及其相關(guān)軟件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、大家好:我在此介紹幾個(gè)進(jìn)化樹(shù)分析及具相關(guān)軟件的使用和應(yīng)用范圍。這幾個(gè)軟件分別是PHYLIP、PUZZLE>PAUP、TREEVIEW.CLUSTALX和PHYLO-WIN(LINUX)o在介紹軟件Z前,我先簡(jiǎn)要地?cái)⑹鲆幌聝雨P(guān)進(jìn)化樹(shù)分析的一些方法學(xué)問(wèn)題。進(jìn)化樹(shù)也稱種系樹(shù),英文名叫"Phyligenetictree"。對(duì)于一個(gè)完整的進(jìn)化樹(shù)分析需要以下幾個(gè)步驟:⑴要對(duì)所分析的多序列目標(biāo)進(jìn)行排列(Toalignsequences)o做ALIGNMENT的軟件很多,最經(jīng)常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。⑵要構(gòu)建一個(gè)進(jìn)化樹(shù)(
2、Toreconstrutphyligenetictree)o構(gòu)建進(jìn)化樹(shù)的算法主要分為兩類:獨(dú)立元素法(discretecharactermethods)和距離依靠法(distancemethods)。所謂獨(dú)立元素法是指進(jìn)化樹(shù)的拓?fù)湫螤钍浅鲂蛄猩系拿總€(gè)堿基/氨基酸的狀態(tài)決定的(例如:一個(gè)序列上可能包含很多的酶切位點(diǎn),而每個(gè)iW切位點(diǎn)的存在與否是由幾個(gè)堿基的狀態(tài)決定的,也就是說(shuō)一個(gè)序列堿基的狀態(tài)決定著它的酶切位點(diǎn)狀態(tài),當(dāng)多個(gè)序列進(jìn)行進(jìn)化樹(shù)分析時(shí),進(jìn)化樹(shù)的拓?fù)湫螤钜簿陀蛇@些堿基的狀態(tài)決定了)。而距離依靠法是指進(jìn)化樹(shù)的拓?fù)湫螤钣蓛蓛尚蛄械倪M(jìn)化距離決定的。進(jìn)化樹(shù)枝條的長(zhǎng)度代表著進(jìn)
3、化距離。獨(dú)立元索法包括最人簡(jiǎn)約性法(MaximumParsimonymethods)和最大可能性法(MaximumLikelihoodmethods);距離依靠法包括除權(quán)配對(duì)法(UPGMAM)和鄰位相連法(Neighbo.joining)。(3)對(duì)進(jìn)化樹(shù)進(jìn)彳亍評(píng)估。主要采用Bootstraping法。進(jìn)化樹(shù)的構(gòu)建是一個(gè)統(tǒng)計(jì)學(xué)問(wèn)題。我們所構(gòu)建出來(lái)的進(jìn)化樹(shù)只是對(duì)真實(shí)的進(jìn)化關(guān)系的評(píng)估或者模擬。如杲我們采用了一個(gè)適當(dāng)?shù)姆椒ǎ敲此鶚?gòu)建的進(jìn)化樹(shù)就會(huì)接近真實(shí)的“進(jìn)化樹(shù)”。模擬的進(jìn)化樹(shù)需要一種數(shù)學(xué)方法來(lái)對(duì)其進(jìn)行評(píng)佔(zhàn)。不同的算法有不同的適用口標(biāo)。一般來(lái)說(shuō),最大簡(jiǎn)約性法適用于符合以下條件
4、的多序列:i所要比較的序列的堿基差別小,ii對(duì)于序列上的每一個(gè)堿基冇近似相等的變異率,iii沒(méi)冇過(guò)多的顛換/轉(zhuǎn)換的傾向,iv所檢驗(yàn)的序列的堿基數(shù)目較多(大于幾千個(gè)堿基);用最大可能性法分析序列則不需以上的諸多條件,但是此種方法計(jì)算極其耗時(shí)。如果分析的序列較多,冇可能要花上幾天的吋間才能計(jì)算完畢。UPGMAM(Unweightedpairgroupmethodwitharithmeticmean)假設(shè)在進(jìn)化過(guò)程中所有核甘酸/氨基酸都有相同的變杲率,也就是存在著一個(gè)分了鐘。這種算法得到的進(jìn)化樹(shù)相對(duì)來(lái)說(shuō)不是很準(zhǔn)確,現(xiàn)在已經(jīng)很少使用。鄰位相連法是一個(gè)經(jīng)常被使用的算法,它構(gòu)建的進(jìn)
5、化樹(shù)相對(duì)準(zhǔn)確,而且計(jì)算快捷。其缺點(diǎn)是序列上的所有位點(diǎn)都被同等對(duì)待,而且,所分析的序列的進(jìn)化距離不能太大。另外,需要特別指出的是對(duì)于一些特定多序列對(duì)象來(lái)說(shuō)可能沒(méi)冇任何一個(gè)現(xiàn)存算法非常適合它。最好是我們來(lái)發(fā)展一個(gè)更好的算法來(lái)解決它。但無(wú)疑這是非常難的。我想如杲有人能建立這樣一個(gè)算法的話,那他(她)完全口J以在Proc.Natl.Acad.Sci.USA.h發(fā)一,篇高質(zhì)量的文章。下面介紹幾個(gè)軟件的使用。首先是PHYLIPo其是多個(gè)軟件的壓縮包,下載后雙擊則自動(dòng)解壓。當(dāng)你解壓后就揮發(fā)現(xiàn)PHYLIP的功能極其強(qiáng)大,主要包扌舌五個(gè)方而的功能軟件:i,DNA和蛋白質(zhì)序列數(shù)據(jù)的分析軟件
6、。ii,序列數(shù)據(jù)傳變成距離數(shù)據(jù)后,對(duì)距離數(shù)據(jù)分析的軟件。iii,對(duì)基因頻率和連續(xù)的元素分析的軟件。iv,把序列的每個(gè)堿基/氨基酸獨(dú)立看待(堿基/氨基酸只冇0和1的狀態(tài))吋,對(duì)序列進(jìn)行分析的軟件。v,按照DOLLO簡(jiǎn)約性算法對(duì)序列進(jìn)行分析的軟件。vi,繪制和修改進(jìn)化樹(shù)的軟件。在此,我主要對(duì)前兩種功能軟件進(jìn)行說(shuō)明。我們現(xiàn)在冇幾個(gè)序列如下:Mo3ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCATMo5ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo6ATGTATTTCGT
7、ACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo7ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo8ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo9ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo12ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMol3ATGTATCTCGTACATT