資源描述:
《《差異表達(dá)基因分析》PPT課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、第七講QuantileNormalization使每張芯片/通道的強(qiáng)度值有相同的分布(intensitydistribution)QuantilenormalizationBeforeAfterQuantilenormalizationR語(yǔ)言和bioconductor差異表達(dá)基因分析單張cDNA芯片差異表達(dá)基因差異表達(dá)基因分析基因表達(dá)譜芯片實(shí)驗(yàn)的主要目的之一是發(fā)現(xiàn)兩個(gè)樣本間差異表達(dá)基因。通常采用基因在實(shí)驗(yàn)組和對(duì)照組中信號(hào)的比值作為衡量基因在兩種狀態(tài)下基因的表達(dá)差異,在雙色熒光系統(tǒng)中,用Cy5/Cy3的比值
2、來(lái)衡量基因的表達(dá)差異,也稱(chēng)表達(dá)差異值。在Affymetrix等短的寡核苷酸芯片中,采用單色熒光標(biāo)記的方式,實(shí)驗(yàn)組和對(duì)照組分別用兩張芯片進(jìn)行檢測(cè),表達(dá)差異值即為兩張芯片的信號(hào)比值。噪聲和芯片本身的一些因素以及生物學(xué)本身的特點(diǎn)給篩選差異表達(dá)基因帶來(lái)了很大的麻煩。必須設(shè)定一個(gè)差異表達(dá)基因的判定標(biāo)準(zhǔn)。這個(gè)篩選的標(biāo)準(zhǔn)就稱(chēng)為差異表達(dá)基因的閾值。倍數(shù)法倍數(shù)法倍數(shù)法是比較常用的一種方法,因?yàn)楸容^簡(jiǎn)單和直接。但是,這種方法也是有其重大缺陷的。比如,在某個(gè)實(shí)驗(yàn)中,基因表達(dá)水平的變化不大,如果選擇判別域值為2倍,則有可能找不到
3、幾個(gè)差異表達(dá)的基因,假陰性率比較高。但如果是主觀縮小判斷域值,又有可能增大假陽(yáng)性率。這一方法沒(méi)有考慮到差異表達(dá)的統(tǒng)計(jì)顯著性。Z值法在一張cDNA芯片上一般都點(diǎn)了很多基因,其實(shí)這些基因中只有很小一部分表達(dá)有差異,所以一般都假設(shè)表達(dá)的比率值滿足正態(tài)分布。Z=(X-μ)/σ.
4、Z
5、>=1.96在寡核苷酸芯片中,芯片上的基因在相應(yīng)實(shí)驗(yàn)條件下或相應(yīng)組織中也只是有很小一部分基因有表達(dá),可以假定強(qiáng)度滿足對(duì)數(shù)正態(tài)分布,同樣可以對(duì)其作Z變換,使其具有統(tǒng)計(jì)意義。如果實(shí)驗(yàn)體系中沒(méi)有一條差異表達(dá)的基因,Z值法還是會(huì)挑選出5%的差
6、異表達(dá)基因。這是因?yàn)樵谛酒瑢?shí)驗(yàn)中,總有一些由于背景噪聲產(chǎn)生的假陽(yáng)性點(diǎn)。如果實(shí)際上實(shí)驗(yàn)中有大量的基因發(fā)生表達(dá)改變,Z值法還是機(jī)械的找出5%的差異表達(dá)基因,丟失了一部分真陽(yáng)性點(diǎn)。一般性的方法選擇一個(gè)統(tǒng)計(jì)量給基因排秩來(lái)證明表達(dá)有差異為排秩統(tǒng)計(jì)量選擇一個(gè)判別值,在它之上的值將被認(rèn)為是顯著的前面一個(gè)部分更為重要,所以研究的較多,方法也更多,后面那部分的方法稍微簡(jiǎn)單重復(fù)芯片(replicates)M值根據(jù)比率平均值或?qū)蚺判?。M值為信號(hào)強(qiáng)度比值的log2值,是任一特定基因在重復(fù)序列中M值的均值。這一排序法忽略了一個(gè)
7、基因在重復(fù)實(shí)驗(yàn)中的不同芯片上表達(dá)水平的差異程度。例如,可能某一個(gè)基因在某一張芯片上M值很大,但在其他芯片上M值很小,其實(shí)這條基因并沒(méi)有差異表達(dá),但由于個(gè)別M值的影響,從而顯示出一個(gè)差異表達(dá)的特性,造成假陽(yáng)性。T值排序假如一個(gè)基因在幾張重復(fù)芯片的M值都很小,但是這些M值非常接近,所以s值也非常小,這樣可能會(huì)導(dǎo)致t值很大,從而會(huì)把這個(gè)本沒(méi)有差異表達(dá)的基因誤認(rèn)為差異表達(dá)。修正的T值修正值由樣本方差的均數(shù)和標(biāo)準(zhǔn)差估計(jì)而得。結(jié)果顯示:在一個(gè)模擬的數(shù)據(jù)集中,雖然帶有一些經(jīng)驗(yàn)性質(zhì),但用修正t-統(tǒng)計(jì)量給基因排秩比用均數(shù)和
8、一般的t-統(tǒng)計(jì)量效果要好。單通道寡核苷酸芯片差異基因(兩個(gè)樣本直接比較)Affymetrix,illumina芯片由于有探針重復(fù),可以利用統(tǒng)計(jì)方法計(jì)算出一個(gè)統(tǒng)計(jì)性的P值或者score值,篩選差異表達(dá)基因不同類(lèi)樣本差異基因識(shí)別評(píng)價(jià)一組數(shù)的統(tǒng)計(jì)量平均值標(biāo)準(zhǔn)差232.7198.2137.784.3218.6181.5216.787比較多組數(shù)的方法T檢驗(yàn):平均值F檢驗(yàn):方差SAM(significanceanalysisofmicroarrays)單通道Oligo芯片,尤其是affymetrix芯片數(shù)據(jù)分析用得較
9、多雙通道cDNA芯片數(shù)據(jù)分析用得較多FalseDiscoveryRate(FDR)錯(cuò)誤發(fā)現(xiàn)率是評(píng)估檢驗(yàn)統(tǒng)計(jì)顯著性的最有力工具。統(tǒng)計(jì)學(xué)家都想用更符合統(tǒng)計(jì)學(xué)的手段得到差異基因,具體說(shuō)來(lái)就是想用假設(shè)檢驗(yàn)后賦予每個(gè)基因統(tǒng)計(jì)顯著性或者P值,使得每個(gè)基因的判別更有統(tǒng)計(jì)學(xué)上的意義。為了達(dá)到這個(gè)目的,統(tǒng)計(jì)學(xué)家們常常用控制錯(cuò)誤發(fā)現(xiàn)率(FalseDiscoveryRate)的方法來(lái)判斷差異基因。Multipletest(Pvalueadjustment)火山圖(volcanoplot)Statisticaltest:Pval
10、ueFoldchange:Ratio其他方法B-statistics(Smyth,2004)BayesT-test(BaldiandLong,2001)SAMROC(Broberg,2002)Zhao-Panmethod(ZhaoandPan,2003)……ImprovedDetectionofDifferentiallyExpressedGenesTimeseriesmicroarraydataset聚類(lèi)分析基因表達(dá)數(shù)據(jù)矩陣