資源描述:
《代謝組學(xué)數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)方法.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中國衛(wèi)生統(tǒng)計(jì)2014年4月第31卷第2期代謝組學(xué)數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)方法柯朝甫張濤武曉巖李康代謝組學(xué)是近年發(fā)展快速的一門學(xué)科,目前在醫(yī)(4)相互作用關(guān)系復(fù)雜:各種代謝物質(zhì)可能不僅學(xué)、植物學(xué)、微生物學(xué)、毒理學(xué)、藥物研發(fā)等諸多領(lǐng)域中具有簡(jiǎn)單的相加效應(yīng),而且可能具有交互作用,從而增得到了廣泛的應(yīng)用E1-5]。代謝組學(xué)研究產(chǎn)生大量的數(shù)加了識(shí)別這些具有復(fù)雜關(guān)系的生物標(biāo)志物的難度。據(jù),這些數(shù)據(jù)具有高維、小樣本、高噪聲等復(fù)雜特征。(5)相關(guān)性和冗余性:各種代謝物并非獨(dú)立存在,如何從復(fù)雜的代謝組學(xué)數(shù)據(jù)中提取出有價(jià)值的信息,而是相互之間具有不同
2、程度的相關(guān)性,同時(shí)由于碎片、篩選出潛在的生物標(biāo)志物成為近年來代謝組學(xué)研究的加合物和同位素的存在使得數(shù)據(jù)結(jié)構(gòu)存在很大的冗余熱點(diǎn)和難點(diǎn)。據(jù)此,本文針對(duì)目前代謝組學(xué)數(shù)據(jù)分析性,這就需要采用合理的統(tǒng)計(jì)分析策略來揭示隱藏其中的常用統(tǒng)計(jì)學(xué)方法及其研究進(jìn)展進(jìn)行介紹。中的復(fù)雜數(shù)據(jù)關(guān)系。(6)分布的不規(guī)則和稀疏性:代謝組學(xué)數(shù)據(jù)分布代謝組學(xué)數(shù)據(jù)的特點(diǎn)不規(guī)則,而且數(shù)據(jù)具有稀疏性(即有很多值為零),因代謝組學(xué)是系統(tǒng)生物學(xué)領(lǐng)域中繼基因組學(xué)和蛋白此,傳統(tǒng)的一些線性和參數(shù)分析方法此時(shí)可能失效。質(zhì)組學(xué)之后新近發(fā)展起來的一門學(xué)科,它通過檢測(cè)生數(shù)據(jù)的預(yù)處理物
3、體在受到外源刺激或基因修飾后其體內(nèi)代謝物質(zhì)的變化來探索整個(gè)生物體的代謝機(jī)制E6]。其研究對(duì)象代謝組學(xué)數(shù)據(jù)分析的目的是希望從中挖掘出生物為生物體內(nèi)所有內(nèi)源性小分子代謝物(分子量<相關(guān)信息,然而,代謝組學(xué)數(shù)據(jù)的變異來源很多,不僅1000Da),研究手段為高通量檢測(cè)技術(shù)和數(shù)據(jù)處理方包括生物變異,還包括環(huán)境影響和操作性誤差等方面。法,最終目標(biāo)是數(shù)據(jù)建模和生物標(biāo)志物的篩選。生物處理手段主要包括歸一化(standardization)、標(biāo)準(zhǔn)化樣品如血漿、尿液、組織等,經(jīng)過GC/MS、NMR、LC/(normalization),即中心
4、化(centering)和尺度化(scal—MS等高通量?jī)x器檢測(cè)后,得到大量的圖譜數(shù)據(jù),使用ing),以及數(shù)據(jù)轉(zhuǎn)換(transformation)¨。歸一化是針XCMS_7等軟件對(duì)這些圖譜數(shù)據(jù)進(jìn)行轉(zhuǎn)換,獲得用于對(duì)樣品的操作,由于生物個(gè)體問較大的代謝物濃度差統(tǒng)計(jì)分析的標(biāo)準(zhǔn)格式的數(shù)據(jù)。歸納起來,代謝組學(xué)數(shù)異或樣品采集過程中的差異(如取不同時(shí)間的尿樣),據(jù)具有以下特點(diǎn):為了消除或減輕這種不均一性,一般使用代謝物的相(1)高噪聲:生物體內(nèi)含有大量維持自身正常功對(duì)濃度,即每個(gè)代謝物除以樣品的總濃度,以此來校正能的內(nèi)源性小分子,具有特
5、定研究意義的生物標(biāo)志物個(gè)體差異或其他因素對(duì)代謝物絕對(duì)濃度的影響。標(biāo)準(zhǔn)只是其中很少一部分,絕大部分代謝物和研究目的化是對(duì)不同樣品代謝物的操作,即統(tǒng)計(jì)學(xué)意義上的變無關(guān)。量標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化的目的是消除不同代謝物濃度數(shù)量(2)高維、小樣本:代謝物的數(shù)目遠(yuǎn)大于樣品個(gè)級(jí)的差別,但同時(shí)也可能會(huì)過分夸大低濃度組分的重?cái)?shù),不適合使用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法進(jìn)行分析,多變量分要性,即低濃度代謝物的變異系數(shù)可能更大。數(shù)據(jù)轉(zhuǎn)析容易出現(xiàn)過擬合和維數(shù)災(zāi)難問題。換是指對(duì)數(shù)據(jù)進(jìn)行非線性變換,如log轉(zhuǎn)換和power(3)高變異性:一是不同代謝物質(zhì)的理化性質(zhì)差轉(zhuǎn)換等
6、。數(shù)據(jù)轉(zhuǎn)換的目的是將一些偏態(tài)分布的數(shù)據(jù)轉(zhuǎn)異巨大,其濃度含量動(dòng)態(tài)范圍寬達(dá)7~9個(gè)數(shù)量級(jí),換成對(duì)稱分布的數(shù)據(jù),并消除異方差性的影響,以滿足二是生物個(gè)體間存在各種來源的變異,如年齡、性別都一些線性分析技術(shù)的要求。不同的預(yù)處理方法會(huì)對(duì)統(tǒng)可能影響代謝產(chǎn)物的變化,三是儀器測(cè)量受各種因素計(jì)分析結(jié)果產(chǎn)生不同的影響(見表1),在實(shí)際應(yīng)用中,影響,容易出現(xiàn)隨機(jī)測(cè)量誤差和系統(tǒng)誤差,這使得識(shí)別我們應(yīng)該根據(jù)具體的研究目的、數(shù)據(jù)類型以及要選用有重要作用的生物標(biāo)志物可能極其困難。的統(tǒng)計(jì)分析方法綜合考慮,選擇適當(dāng)?shù)念A(yù)處理方式。例如,RobertA.van
7、denBerg等(2006)通過實(shí)際代謝國家自然科學(xué)基金資助(81172767);高等學(xué)校博士學(xué)科專組學(xué)數(shù)據(jù)的分析發(fā)現(xiàn),選用不同預(yù)處理方法在很大程項(xiàng)基金(20122307110004)度上影響著主成分分析(PCA)的結(jié)果,自動(dòng)尺度化1.哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)(autoscaling)和全距尺度化(rangescaling)在對(duì)代謝2.山東大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室△通信作者:李康,E—mail:likang@ems.hrbmu.edu.cn組學(xué)數(shù)據(jù)進(jìn)行探索性分析時(shí)表現(xiàn)更優(yōu),其PCA分析后ChineseJo
8、umalofHealthStatistics,Apr2014,Vo1.31,No.2的結(jié)果在生物學(xué)上能夠得到更合理的解釋“。除了進(jìn)行傳統(tǒng)的單變量假設(shè)檢驗(yàn)分析,代謝組學(xué)表l常見的數(shù)據(jù)預(yù)處理方法分析中通常也計(jì)算代謝物濃度在兩組問的改變倍數(shù)值(foldchange),如計(jì)算某個(gè)代謝物濃度在兩組中的均值之比,判