資源描述:
《基于多種生物學(xué)數(shù)據(jù)預(yù)測基因轉(zhuǎn)錄調(diào)控關(guān)系》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、上海交通大學(xué)碩士學(xué)位論文基于多種生物學(xué)數(shù)據(jù)預(yù)測基因轉(zhuǎn)錄調(diào)控關(guān)系姓名:程浩宇申請學(xué)位級別:碩士專業(yè):生物醫(yī)學(xué)工程指導(dǎo)教師:劉琪20090101上海交通大學(xué)碩士學(xué)位論文摘要基于多種生物學(xué)數(shù)據(jù)預(yù)測基因轉(zhuǎn)錄調(diào)控關(guān)系摘要基因選擇性表達是細胞適應(yīng)環(huán)境變化的重要手段。揭示基因選擇性表達所依賴的調(diào)控信息及其相互作用的分子機制,一直是生命科學(xué)研究領(lǐng)域的熱點。近年來,各種高通量實驗技術(shù)的出現(xiàn)為研究基因調(diào)控網(wǎng)絡(luò)提供了大量數(shù)據(jù)。目前,在基于單一數(shù)據(jù)源重構(gòu)調(diào)控網(wǎng)絡(luò)方面,人們提出了各種網(wǎng)絡(luò)模型以及計算方法。雖然這些方法各有優(yōu)點,但是它們在
2、揭示基因調(diào)控關(guān)系上都具有不完整性、不確定性和一定的互補性。整合多種實驗數(shù)據(jù)正在成為發(fā)展基因調(diào)控網(wǎng)絡(luò)重構(gòu)技術(shù)的必然趨勢。本文對當前廣泛采用的綜合多元數(shù)據(jù)的預(yù)測算法GRAM和MA-Networker進行了分析評估,指出了閾值選取過于嚴格及其對預(yù)測結(jié)果可能產(chǎn)生的不利影響。在此基礎(chǔ)上,本文提出了優(yōu)化整合多種生物學(xué)數(shù)據(jù)預(yù)測基因轉(zhuǎn)錄調(diào)控關(guān)系的新算法,并應(yīng)用在實際ChIP-chip數(shù)據(jù)和轉(zhuǎn)錄因子敲除表達譜數(shù)據(jù)上,取得了比較理想的預(yù)測效果。該算法首次采用超幾何分布假設(shè)的統(tǒng)計檢驗方法優(yōu)化閾值的選取,對兩種數(shù)據(jù)的百余個調(diào)控因子進行
3、優(yōu)化閾值的計算設(shè)定,并依據(jù)“非隨機相關(guān)性”推斷轉(zhuǎn)錄調(diào)控關(guān)系。本文對預(yù)測結(jié)果進行了與大規(guī)模數(shù)據(jù)庫和高質(zhì)量ChIP-chip數(shù)據(jù)比較,GO功能類分析以及文獻查找相關(guān)證據(jù)等大量驗證。結(jié)果顯示,該算法可以在保證預(yù)測精度的同時,大幅提高預(yù)測的覆蓋率,其大部分預(yù)測結(jié)果都已找到相應(yīng)的實驗或計算證據(jù)。本算法不僅在預(yù)測轉(zhuǎn)錄調(diào)控靶基因方面具有顯著效果,而且已拓展到對轉(zhuǎn)錄因子間協(xié)同調(diào)控進行有效預(yù)測。在第I頁上海交通大學(xué)碩士學(xué)位論文摘要今后的研究中,該算法還可以進一步用于其它多元高通量數(shù)據(jù)的整合以及基因調(diào)控網(wǎng)絡(luò)的預(yù)測。關(guān)鍵詞:基因轉(zhuǎn)錄
4、調(diào)控,轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò),協(xié)同調(diào)控,超幾何分布第II頁上海交通大學(xué)碩士學(xué)位論文ABSTRACTPredictionoftranscriptionalinteractionsbasedondiversedatasourcesABSTRACTGeneselectiveexpressionisanimportantstrategythatcellsutilizeto
adaptvariousenvironmentalchanges.Uncoveringtheunderlyingmolecular
mechanismisal
5、waysahotspotinlifescienceresearch.Recently,several
high-throughputexperimentalapproacheshaveprovidedresearcherswitha
largeamountofdata.Severalnetworkmodelsandalgorithmshavebeen
proposedbasedononeofthosedatasources.Whilethosemethodshavetheir
ownadvantages,the
6、yareoftencomplementaryandprovideonlypartial
informationoftheregulatoryrelationships.Thusmoreandmorepeoplehave
realizedthatitwouldbemoreeffectivetointegrateacompendiumofdata
sourcesforreconstructionoftranscriptionalregulatorynetworks.Inthisstudy,weperformdeta
7、iledanalysisandevaluationontwo
widely-usedalgorithms,GRAMandMA-Networker,whichcombine
expressiondataandChIP-chipdatatomodelregulatorynetworks.Wefocus
ontheselectionofthresholds,andpointoutthenegativeeffectscausedby
stringentp-valuethresholds.Basedonthoseprev
8、iousapproaches,wepropose
anovelmethodtointegrateheterogeneousdatasourcesforinferringTF-target
generelations.Wehaveappliedthismethodtogenome-wideChIP-chip
datasetsandtranscriptionfactorknockoutda