資源描述:
《基于蛋白質(zhì)網(wǎng)絡(luò)的人類遺傳致病基因預(yù)測(cè)算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、碩士學(xué)位論文基于蛋白質(zhì)網(wǎng)絡(luò)的人類遺傳致病基因預(yù)測(cè)算法研究ALGORITHMRESEARCHOFHUMANGENETICDISORDERGENEPREDICTIONBASEDONPROTEINNETWORK王宗堯哈爾濱工業(yè)大學(xué)2010年6月國(guó)內(nèi)圖書分類號(hào):TP31學(xué)校代碼:10213國(guó)際圖書分類號(hào):004密級(jí):公開工學(xué)碩士學(xué)位論文基于蛋白質(zhì)網(wǎng)絡(luò)的人類遺傳致病基因預(yù)測(cè)算法研究碩士研究生:王宗堯?qū)煟和鮼問|教授申請(qǐng)學(xué)位:工學(xué)碩士學(xué)科、專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2010年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)Classifi
2、edIndex:TP31U.D.C.:004DissertationfortheMasterDegreeinEngineeringALGORITHMRESEARCHOFHUMANGENETICDISORDERGENEPREDICTIONBASEDONPROTEINNETWORKCandidate:WangZongyaoSupervisor:Prof.WangYadongAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyAffiliat
3、ion:SchoolofComputerScienceandTechnologyDateofDefence:June,2010Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文摘要人類遺傳疾病基因的預(yù)測(cè)是目前生物信息學(xué)研究中的一個(gè)熱點(diǎn)問題。隨著基因組測(cè)序的完成和新一代測(cè)序技術(shù)的發(fā)展,基因以及蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)不斷增長(zhǎng)。通過這些數(shù)據(jù)來分析預(yù)測(cè)致病基因給人類破譯疾病的遺傳基礎(chǔ)和分子基礎(chǔ)帶來了新的方法,對(duì)基因組學(xué)和醫(yī)學(xué)都具有重要的現(xiàn)實(shí)意義。本文依據(jù)遺傳疾病
4、臨床描述與蛋白質(zhì)相互作用網(wǎng)絡(luò)的關(guān)聯(lián)關(guān)系,獲取相關(guān)數(shù)據(jù),首先對(duì)人類遺傳疾病在線數(shù)據(jù)庫(kù)進(jìn)行文本挖掘,通過向量空間模型的方法,計(jì)算遺傳疾病表型之間的重疊關(guān)系,其次利用蛋白質(zhì)相互作用關(guān)系數(shù)據(jù)計(jì)算相互作用評(píng)分,加上疾病-蛋白質(zhì)關(guān)聯(lián)關(guān)系數(shù)據(jù),共同構(gòu)建了一系列生物網(wǎng)絡(luò),對(duì)疾病表型和蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析,基于這些網(wǎng)絡(luò)數(shù)據(jù)對(duì)疾病的候選致病基因進(jìn)行打分和排序,來預(yù)測(cè)疾病基因。本文提出了兩種新的基于網(wǎng)絡(luò)的人類遺傳疾病基因預(yù)測(cè)方法。第一種在傳統(tǒng)的二維關(guān)聯(lián)概率模型的基礎(chǔ)上,提出了基于多維隨機(jī)變量的兩種新的概率模型——中心概率模型和外形概率模型,在此基礎(chǔ)上,提出了基于多概
5、率融合的致病基因預(yù)測(cè)數(shù)學(xué)模型。還有一種是使用過濾函數(shù)的回歸分析預(yù)測(cè),通過觀察網(wǎng)絡(luò)和概率模型數(shù)據(jù),總結(jié)數(shù)據(jù)規(guī)律,加入生物學(xué)假設(shè),使用過濾函數(shù)融合回歸分析進(jìn)行候選基因的排序。基于多概率融合的預(yù)測(cè)模型通過綜合利用聯(lián)合概率、中心概率和外形概率,在多個(gè)層面上反映了表型相似性與蛋白質(zhì)相互作用之間的關(guān)聯(lián)規(guī)律,與傳統(tǒng)的基于單一概率的模型相比,該數(shù)學(xué)模型更好地反映了生物系統(tǒng)的真實(shí)面貌,具有更強(qiáng)的疾病基因預(yù)測(cè)能力。而另一個(gè)使用過濾函數(shù)融合回歸分析的預(yù)測(cè)模型,根據(jù)合理的生物學(xué)假設(shè),反映疾病表型重疊中蘊(yùn)含的基因關(guān)聯(lián)關(guān)系,可以有效的將很多非致病基因排在隊(duì)列的后面,有效增強(qiáng)
6、了預(yù)測(cè)方法的效率。關(guān)鍵詞:蛋白質(zhì)網(wǎng)絡(luò);疾病基因預(yù)測(cè);概率模型;回歸分析-I-哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文AbstractThepredictionofhumangeneticdisordergeneisahotissueinbioinformaticscurrently.Withthesequencingofhumangenomecompletedandthedevelopmentofnewgenerationsequencingtechnology,theamountofthedatadescribingthenetworkofgeneand
7、proteininteractionisincreasingrapidly.Analysisandpredictionofdiseasecausinggenebythesedataprovidesnewmethodsforthedecipheringofgeneticfoundationandmoleculesbasisofdiseaseswhichhaveimportantpracticalsignificanceforgenomicsandmedicine.Accordingtotheincidencerelationbetweenclini
8、caldescriptionsofthegeneticdiseaseandthenetworkofprotein-proteininte