資源描述:
《基于本體與基因網(wǎng)絡(luò)的致病基因預(yù)測(cè)研究》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、碩士學(xué)位論文基于本體與基因網(wǎng)絡(luò)的致病基因預(yù)測(cè)研究RESEARCHOFDISEASEGENEPREDICTIONBASEDONONTOLOGYANDGENENETWORK白坤哈爾濱工業(yè)大學(xué)2015年12月圖內(nèi)圖書(shū)分類(lèi)號(hào):TP39學(xué)校代碼:10213國(guó)際圖書(shū)分類(lèi)號(hào):004.9密級(jí):公開(kāi)工學(xué)碩士學(xué)位論文基于本體與基因網(wǎng)絡(luò)的致病基因預(yù)測(cè)研究碩士研究生:白坤導(dǎo)師:王亞?wèn)|教授申請(qǐng)學(xué)位:工學(xué)碩士學(xué)科:計(jì)算機(jī)科學(xué)與技術(shù)所在單位:深圳研究生院答辯日期:2015年12月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP39U.D.C:004.9Disse
2、rtationfortheMasterDegreeinEngineeringRESEARCHOFDISEASEGENEPREDICTIONBASEDONONTOLOGYANDGENENETWORKCandidate:BaiKunSupervisor:Prof.WangYadongAcademicDegreeAppliedfor:MasterDegreeinEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:
3、December,2015Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要隨著人類(lèi)基因組計(jì)劃的順利完成,出現(xiàn)了許多高通量技術(shù)預(yù)測(cè)基因功能的方法,但是從這些方法產(chǎn)生的大量的候選基因集合中檢測(cè)致病基因仍是一個(gè)十分艱巨的挑戰(zhàn),如果直接使用生物學(xué)實(shí)驗(yàn)驗(yàn)證則需要消耗大量人力物力。隨著數(shù)據(jù)的積累,人們逐漸發(fā)現(xiàn)致病基因具有模塊性,功能相同或者相似的基因編碼的蛋白質(zhì),在蛋白質(zhì)相互作用網(wǎng)絡(luò)中相互靠近。利用已被證實(shí)的疾病和基因的關(guān)系,使用計(jì)算方法來(lái)預(yù)測(cè)候選致病基因通常能起到很好的效果,如計(jì)算候選
4、基因和已知致病基因集合中的基因的相似性,然后根據(jù)相似性排名對(duì)候選基因進(jìn)行排序,從而使生物學(xué)實(shí)驗(yàn)有針對(duì)的對(duì)基因進(jìn)行實(shí)驗(yàn)驗(yàn)證,降低檢測(cè)成本。本文主要以生物醫(yī)學(xué)本體為中心,整合了九種不同生物醫(yī)學(xué)數(shù)據(jù)庫(kù),構(gòu)建了由78786個(gè)生物學(xué)實(shí)體或概念組成的一個(gè)雙層異構(gòu)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)中包含本體術(shù)語(yǔ)之間的105875條有向邊,以及術(shù)語(yǔ)到基因,基因和基因之間組成的398642條無(wú)向邊。在構(gòu)建網(wǎng)絡(luò)時(shí),使用超級(jí)敘詞表等映射工具對(duì)九種數(shù)據(jù)庫(kù)中不同類(lèi)型的標(biāo)識(shí)進(jìn)行轉(zhuǎn)換和去冗余;設(shè)計(jì)了一套整合不同關(guān)系證據(jù)類(lèi)型的方案,根據(jù)邊的關(guān)系證據(jù)集合的不同,為每條邊賦予了不同的權(quán)值,最終構(gòu)建的網(wǎng)絡(luò)
5、為帶權(quán)的雙層異構(gòu)網(wǎng)絡(luò)。依據(jù)網(wǎng)絡(luò)中邊的端點(diǎn)的不同,將邊分為了七個(gè)大類(lèi),并驗(yàn)證了每一類(lèi)的權(quán)值改變對(duì)基因預(yù)測(cè)最終的效果有直接影響,為每大類(lèi)屬于的邊設(shè)置了一個(gè)特征向量,使用有監(jiān)督的隨機(jī)游走訓(xùn)練每個(gè)大類(lèi)的特征權(quán)值,使得組合的權(quán)值能夠更準(zhǔn)確的進(jìn)行致病基因預(yù)測(cè),同時(shí)基于有監(jiān)督隨機(jī)游走算法,提出了拉普拉斯正規(guī)化的有監(jiān)督隨機(jī)游走,并在多次試驗(yàn)后驗(yàn)證了正規(guī)化的有監(jiān)督隨機(jī)游走在預(yù)測(cè)權(quán)值上優(yōu)于有監(jiān)督隨機(jī)游走,針對(duì)正規(guī)化算法復(fù)雜度過(guò)高的問(wèn)題,提出了簡(jiǎn)化版的正規(guī)化有監(jiān)督隨機(jī)游走。在構(gòu)建的雙層異構(gòu)網(wǎng)絡(luò)上分別進(jìn)行隨機(jī)游走,有監(jiān)督隨機(jī)游走,簡(jiǎn)化正規(guī)化隨機(jī)游走的驗(yàn)證,最終有監(jiān)督隨機(jī)游
6、走的AUC(AreaUnderrocCurve)比普通隨機(jī)游走提高了0.8%,正規(guī)化隨機(jī)游走AUC比普通隨機(jī)游走提高了2.3%。關(guān)鍵詞:本體;數(shù)據(jù)融合;致病因預(yù)測(cè);隨機(jī)游走;有監(jiān)督隨機(jī)游走;拉普拉斯正規(guī)化-I-AbstractAbstractAlthoughthehumangenomeprojecthasbeenaccomplishedandhasachievedgreatsuccess,andnewmethodsthatverifygenefunctionwithhigh-throughputhavebeenapplied,studyinggen
7、eticproblemsthatinducediseasesisstilloneofthemajorchallengesfacinghumanity.Usingthebiologicalexperimentmethodtoidentifygenesassociatedwithdiseaserequiresalargenumberofhumanresourcesandcapitalsupport.However,thestudyofcandidateassociationworkswellbyusingasetofknowfunctionalcand
8、idategenes,becausenewdiseasegenesclusterwiththesetofknowndise