資源描述:
《基于機(jī)器學(xué)習(xí)的藥物蛋白虛擬篩選方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、工學(xué)碩士學(xué)位論文基于機(jī)器學(xué)習(xí)的藥物蛋白虛擬篩選方法研究王夢(mèng)禹哈爾濱理工大學(xué)2016年3月國(guó)內(nèi)圖書分類號(hào):TP391.4工學(xué)碩士學(xué)位論文基于機(jī)器學(xué)習(xí)的藥物蛋白虛擬篩選方法研究碩士研究生:王夢(mèng)禹導(dǎo)師:?jiǎn)膛謇暾?qǐng)學(xué)位級(jí)別:工學(xué)碩士學(xué)科、專業(yè):軟件工程所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2016年3月授予學(xué)位單位:哈爾濱理工大學(xué)ClassifiedIndex:TP391.4DissertationfortheMasterDegreeinEngineeringResearchontheVirtualScreeningofDrugProte
2、inbasedontheMachineLearningCandidate:WangMengYuSupervisor:QiaoPeiLiAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:SoftwareEngineeringDateofOralExamination:March,2016University:HarbinUniversityofScienceandTechnology哈爾濱理工大學(xué)碩±學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:此處所提交的碩±學(xué)位論文《基于機(jī)器學(xué)習(xí)的藥
3、物雖白虛擬篩選方法研究》,是本人在導(dǎo)師指導(dǎo)下,在哈爾濱理工大學(xué)攻讀碩±學(xué)位期間獨(dú)立進(jìn)行研究工作所取得的成果。據(jù)本人所知,論文中除己注明部分外不包含他人己發(fā)表或撰寫過的研巧成果。對(duì)本文研巧工作做出貢獻(xiàn)的個(gè)人和集體,均己在文中明確方式注明。本聲明的法律結(jié)果將完全由本人承擔(dān)。矣。作者簽名:是專曰期:V,/矣年巧文日哈爾濱理工大學(xué)碩i學(xué)位論文使用授權(quán)書《基于機(jī)器學(xué)習(xí)的藥物蛋白虛擬篩選方法研究》系本人在哈爾濱理工大學(xué)攻讀碩±學(xué)位期間在導(dǎo)師指導(dǎo)下完成的碩±學(xué)位論文。本論文的研究成果歸哈。爾濱理工大學(xué)所有,本
4、論文的研究?jī)?nèi)容不得其它單位的名義發(fā)表本人賽全了解哈爾濱理工大學(xué)關(guān)于保存、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向有關(guān)部口提交論文和電子版本,允許論文被查閱和借閱。本人授權(quán)哈爾濱理工大學(xué)可W采用影印、縮印或其他復(fù)制手段保存論文,可公布論文的全部或部分內(nèi)容。本學(xué)位論文屬于□。保密,在年解密后適用授權(quán)書不保密也。(請(qǐng)?jiān)谏舷鄳?yīng)方框內(nèi)打V)3之^:日作者簽名:日期年月?:日導(dǎo)師簽名:曰期^。/辟巧如焉(尚務(wù)、基于機(jī)器學(xué)習(xí)的藥物蛋白虛擬篩選方法研究摘要20世紀(jì)中后期,伴隨計(jì)算機(jī)技術(shù)的迅速發(fā)展,新藥物的
5、研發(fā)進(jìn)入了一個(gè)新的階段。在計(jì)算機(jī)輔助藥物設(shè)計(jì)的眾多方法中,基于分子對(duì)接的虛擬篩選由于其較好的普適性,已被大多數(shù)機(jī)構(gòu)和制藥公司所認(rèn)可,但同時(shí),這種策略的準(zhǔn)確度很大程度上依賴于打分函數(shù)的精度。從目前來看,對(duì)于打分函數(shù)的研究還受理論和方法的限制,因此目前仍沒有一種完全正確的方法。另一方面,虛擬篩選的過程中會(huì)用到大量的實(shí)驗(yàn)室晶體結(jié)構(gòu),當(dāng)所要研究的靶點(diǎn)結(jié)構(gòu)不足以滿足虛擬篩選所需的數(shù)量時(shí),將不得不加入一些可能包含錯(cuò)誤結(jié)果的對(duì)接取向或者同源建模數(shù)據(jù),從而降低最終篩選結(jié)果的準(zhǔn)確率。近年來,由于機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,應(yīng)用機(jī)器學(xué)習(xí)相關(guān)理論來提高虛擬篩
6、選效果已經(jīng)成為研究的重點(diǎn),雖然到目前機(jī)器學(xué)習(xí)算法還無法使計(jì)算機(jī)具備和人類一樣強(qiáng)大的學(xué)習(xí)能力,但針對(duì)大量特定學(xué)習(xí)任務(wù)的算法的提出,使計(jì)算機(jī)具備了從大量數(shù)據(jù)中提取特征、發(fā)現(xiàn)隱含規(guī)律的能力,因此機(jī)器學(xué)習(xí)理論作為一種強(qiáng)力輔助手段,已被引入到計(jì)算機(jī)輔助藥物設(shè)計(jì)中。基于這個(gè)背景,本文提出一種結(jié)合機(jī)器學(xué)習(xí)的策略改進(jìn)基于分子對(duì)接的虛擬篩選流程,采用蛋白質(zhì)-配體交互指紋(InteractionFingerprint,IFP)來編碼蛋白質(zhì)和其配體之間的交互作用來代替打分函數(shù),采用集成學(xué)習(xí)的手段降低因混入錯(cuò)誤對(duì)接結(jié)果對(duì)最終篩選結(jié)果的影響。本文首先介紹了虛
7、擬篩選的概念和方法,以及國(guó)內(nèi)外機(jī)器學(xué)習(xí)和虛擬篩選相結(jié)合所取得的成果。然后介紹了基于分子對(duì)接的虛擬篩選流程和蛋白質(zhì)-配體交互指紋的概念和發(fā)展。為了論證所提出方法的有效性,本文選取SRC和CathepsinK這兩種目前制藥領(lǐng)域的熱點(diǎn)藥物靶點(diǎn),并以SC-PDB數(shù)據(jù)庫(kù)和PDB數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)為基礎(chǔ)進(jìn)行向量化處理,隨后采用BP神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)這兩種靶蛋白的蛋白質(zhì)-配體交互指紋。同時(shí),本文也在樸素BP神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入遺傳算法和模擬退火算法來解決BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)中收斂速度過慢和易陷入局部最優(yōu)值的問題。在虛擬篩選階段,本文將采用機(jī)器學(xué)習(xí)
8、算法生成的IFP作為分類算法的輸入,并模擬實(shí)際情況加入部分對(duì)接取向。為了解決因訓(xùn)練集質(zhì)量不高而導(dǎo)致虛擬篩選效果較低的問題,本文在算法層面引入集成學(xué)習(xí)思想,優(yōu)化了本文所提出的新的虛擬篩選流程。在實(shí)驗(yàn)構(gòu)建與分析-I-部分,采用PDB數(shù)據(jù)庫(kù)