第1章緒論1.1課題研究的目的和意義隨著計算機軟硬件水平的不斷提高,計算機的存儲技術也在不斷的發(fā)展。信息數(shù)據(jù)時代已經(jīng)到來。因此,利用數(shù)據(jù)挖掘、機器學習等相關技術,從海量數(shù)據(jù)中提取出對生產(chǎn)、經(jīng)">
基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法

基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法

ID:22276476

大小:53.50 KB

頁數(shù):5頁

時間:2018-10-28

基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法_第1頁
基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法_第2頁
基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法_第3頁
基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法_第4頁
基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法_第5頁
資源描述:

《基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。

1、基于失衡數(shù)據(jù)分類模型的藥物蛋白質(zhì)虛擬篩選方法-->第1章緒論1.1課題研究的目的和意義隨著計算機軟硬件水平的不斷提高,計算機的存儲技術也在不斷的發(fā)展。信息數(shù)據(jù)時代已經(jīng)到來。因此,利用數(shù)據(jù)挖掘、機器學習等相關技術,從海量數(shù)據(jù)中提取出對生產(chǎn)、經(jīng)營、日常生活有益的隱含信息已經(jīng)是一種必然的趨勢。在眾多數(shù)據(jù)形態(tài)中存在一種特殊形態(tài)的數(shù)據(jù)集——失衡數(shù)據(jù)集(ImbalancedDataSets,IDS)。這類數(shù)據(jù)集類別往往是分布不平衡的,類別之間甚至可能出現(xiàn)數(shù)量級的差異[1]。...................

2、..................1.2虛擬篩選的基本方法和研究現(xiàn)狀虛擬篩選可定義為:針對重要疾病特定靶標生物大分子的三維結(jié)構或定量構效關系(QSAR)模型,從現(xiàn)有小分子數(shù)據(jù)庫中,搜尋與靶標生物大分子結(jié)合或符合QSAR模型的化合物,進行實驗篩選研究[11]。.....................................第2章基于分子對接的虛擬篩選相關介紹2.1分子對接原理基礎知識最初I.D.Kuntz根據(jù)配體與受體作用的“鎖-鑰原理”提出分子對接方法[39]。鎖鑰原理的基本思想是:蛋白

3、質(zhì)與分子之間的結(jié)合在空間上和能量上具有互補性,即滿足空間構象的相互匹配和能量的相互匹配,是一種剛性的結(jié)合方法。.....................................2.2基于分子對接的虛擬篩選虛擬篩選是化合物進行生物活性篩選之前,通過在計算機上對化合物分子進行生物活性預測,在提高先導化合物質(zhì)量的同時,降低了后期臨床實驗的成本。其中基于分子對接的虛擬篩選是在計算機上首先確定靶蛋白的活性結(jié)合位點,然后對配體與靶蛋白可能產(chǎn)生的空間構象進行搜索,最終利用打分函數(shù)對可能的空間構象進行打分,

4、選擇具有最好的空間構象的化合物作為候選化合物,進入臨床篩選階段。.....................................第3章基于密度聚類邊界采樣方法.................................213.1失衡數(shù)據(jù)處理中的常用方法....................................213.2常用的聚類采樣算法............................23第4章基于Adaboost-SVM的藥物蛋白虛擬篩選............

5、.........374.1支持向量機...............................374.2集成學習方法............................................42第4章基于Adaboost-SVM的藥物蛋白虛擬篩選4.1支持向量機SVM是由Vapnik和Cortes提出的一種建立在統(tǒng)計學習理論和結(jié)構風險最小化等原理基礎上的分類算法,具有避免局部最優(yōu)解,抗“維度災難”強等優(yōu)點,而且對于小樣本,非線性,高維數(shù)據(jù)等分類問題都有一定的優(yōu)勢,因此,目前被廣泛

6、應用于網(wǎng)絡流分類,輿情分析,語音識別等領域。...............................4.2集成學習方法集成學習(EnsembleLearning)方法是失衡數(shù)據(jù)處理中常用的方法之一,該方法最早是由Hansen和Salamon提出的集成神經(jīng)網(wǎng)絡分類模型,利用多個神經(jīng)網(wǎng)絡對訓練數(shù)據(jù)集進行學習,并將學習結(jié)果進行整合,并利用實驗充分證明該方法能顯著提供學習系統(tǒng)的泛化能力。正是由于此方法蘊含著巨大的潛力,越來越多的專家和學者對集成學習領域進行了更加深入的探索。..............

7、.................結(jié)論隨著生物化學,化學信息學等理論研究的不斷深入,藥物發(fā)現(xiàn)策略也在日益更新,計算機輔助藥物設計成為了一種必然的趨勢。本文通過對傳統(tǒng)的基于分子對接虛擬篩選技術進行研究,分析了目前虛擬篩選技術所面臨的問題,如打分函數(shù)的準確性問題以及訓練集中大量的錯誤對接構象降低篩選準確率的問題。為了進一步提高先導化合物的篩選質(zhì)量,本文通過將機器學習方法與虛擬篩選技術相結(jié)合的方式對傳統(tǒng)虛擬篩選技術進行改進。

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。