資源描述:
《基于機器學習方法的可變剪接位點預測研究.pdf》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、分類號密級■編號泰擘磧士所究嗲像訟式題目基于機器學習方法的可變剪接位點預測研究學院(所、中心)軟件學皖專業(yè)名稱軟件工程(工學)研究生姓名郭倩含學號導師姓名姚紹女職稱教授年月論文獨創(chuàng)性聲明及使用授權(quán)本論文是作者在導師指導下取得的研宄成果。除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研宄成果,不存在剽竊或抄襲行為。與作者一同工作的同志對本研宄所做的任何貢獻均已在論文中作了明確的說明并表示了謝意?,F(xiàn)就論文的使用對云南大學授權(quán)如下:學校有權(quán)保留本論文(含電子版),也可以采用影印、縮印或其他復制手段保存論
2、文;學校有權(quán)公布論文的全部或部分內(nèi)容,可以將論文用于查閱或借閱服務;學校有權(quán)向有關機構(gòu)送交學位論文用于學術規(guī)范審查、社會監(jiān)督或評獎;學校有權(quán)將學位論文的全部或部分內(nèi)容錄入有關數(shù)據(jù)庫用于檢索服務。內(nèi)部或保密的論文在解密后應遵循此規(guī)定)研究生簽名:導師簽名:種認(日期:摘要摘要生物信息學的主要目標之一就是針對基因組表達與功能的研究分析,而真核生物剪接機制是細胞中影響基因表達的復雜過程,剪接機制在領域的研宄中具有重要意義。剪接機制的不同會產(chǎn)生不同的剪接產(chǎn)物,為了預測其剪接位點,就需要提出更精確的方法來解決相關的問題。機器學習是智
3、能計算領域的重要研宄點。不同與數(shù)據(jù)挖掘技術,除了對知識進行學習外,機器學習還被要求能夠利用已有的知識來改善自身性能。利用機器學習方法來進行剪接位點的相關研宄,勢必比傳統(tǒng)的方法和工具更智能,預測結(jié)果更準確。本文主要研究的是結(jié)合二階馬爾可夫模型與支持向量機的機器學習方法在可變剪接位點預測問題上的應用,其思想是把對剪接位點的預測轉(zhuǎn)化為根據(jù)其附近序列特征進行真假位點的分類。本文主要工作有:、從與可變剪接數(shù)據(jù)庫中選擇數(shù)據(jù),從中挑出五種可變剪接序列的數(shù)據(jù)集,并在剪接位點上下游各取一定長度的堿基,組建樣本數(shù)據(jù)并做預處理。、利用基于二階馬
4、爾可夫模型的方法進行序列特征抽取,通過分析從中選擇出剪接位點二聯(lián)堿基規(guī)則等主要特征,用于構(gòu)成后續(xù)分類工作的特征向量。、利用改進了樣本密集度和隸屬度計算的進行分類,目的是盡量減少噪聲樣本對預測結(jié)果準確性的負面影響。通過測試表明,在針對可變剪接各變體位點的預測中,本文采用的預測方法比傳統(tǒng)的算法和基本的機器學習方法的預測準確性更高,效果更好。關鍵詞:可變剪接;剪接位點預測;特征分析;馬爾可夫模型;支持向量機AbstractAbstractTheresearchongenomeexpressionandfunctionisoneo
5、fthemaingoalofbioinformatics.EukaryoticRNAsplicingmechanismisacomplicatedprocesswhichmayaffectthegeneexpression.SplicingmechanismisofgreatsignificanceintheresearchofRNA.Diferentsplicingprocesswillleaddiverseproducts.Inordertopredictthesplicesites,,、,、,、,Abstractsp
6、licingsites,themethodusedinthisarticleachievesabeterperformanceofpredictionaccuracythanthetraditionalalgorithmsandsimplemachinelearningmethods.Keywords:目錄目錄觀錄表目錄第一章引言課題研宄背景課題研宄現(xiàn)狀本文研宄意義與工作論文組織結(jié)構(gòu)第二章生物學基礎生物序列與遺傳信息傳遞與基因突變測序技術的可變剪接機制常規(guī)順式剪接可變剪接類型反向剪接預測剪接點的工具第三章機器學習方法機器學
7、習概述機器學習統(tǒng)計學習馬爾可夫模型支持向量機理論線性分類非線性分類核函數(shù)方法訓練算法分類第四章預測可變剪接位點的方法研究4.1實現(xiàn)框架數(shù)據(jù)集選取訓練集與測試集樣本的預處理序列特征分析基于的特征提取剪接變體位點長度分析剪接位點二聯(lián)堿基特征核酸序列值剪接位點的識別模型基于的改進預測算法決策函數(shù)密集度與隸屬度第五章測試與分析評價指標分析預測結(jié)果的衡量指標曲線預測結(jié)果分析剪接位點的預測結(jié)果不同方法識別效果比較第六章總結(jié)與展望工作總結(jié)工作展望參考文獻蘭目錄圖目錄圖的組成圖堿基突變的類型圖剪接過程產(chǎn)生的剪接點圖可變剪接的產(chǎn)物圖產(chǎn)生環(huán)形
8、的特殊剪接機制圖馬爾可夫模型圖線性分類問題圖非線性分類問題圖根據(jù)特定函數(shù)在升維空間中的分類圖預測可變剪接位點的實現(xiàn)流程圖示圖堿基的狀態(tài)轉(zhuǎn)移圖各可變剪接類型的長度分布圖圖各可變剪接值對照圖圖供體位點模型圖受體位點模型圖本文使用的評價指標圖外顯子跳躍供體位點預測結(jié)果對比圖外顯子跳躍受體位點預測結(jié)果對比表目錄