資源描述:
《全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點(diǎn)分析.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、2016年“華為杯”第十三屆全國研究生數(shù)學(xué)建模競賽學(xué)校西南大學(xué)參賽隊(duì)號10635001隊(duì)員姓名1.彭敏2.吳戰(zhàn)3.陳環(huán)宇題目具有遺傳性疾病和性狀的遺傳位點(diǎn)分析摘要遺傳性疾病和性狀的相關(guān)聯(lián)位點(diǎn)分析對人類研究遺傳學(xué)具有重要意義。目前許多疾病或性狀均有典型的多基因遺傳特性,即具有眾多基因共同控制,且單個(gè)基因的作用較小的特點(diǎn),非常適用于全基因組關(guān)聯(lián)性分析(GWAS)的研究。本文通過建立卷積神經(jīng)網(wǎng)絡(luò)模型(ConvolutionalNeuralNetwork,CNN),對相應(yīng)的數(shù)據(jù)進(jìn)行分析和統(tǒng)計(jì),完成了對遺傳疾病、性狀與其相關(guān)聯(lián)位點(diǎn)的分析。我
2、們通過訓(xùn)練該網(wǎng)絡(luò)模型,實(shí)現(xiàn)了在許多位點(diǎn)中尋找與相應(yīng)疾病或性狀有關(guān)的位點(diǎn)。對于問題一,要求根據(jù)合適的方法,把1000個(gè)樣本在染色體片段上所有的位點(diǎn)信息轉(zhuǎn)換為數(shù)值編碼方式。本文考慮到數(shù)值編碼不僅要體現(xiàn)堿基的生物特性,同時(shí)要考慮到后續(xù)的數(shù)據(jù)存儲、運(yùn)行和統(tǒng)計(jì)分析。因此,我們的編碼方式是C對應(yīng)(01)、T對應(yīng)(11)、A對應(yīng)(00)、G對應(yīng)(10)。對于問題二,要找到某種疾病最有可能的一個(gè)或幾個(gè)致病位點(diǎn)。本文的解決方法是采用卷積神經(jīng)網(wǎng)絡(luò)建立模型。首先把每個(gè)樣本的位點(diǎn)信息轉(zhuǎn)換為數(shù)字編碼信息進(jìn)而轉(zhuǎn)變?yōu)槲稽c(diǎn)編碼圖。通過建立卷積神經(jīng)網(wǎng)絡(luò)模型,之后采
3、用反卷積的方式,建立每個(gè)樣本的特征圖。本文通過對1000個(gè)特征圖累加并進(jìn)行統(tǒng)計(jì)分析,最終選取了15個(gè)位點(diǎn)。在模型驗(yàn)證中,本文選取常用的分類器進(jìn)行分類,包括線性判別分析(LDA)、支持向量機(jī)(SVM)、隨機(jī)森林(RF)、樸素貝葉斯分離器(NBC)和Adaboost分類。對得到的15個(gè)特征位點(diǎn)進(jìn)行分類,其結(jié)果均在80%以上,證明了本模型選取的15個(gè)位點(diǎn)的有效性以及合理性。對于問題三,基因是若干個(gè)位點(diǎn)組成的集合,并且每個(gè)基因包含的位點(diǎn)數(shù)目不同。在問題二的基礎(chǔ)上,如果當(dāng)某個(gè)基因包含的位點(diǎn)集合中的一個(gè)或幾個(gè)位點(diǎn)屬于我們已經(jīng)找到的致病位點(diǎn)集合
4、,那么我們認(rèn)為該基因與疾病相關(guān)。按照這種方式,我們找到了與疾病相關(guān)的9個(gè)基因。對于問題四,在問題二的基礎(chǔ)上,本文通過對10種性狀分別建立卷積神經(jīng)網(wǎng)絡(luò)模型。沿用解決問題二的方法,最終找到了對應(yīng)這10種性狀的位點(diǎn)。關(guān)鍵詞:全基因組關(guān)聯(lián)性分析(GWAS)致病位點(diǎn)卷積神經(jīng)網(wǎng)絡(luò)25一、問題重述1.1問題背景人體的每條染色體攜帶一個(gè)DNA分子,人的遺傳密碼有人體中的DNA攜帶。DNA是由分別帶有A,T,C,G四種堿基的脫氧核苷酸鏈組成的雙螺旋長鏈分子。在這條雙螺旋的長鏈中,共有約30億個(gè)堿基對,而基因則是DNA長鏈中有遺傳效應(yīng)的一些片段。在組
5、成DNA的數(shù)量浩瀚的堿基對(或?qū)τ诘拿撗鹾塑账幔┲?,有一些特定位置的單個(gè)核苷酸經(jīng)常發(fā)生變異引起DNA的多態(tài)性,我們稱之為位點(diǎn)。在DNA長鏈中,位點(diǎn)個(gè)數(shù)約為堿基對個(gè)數(shù)的1/1000。由于位點(diǎn)在DNA長鏈中出現(xiàn)頻繁,多態(tài)性豐富,近年來成為人們研究DNA遺傳信息的重要載體,被稱為人類研究遺傳學(xué)的第三類遺傳標(biāo)記。大量研究表明,人體的許多表型性狀差異以及對藥物和疾病的易感性等都可能與某些位點(diǎn)相關(guān)聯(lián),或和包含有多個(gè)位點(diǎn)的基因相關(guān)聯(lián)。因此,定位與性狀或疾病相關(guān)聯(lián)的位點(diǎn)在染色體或基因中的位置,能幫助研究人員了解性狀和一些疾病的遺傳機(jī)理,也能使人們
6、對致病位點(diǎn)加以干預(yù),防止一些遺傳病的發(fā)生。近年來,研究人員大都采用全基因組的方法來確定致病位點(diǎn)或致病基因,具體做法是:招募大量志愿者(樣本),包括具有某種遺傳病的人和健康的人。對每個(gè)樣本,采用堿基(A,T,C,G)的編碼方式來獲取每個(gè)位點(diǎn)的信息(因?yàn)槿旧w具有雙螺旋結(jié)構(gòu),所以用兩個(gè)堿基的組合表示一個(gè)位點(diǎn)的信息);研究人員可以通過對樣本的健康狀況和位點(diǎn)編碼的對比分析來確定致病位點(diǎn),從而發(fā)現(xiàn)遺傳病或性狀的遺傳機(jī)理。1.2需要解決的問題問題一:采用適當(dāng)?shù)姆椒?,?000個(gè)樣本在某條染色體片段上所有的位點(diǎn)信息中,每個(gè)位點(diǎn)的堿基(A,T,C
7、,G)編碼方式轉(zhuǎn)化成數(shù)值編碼方式。問題二:設(shè)計(jì)或采用一個(gè)方法,找出某種疾病最有可能的一個(gè)或幾個(gè)治病位點(diǎn),并給出相關(guān)的理論依據(jù)。問題三:現(xiàn)在有300個(gè)基因,每個(gè)基因所包含的位點(diǎn)已知,由于可以把基因理解為若干個(gè)位點(diǎn)組成的集合,遺傳疾病與基因的關(guān)聯(lián)性可以由基因中包含的位點(diǎn)的全集或其子集合表現(xiàn)出來請找出與疾病最有可能相關(guān)的一個(gè)或幾個(gè)基因,并說明理由。問題四:在問題二的基礎(chǔ)上,已知9445個(gè)位點(diǎn)和其編碼的信息。在實(shí)際的研究中,科研人員往往把相關(guān)的性狀或疾病看成一個(gè)整體,然后來探尋與它們相關(guān)的位點(diǎn)或基因。根據(jù)題目給出1000個(gè)樣本的10個(gè)相關(guān)
8、性狀的信息及其9445個(gè)位點(diǎn)的編碼信息,找出10個(gè)性狀相關(guān)聯(lián)的位點(diǎn)。25二、模型假設(shè)(1)假設(shè)題中所給信息及數(shù)據(jù)均正確。(2)假設(shè)每個(gè)位點(diǎn)的信息不會(huì)受到其它疾病或性狀的影響。(3)假設(shè)問題中所提到的性狀或疾病只與9445個(gè)位點(diǎn)有關(guān)。(4)假設(shè)問題中