全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點分析.doc

全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點分析.doc

ID:51322763

大?。?.98 MB

頁數(shù):26頁

時間:2020-03-10

全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點分析.doc_第1頁
全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點分析.doc_第2頁
全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點分析.doc_第3頁
全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點分析.doc_第4頁
全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點分析.doc_第5頁
資源描述:

《全國研究生數(shù)學(xué)建模大賽-具有遺傳性疾病和性狀的遺傳位點分析.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、2016年“華為杯”第十三屆全國研究生數(shù)學(xué)建模競賽學(xué)校西南大學(xué)參賽隊號10635001隊員姓名1.彭敏2.吳戰(zhàn)3.陳環(huán)宇題目具有遺傳性疾病和性狀的遺傳位點分析摘要遺傳性疾病和性狀的相關(guān)聯(lián)位點分析對人類研究遺傳學(xué)具有重要意義。目前許多疾病或性狀均有典型的多基因遺傳特性,即具有眾多基因共同控制,且單個基因的作用較小的特點,非常適用于全基因組關(guān)聯(lián)性分析(GWAS)的研究。本文通過建立卷積神經(jīng)網(wǎng)絡(luò)模型(ConvolutionalNeuralNetwork,CNN),對相應(yīng)的數(shù)據(jù)進(jìn)行分析和統(tǒng)計,完成了對遺傳疾病、性狀與其相關(guān)聯(lián)位點的分析。我

2、們通過訓(xùn)練該網(wǎng)絡(luò)模型,實現(xiàn)了在許多位點中尋找與相應(yīng)疾病或性狀有關(guān)的位點。對于問題一,要求根據(jù)合適的方法,把1000個樣本在染色體片段上所有的位點信息轉(zhuǎn)換為數(shù)值編碼方式。本文考慮到數(shù)值編碼不僅要體現(xiàn)堿基的生物特性,同時要考慮到后續(xù)的數(shù)據(jù)存儲、運(yùn)行和統(tǒng)計分析。因此,我們的編碼方式是C對應(yīng)(01)、T對應(yīng)(11)、A對應(yīng)(00)、G對應(yīng)(10)。對于問題二,要找到某種疾病最有可能的一個或幾個致病位點。本文的解決方法是采用卷積神經(jīng)網(wǎng)絡(luò)建立模型。首先把每個樣本的位點信息轉(zhuǎn)換為數(shù)字編碼信息進(jìn)而轉(zhuǎn)變?yōu)槲稽c編碼圖。通過建立卷積神經(jīng)網(wǎng)絡(luò)模型,之后采

3、用反卷積的方式,建立每個樣本的特征圖。本文通過對1000個特征圖累加并進(jìn)行統(tǒng)計分析,最終選取了15個位點。在模型驗證中,本文選取常用的分類器進(jìn)行分類,包括線性判別分析(LDA)、支持向量機(jī)(SVM)、隨機(jī)森林(RF)、樸素貝葉斯分離器(NBC)和Adaboost分類。對得到的15個特征位點進(jìn)行分類,其結(jié)果均在80%以上,證明了本模型選取的15個位點的有效性以及合理性。對于問題三,基因是若干個位點組成的集合,并且每個基因包含的位點數(shù)目不同。在問題二的基礎(chǔ)上,如果當(dāng)某個基因包含的位點集合中的一個或幾個位點屬于我們已經(jīng)找到的致病位點集合

4、,那么我們認(rèn)為該基因與疾病相關(guān)。按照這種方式,我們找到了與疾病相關(guān)的9個基因。對于問題四,在問題二的基礎(chǔ)上,本文通過對10種性狀分別建立卷積神經(jīng)網(wǎng)絡(luò)模型。沿用解決問題二的方法,最終找到了對應(yīng)這10種性狀的位點。關(guān)鍵詞:全基因組關(guān)聯(lián)性分析(GWAS)致病位點卷積神經(jīng)網(wǎng)絡(luò)25一、問題重述1.1問題背景人體的每條染色體攜帶一個DNA分子,人的遺傳密碼有人體中的DNA攜帶。DNA是由分別帶有A,T,C,G四種堿基的脫氧核苷酸鏈組成的雙螺旋長鏈分子。在這條雙螺旋的長鏈中,共有約30億個堿基對,而基因則是DNA長鏈中有遺傳效應(yīng)的一些片段。在組

5、成DNA的數(shù)量浩瀚的堿基對(或?qū)τ诘拿撗鹾塑账幔┲?,有一些特定位置的單個核苷酸經(jīng)常發(fā)生變異引起DNA的多態(tài)性,我們稱之為位點。在DNA長鏈中,位點個數(shù)約為堿基對個數(shù)的1/1000。由于位點在DNA長鏈中出現(xiàn)頻繁,多態(tài)性豐富,近年來成為人們研究DNA遺傳信息的重要載體,被稱為人類研究遺傳學(xué)的第三類遺傳標(biāo)記。大量研究表明,人體的許多表型性狀差異以及對藥物和疾病的易感性等都可能與某些位點相關(guān)聯(lián),或和包含有多個位點的基因相關(guān)聯(lián)。因此,定位與性狀或疾病相關(guān)聯(lián)的位點在染色體或基因中的位置,能幫助研究人員了解性狀和一些疾病的遺傳機(jī)理,也能使人們

6、對致病位點加以干預(yù),防止一些遺傳病的發(fā)生。近年來,研究人員大都采用全基因組的方法來確定致病位點或致病基因,具體做法是:招募大量志愿者(樣本),包括具有某種遺傳病的人和健康的人。對每個樣本,采用堿基(A,T,C,G)的編碼方式來獲取每個位點的信息(因為染色體具有雙螺旋結(jié)構(gòu),所以用兩個堿基的組合表示一個位點的信息);研究人員可以通過對樣本的健康狀況和位點編碼的對比分析來確定致病位點,從而發(fā)現(xiàn)遺傳病或性狀的遺傳機(jī)理。1.2需要解決的問題問題一:采用適當(dāng)?shù)姆椒?,?000個樣本在某條染色體片段上所有的位點信息中,每個位點的堿基(A,T,C

7、,G)編碼方式轉(zhuǎn)化成數(shù)值編碼方式。問題二:設(shè)計或采用一個方法,找出某種疾病最有可能的一個或幾個治病位點,并給出相關(guān)的理論依據(jù)。問題三:現(xiàn)在有300個基因,每個基因所包含的位點已知,由于可以把基因理解為若干個位點組成的集合,遺傳疾病與基因的關(guān)聯(lián)性可以由基因中包含的位點的全集或其子集合表現(xiàn)出來請找出與疾病最有可能相關(guān)的一個或幾個基因,并說明理由。問題四:在問題二的基礎(chǔ)上,已知9445個位點和其編碼的信息。在實際的研究中,科研人員往往把相關(guān)的性狀或疾病看成一個整體,然后來探尋與它們相關(guān)的位點或基因。根據(jù)題目給出1000個樣本的10個相關(guān)

8、性狀的信息及其9445個位點的編碼信息,找出10個性狀相關(guān)聯(lián)的位點。25二、模型假設(shè)(1)假設(shè)題中所給信息及數(shù)據(jù)均正確。(2)假設(shè)每個位點的信息不會受到其它疾病或性狀的影響。(3)假設(shè)問題中所提到的性狀或疾病只與9445個位點有關(guān)。(4)假設(shè)問題中

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。