資源描述:
《基于隨機(jī)森林構(gòu)建濾泡型甲狀腺癌遠(yuǎn)處轉(zhuǎn)移預(yù)測(cè)模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號(hào):R736.1G35單位代碼:10159密級(jí):公開學(xué)號(hào):201521222碩士學(xué)位論文中文題目:基于隨機(jī)森林構(gòu)建濾泡型甲狀腺癌遠(yuǎn)處轉(zhuǎn)移預(yù)測(cè)模型英文題目:Developmentofapredictivemodelofdistantmetastasisoffollicularthyroidcarcinomabasedonrandomforest論文作者:紀(jì)宇楠指導(dǎo)教師:趙玉虹教授學(xué)科專業(yè):情報(bào)學(xué)完成時(shí)間:2018年3月中國醫(yī)科大學(xué)碩士學(xué)位論文中國醫(yī)科大學(xué)碩士學(xué)位論文基于隨機(jī)森林構(gòu)建濾泡型甲狀腺癌遠(yuǎn)處轉(zhuǎn)移預(yù)測(cè)模型Developmento
2、fapredictivemodelofdistantmetastasisoffollicularthyroidcarcinomabasedonrandomforest論文作者紀(jì)宇楠指導(dǎo)教師趙玉虹教授申請(qǐng)學(xué)位管理學(xué)碩士培養(yǎng)單位醫(yī)學(xué)信息學(xué)院一級(jí)學(xué)科圖書情報(bào)與檔案管理二級(jí)學(xué)科情報(bào)學(xué)研究方向臨床決策(腫瘤學(xué))論文起止時(shí)間2017年5月—2018年3月論文完成時(shí)間2018年3月中國醫(yī)科大學(xué)(遼寧)2018年3月中國醫(yī)科大學(xué)碩士學(xué)位論文中國醫(yī)科大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明本人鄭重聲明:本論文是我個(gè)人在導(dǎo)師指導(dǎo)下獨(dú)立進(jìn)行的研究工作及取得的研究成果,論文中除
3、加以標(biāo)注的內(nèi)容外,不包含其他人或機(jī)構(gòu)已經(jīng)發(fā)表或撰寫過的研究成果,也不包含本人為獲得其他學(xué)位而使用過的成果。對(duì)本研究提供貢獻(xiàn)的其他個(gè)人和集體均已在文中進(jìn)行了明確的說明并表示謝意。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。論文作者簽名:日期:中國醫(yī)科大學(xué)學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交學(xué)位論文的原件、復(fù)印件和電子版,允許學(xué)位論文被查閱和借閱。本人授權(quán)中國醫(yī)科大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯
4、編學(xué)位論文。保密(),在年后解密適用本授權(quán)書。(保密:請(qǐng)?jiān)诶ㄌ?hào)內(nèi)劃“√”)論文作者簽名:指導(dǎo)教師簽名:日期:日期:中國醫(yī)科大學(xué)碩士學(xué)位論文摘要目的:隨著影像學(xué)診斷技術(shù)的精準(zhǔn),甲狀腺癌發(fā)病率逐年增加,其發(fā)病率為15.0/10萬人。甲狀腺癌的預(yù)后較好,5-10年生存率達(dá)80-95%,然而發(fā)生遠(yuǎn)處轉(zhuǎn)移的患者生存率降到40%左右。目前甲狀腺癌的預(yù)后研究較少,研究者對(duì)于遠(yuǎn)處轉(zhuǎn)移影響預(yù)后狀況的關(guān)注度不高。由于甲狀腺癌發(fā)病率高、發(fā)生遠(yuǎn)處轉(zhuǎn)移的患者預(yù)后差的特點(diǎn),本研究選擇易發(fā)生遠(yuǎn)處轉(zhuǎn)移的濾泡型甲狀腺癌(FollicularthyroidCarcinom
5、a,F(xiàn)TC)患者為研究對(duì)象,從SEER數(shù)據(jù)庫中獲取其預(yù)后數(shù)據(jù),應(yīng)用隨機(jī)森林算法構(gòu)建濾泡型甲狀腺癌遠(yuǎn)處轉(zhuǎn)移預(yù)測(cè)模型,輔助臨床醫(yī)生診斷,改善遠(yuǎn)處轉(zhuǎn)移患者預(yù)后生存狀況。方法:通過SEER數(shù)據(jù)庫提供的SEER*Stat軟件提取2004-2014年間的濾泡型甲狀腺癌患者預(yù)后數(shù)據(jù)。綜合參考NCCN指南、AJCC指南、SEER使用指南、CS腫瘤信息采集系統(tǒng)和已有文獻(xiàn),初步篩選出預(yù)后相關(guān)研究變量,包括社會(huì)人口特征:性別、確診年齡、種族、婚姻狀況、居住區(qū)域;腫瘤特征:腫瘤大小、患病時(shí)長、組織學(xué)類型、原位手術(shù)、淋巴結(jié)手術(shù)、腫瘤浸潤程度、區(qū)域淋巴結(jié)轉(zhuǎn)移和多灶
6、性。結(jié)局變量為是否發(fā)生遠(yuǎn)處轉(zhuǎn)移。通過刪除缺失值、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)離散化對(duì)數(shù)據(jù)集進(jìn)行初步處理后,按照約7:3的比例劃分為訓(xùn)練集和測(cè)試集。利用SMOTE技術(shù)將訓(xùn)練集調(diào)整為平衡數(shù)據(jù)集?;谛掠?xùn)練集應(yīng)用SPSS20.0選取單因素分析和logistic回歸的統(tǒng)計(jì)分析方法和應(yīng)用Rstudio的隨機(jī)森林變量重要性的機(jī)器學(xué)習(xí)方法篩選特征變量,而后基于新訓(xùn)練集以隨機(jī)森林算法構(gòu)建預(yù)測(cè)模型。利用測(cè)試集,評(píng)估預(yù)測(cè)模型效能并與決策樹、人工神經(jīng)網(wǎng)絡(luò)算法進(jìn)行比較,評(píng)價(jià)指標(biāo)有G-mean指數(shù)、特異度、靈敏度和ROC曲線下面積。結(jié)果:初步數(shù)據(jù)處理后的數(shù)據(jù)集中包含5278個(gè)
7、樣本,其中發(fā)生遠(yuǎn)處轉(zhuǎn)移的患者有203例占1/25是不平衡的數(shù)據(jù)集。經(jīng)過SMOTE技術(shù)調(diào)整的新訓(xùn)練集包含5616個(gè)樣本,陰陽性樣本數(shù)量基本達(dá)到平衡。特征變量篩選后的高相關(guān)變量有確診年齡、腫瘤的浸潤程度、腫瘤的大小、區(qū)域淋巴結(jié)轉(zhuǎn)移和組織學(xué)類型?;陔S機(jī)森林構(gòu)建的模型G-mean指數(shù)和ROC曲線下面積分別為0.767和0.837,優(yōu)于決策樹的0.367和0.565,也優(yōu)于人工神經(jīng)網(wǎng)絡(luò)的0.629和0.75。結(jié)論:本研究以濾泡型甲狀腺癌患者為研究對(duì)象,基于隨機(jī)森林算法構(gòu)建遠(yuǎn)I中國醫(yī)科大學(xué)碩士學(xué)位論文處轉(zhuǎn)移預(yù)測(cè)模型,G-mean指數(shù)和ROC曲線下
8、面積分別為0.767和0.837。通過SMOTE技術(shù)對(duì)不平衡訓(xùn)練集的調(diào)整,明顯提高了陽性樣本分類正確率。本研究應(yīng)用的SEER數(shù)據(jù)庫主要是隨訪數(shù)據(jù),在未來的研究中可以加入實(shí)驗(yàn)室檢查數(shù)據(jù)等變量,提升模型準(zhǔn)確度,