資源描述:
《基于改進鄰域粗糙集和隨機森林算法的糖尿病預(yù)測研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、基于改進鄰域粗糙集和隨機森林算法的糖尿病預(yù)測研究培養(yǎng)單位:信息學院專業(yè)名稱:管理科學與工程作者姓名:胡瑋指導教師:高靜副教授ResearchonPredictionofDiabetesBasedonImprovedNeighbourhoodRoughSetandRandomForestAlgorithmCandidate:HuWeiSupervisor:Prof.GaoJingCapitalUniversityofEconomicsandBusiness,Beijing,China獨創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人
2、在指導教師指導下獨立進行研究工作所取得的成果,論文中有關(guān)資料和數(shù)據(jù)是實事求是的。盡我所知,除文中已經(jīng)加以標注和致謝外,本論文不包含其他人已經(jīng)發(fā)表或撰寫的研究成果,也不包含本人或他人為獲得首都經(jīng)濟貿(mào)易大學或其它教育機構(gòu)的學位或?qū)W歷證書而使用過的材料。與我一同工作的同志對研究所做的任何貢獻均已在論文中作出了明確的說明。若有不實之處,本人愿意承擔相關(guān)法律責任。學位論文作者簽名:日期:年月日關(guān)于論文使用授權(quán)的說明本人完全同意首都經(jīng)濟貿(mào)易大學有權(quán)使用本學位論文(包括但不限于其印刷版和電子版),使用方式包括但不限于:保留學位論文,按規(guī)
3、定向國家有關(guān)部門(機構(gòu))送交學位論文,以學術(shù)交流為目的贈送和交換學位論文,允許學位論文被查閱、借閱和復印,將學位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,采用影印、縮印或其他復制手段保存學位論文。保密學位論文在解密后的使用授權(quán)同上。學位論文作者簽名:日期:年月日指導教師簽名:日期:年月日摘要糖尿病已成為全球危害性較大的慢性疾病之一,而中國更是全球糖尿病第一大國,近年來患病率還呈現(xiàn)出逐年增高的趨勢,嚴重影響人類健康。并且隨著醫(yī)療服務(wù)水平的不斷提高,人們對醫(yī)療診斷效率以及準確率有了更高的要求。目前該疾病的診斷主要是在化驗的基
4、礎(chǔ)上由醫(yī)生人工診斷完成,但是糖尿病的潛伏期較長,而且各地區(qū)醫(yī)療資源不協(xié)調(diào)。針對以上這些問題,論文采集了國家人口與健康科學數(shù)據(jù)共享服務(wù)平臺某醫(yī)院糖尿病數(shù)據(jù),并針對鄰域粗糙集的只依賴單屬性計算重要度的不足,提出了改進的鄰域粗糙集(INRS)屬性約簡算法,后將其與隨機森林(RF)組成分類預(yù)測模型應(yīng)用在糖尿病數(shù)據(jù)上,形成了高精度的糖尿病預(yù)測模型,旨為醫(yī)生臨床診斷和疾病研究等提供輔助支持,提高臨床診斷治療水平。本文分別使用MATLAB和WEKA實現(xiàn)糖尿病數(shù)據(jù)的改進的鄰域粗糙集(INRS)屬性約簡和隨機森林(RF)分類預(yù)測。后面為探討
5、該組合模型的成效,分別從屬性約簡和分類器選擇兩個方面進行了對比分析。首先從屬性約簡效果分析,分別以不約簡、粗糙集約簡、鄰域粗糙集約簡和改進的鄰域粗糙集算法建立特征模型,并將約簡后的數(shù)據(jù)使用隨機森林分類器評估效果,發(fā)現(xiàn)約簡后的數(shù)據(jù)明顯比不約簡好,分類更準確,而改進后的鄰域粗糙集雖然屬性個數(shù)比未改進的多,但分類準確率最優(yōu),說明改進算法有改善。然后從分類器選擇效果分析,對INRS約簡后的數(shù)據(jù)使用隨機森林算法、BP算法、C4.5算法及NaiveByes算法分類器從建模耗時、誤差、分類準確率、ROC面積四個方面進行對比分析,發(fā)現(xiàn)綜合
6、效果最優(yōu)的是隨機森林分類器。綜上,本論文中的基于改進的鄰域粗糙集和隨機森林的組合模型得到的糖尿病預(yù)測模型的分類準確率達到92.05%,其綜合效果甚佳。通過本次研究希望后續(xù)可以將糖尿病預(yù)測功能添加到醫(yī)院的診療系統(tǒng)中,進而輔助醫(yī)生對糖尿病診斷做出科學的診斷決策。關(guān)鍵詞:改進的鄰域粗糙集;隨機森林;糖尿病IAbstractDiabeteshasbecomeoneofthemostharmfulchronicdiseasesintheworld,andChinaistheworld'slargestdiabetescountry.
7、Inrecentyears,theprevalenceratehasalsoincreasedyearbyyear,whichseriouslyaffectshumanhealth.Andwiththecontinuousimprovementofthelevelofmedicalservices,peoplehavehigherrequirementsformedicaldiagnosisefficiencyandaccuracy.Atpresent,thediagnosisofthediseaseismainlybas
8、edonlaboratorytestsperformedbyadoctor.However,theincubationperiodofdiabetesislonger,andthemedicalresourcesindifferentregionsareinconsistent.Inresponseto