資源描述:
《基于決策樹id3算法的數(shù)據(jù)挖掘技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、桂林工學(xué)院頌士學(xué)位論文基于決策樹ID3算法的數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用桂林工學(xué)院頌士學(xué)位論文桂林工學(xué)院頌士學(xué)位論文摘要決策樹方法是數(shù)據(jù)挖掘的重要方法,通常用來形成分類器和預(yù)測模型。決策樹方法包含多種不同的算法,其中1D3算法是決策樹方法的典型代表,是決策樹生成最常用的具體實現(xiàn)方法,它利用信息論中的信息增益尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個結(jié)點,再根據(jù)該屬性字段的不同取值建立樹的分枝,在每個分枝集中重復(fù)建立樹的下一個結(jié)點和分枝。通過這種方式,可以保證決策樹具有最小的分枝數(shù)量,使得到的決策樹冗余最
2、小。但是,目前的ID3算法存在著偏向于選擇屬性取值較多的屬性,而實際中屬性值較多的屬性卻不總是最優(yōu)的屬性。多值偏向可能導(dǎo)致從數(shù)據(jù)集中歸納出錯誤的規(guī)則,使決策樹的性能下降,因此測試屬性的選擇問題成為ID3算法的一個關(guān)鍵問題。針對上述問題,本文提出了一種避免了多值偏向問題的ID3改進算法——NewDtree算法。該算法是以屬性相似度的理論框架為基礎(chǔ),通過計算條件屬性和決策屬性的相似度,然后把相似度的大小作為測試屬性的選擇標準。本文應(yīng)用理論分析方法對NewDtree算法不存在多值偏向問題進行了證明,通過對NewDt
3、ree算法在UniversityofCalifornia,Irvine(UCI)機器學(xué)習(xí)數(shù)據(jù)集中的2個標準數(shù)據(jù)集訓(xùn)練得出的決策樹進行分析,NewDtree算法能有效的提高分類的正確率,彌補了ID3算法選擇測試屬性時偏向取值較多的不足。最后,為了證明NewDtree算法的實用性,本文將NewDtree算法應(yīng)用于以高校就業(yè)分析為主題的數(shù)據(jù)挖掘系統(tǒng)中,以實現(xiàn)對高校就業(yè)數(shù)據(jù)的分類,建立挖掘模型,進而給該?,F(xiàn)在的管理決策者提供決策支持。該系統(tǒng)實現(xiàn)的關(guān)鍵技術(shù)在于構(gòu)建決策樹時測試屬性的選擇計算,以及決策規(guī)則的存取這兩個問題
4、。通過實驗證明:該算法生成的決策樹提取的決策規(guī)則較ID3算法有效,分類結(jié)果與實際基本相符,極大地提高了系統(tǒng)的工作效率。關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;ID3;屬性相似度AbstractDecisionTreeisoneoftheimportantmethodsindatamining,whichisgenerallyusedtoformclassificationandpredictionmodel.DecisionTreeincludesmanydifferentalgorithms,amongwhichIDSi
5、satypical.ID3isthemostpopularwaytogenerateadecisiontree.Accordingtotheinformationgainininformationtheory,itsearchesthedatabase,findstheattributefieldwiththemostamountofinformation,constructsanodeinthedecisiontree,establishesthesub-branchofthetreeaccordingto
6、thedifferentvalueoftheattributefieldandfocusesoneachnodeandbranchrepeatedly.Bythisway,minimumnumberofbranches,andthenleastredundancy,canbeensured.However,thecurrentIDSalgorithmintendstoselectthoseattributeswithhigherfrequencies,whichinpractice桂林工學(xué)院頌士學(xué)位論文are
7、notthebestattribute,Multivalxiebiosmayconcludewrongrulefromintensivedata,andcausedeclinetheperformanceofdecisiontree.Forthesereasons,theselectionoftestingattributeshasbecomeoneofthekeyproblemsinID3algorithm.Accordingtoaboveproblem,anID3improvedalgorithm,New
8、Dtree,hasbeenbroughtforwardindiepaperwhichsolvingthemultivaluebios.ThisalgorithmisbasedontheAttributeSimilaritytheory,computingsimilaritybetweentheconditionalattributeanddecisionattributeandusingthesim