資源描述:
《l數據挖掘工具對比報告》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、數據挖掘工具運用對比報告學生姓名:指導老師:馮霞學院名稱:計算機學院專業(yè)名稱:計算機科學與技術中國民航大學2012年11月17日15數據挖掘工具Knime與Weka的運用與比較摘要數據挖掘(DataMining)又稱數據庫中的知識發(fā)現(KnowledgeDiscoverinDatabase),是目前人工智能和數據庫領域研究的熱點問題。所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數據庫、可視化技術等,能夠高度自動化地分析數據,做
2、出歸納性的推理,從中挖掘出潛在模式,幫助決策者調整市場策略,減少風險,做出正確的決策。在現代社會,無論是商業(yè)決策,還是信息管理,甚至國家大事如美國總統(tǒng)選舉,數據挖掘都占有非常重要的地位。因此,作為一名計算機學科的研究生,熟練使用數據挖掘工具是必要的。現在主流五種數據挖掘軟件為:weka、orange、rapidminer、jhepwork、rattle、knime而且這些軟件都是開源的,可以供使用者根據自己的需要開發(fā)或者改進。本文將以weka和knime為例,介紹兩種軟件的運用以及比較。關鍵詞:數據挖掘工、weka、knime、運用、比較15一、W
3、eka簡介:WEKA的全名是WaikatoEnvironmentforKnowledgeAnalysis,同時weka也是新西蘭的一種鳥名,而WEKA的主要開發(fā)者來自新西蘭。它是現今最完備的數據挖掘工具之一。作為一個大眾化的數據挖掘工作平臺,WEKA集成了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理、分類、回歸、聚類關聯分析以及在新的交互式界面上的可視化等等。通過其接口,可在其基礎上實現自己的數據挖掘算法。WEKA的打開界面:數據格式:WEKA所用的數據格式在形式上與Excel類似。打開Explorer界面,點Openfile選擇we
4、ka自帶數據weather.nominal.arff進行分析,是離散好weather數據。打開數據如下所示:15WEKA存儲數據的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。表格里的一個橫行稱作一個實例(Instance),相當于統(tǒng)計學中的一個樣本,或者數據庫中的一條記錄。豎行稱作一個屬性(Attribute),相當于統(tǒng)計學中的一個變量,或者數據庫中的一個字段。這樣一個表格或者叫作數據集,在WEKA看來,呈現了屬性之間的一種關系(Relation)。上圖中一共有14個實例,5個屬性,關
5、系名稱為“weather”。整個ARFF文件可以分為兩個部分。第一部分是頭信息,包括對關系的聲明和對屬性的聲明;第二部分是數據信息。WEKA支持的有四種:Numeric數值型標稱型String字符串型date[]日期和時間型WEKA的使用:1、“Explorer”界面使用WEKA作數據挖掘,面臨的第一個問題往往是我們的數據不是ARFF格式的。幸好,WEKA還提供了對CSV文件的支持,而這種格式是被很多其15他軟件,比如Excel,所支持的?,F在我們打開“ba
6、nk-data.csv”。利用WEKA可以將CSV文件格式轉化成ARFF文件格式。ARFF格式是WEKA支持得最好的文件格式。此外,WEKA還提供了通過JDBC訪問數據庫的功能“Explorer”界面提供了很多功能,是WEKA使用最多的模塊?,F在我們先來熟悉它的界面,然后利用它對數據進行預處理。界面如下如所示:876543211上圖顯示的是“Explorer”打開“weather.nominal.arff”的情況。我們根據不同的功能把這個界面分成8個區(qū)域。1.區(qū)域1的幾個選項卡是用來切換不同的挖掘任務面板。2.區(qū)域2是一些常用按鈕。包括打開數據,保
7、存及編輯功能。3.在區(qū)域3中“Choose”某個“Filter”,可以實現篩選數據或者對數據進行某種變換。數據預處理主要就利用它來實現。4.區(qū)域4展示了數據集的一些基本情況。5.區(qū)域5中列出了數據集的所有屬性。勾選一些屬性并“Remove”就可以刪除它們,刪除后還可以利用區(qū)域2的“Undo”按鈕找回。區(qū)域5上方的一15排按鈕是用來實現快速勾選的。在區(qū)域5中選中某個屬性,則區(qū)域6中有關于這個屬性的摘要。注意對于數值屬性和標稱屬性,摘要的方式是不一樣的。6.區(qū)域7是區(qū)域5中選中屬性的直方圖。若數據集的某個屬性是目標變量,直方圖中的每個長方形就會按照該變
8、量的比例分成不同顏色的段。默認地,分類或回歸任務的默認目標變量是數據集的最后一個屬性(這里的“play”正好是)。要想換個