l數(shù)據(jù)挖掘工具對比報(bào)告

l數(shù)據(jù)挖掘工具對比報(bào)告

ID:22423410

大小:1.12 MB

頁數(shù):17頁

時(shí)間:2018-10-29

l數(shù)據(jù)挖掘工具對比報(bào)告_第1頁
l數(shù)據(jù)挖掘工具對比報(bào)告_第2頁
l數(shù)據(jù)挖掘工具對比報(bào)告_第3頁
l數(shù)據(jù)挖掘工具對比報(bào)告_第4頁
l數(shù)據(jù)挖掘工具對比報(bào)告_第5頁
資源描述:

《l數(shù)據(jù)挖掘工具對比報(bào)告》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫

1、數(shù)據(jù)挖掘工具運(yùn)用對比報(bào)告學(xué)生姓名:指導(dǎo)老師:馮霞學(xué)院名稱:計(jì)算機(jī)學(xué)院專業(yè)名稱:計(jì)算機(jī)科學(xué)與技術(shù)中國民航大學(xué)2012年11月17日數(shù)據(jù)挖掘工具Knime與Weka的運(yùn)用與比較摘要數(shù)據(jù)挖掘(DataMining)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase),是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題。所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,能夠高度自動化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在模

2、式,幫助決策者調(diào)整市場策略,減少風(fēng)險(xiǎn),做出正確的決策。在現(xiàn)代社會,無論是商業(yè)決策,還是信息管理,甚至國家大事如美國總統(tǒng)選舉,數(shù)據(jù)挖掘都占有非常重要的地位。因此,作為一名計(jì)算機(jī)學(xué)科的研究生,熟練使用數(shù)據(jù)挖掘工具是必要的?,F(xiàn)在主流五種數(shù)據(jù)挖掘軟件為:weka、orange、rapidminer、jhepwork、rattle、knime而且這些軟件都是開源的,可以供使用者根據(jù)自己的需要開發(fā)或者改進(jìn)。本文將以weka和knime為例,介紹兩種軟件的運(yùn)用以及比較。關(guān)鍵詞:數(shù)據(jù)挖掘工、weka、knime、運(yùn)用、比較一、Weka簡介:WEKA的全名是WaikatoEnvironment

3、forKnowledgeAnalysis,同時(shí)weka也是新西蘭的一種鳥名,而WEKA的主要開發(fā)者來自新西蘭。它是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。作為一個(gè)大眾化的數(shù)據(jù)挖掘工作平臺,WEKA集成了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類關(guān)聯(lián)分析以及在新的交互式界面上的可視化等等。通過其接口,可在其基礎(chǔ)上實(shí)現(xiàn)自己的數(shù)據(jù)挖掘算法。WEKA的打開界面:數(shù)據(jù)格式:WEKA所用的數(shù)據(jù)格式在形式上與Excel類似。打開Explorer界面,點(diǎn)Openfile選擇weka自帶數(shù)據(jù)weather.nominal.arff進(jìn)行分析,是離散好weather數(shù)據(jù)。打

4、開數(shù)據(jù)如下所示:WEKA存儲數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。表格里的一個(gè)橫行稱作一個(gè)實(shí)例(Instance),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)樣本,或者數(shù)據(jù)庫中的一條記錄。豎行稱作一個(gè)屬性(Attribute),相當(dāng)于統(tǒng)計(jì)學(xué)中的一個(gè)變量,或者數(shù)據(jù)庫中的一個(gè)字段。這樣一個(gè)表格或者叫作數(shù)據(jù)集,在WEKA看來,呈現(xiàn)了屬性之間的一種關(guān)系(Relation)。上圖中一共有14個(gè)實(shí)例,5個(gè)屬性,關(guān)系名稱為“weather”。整個(gè)ARFF文件可以分為兩個(gè)部分。第一部分是頭信息,包括對關(guān)系的聲明和對屬性的聲明;第二部分是數(shù)

5、據(jù)信息。WEKA支持的有四種:Numeric數(shù)值型標(biāo)稱型String字符串型date[]日期和時(shí)間型WEKA的使用:1、“Explorer”界面使用WEKA作數(shù)據(jù)挖掘,面臨的第一個(gè)問題往往是我們的數(shù)據(jù)不是ARFF格式的。幸好,WEKA還提供了對CSV文件的支持,而這種格式是被很多其他軟件,比如Excel,所支持的?,F(xiàn)在我們打開“bank-data.csv”。利用WEKA可以將CSV文件格式轉(zhuǎn)化成ARFF文件格式。ARFF格式是WEKA支持得最好的文件格式。此外,WEKA還提供了通過JD

6、BC訪問數(shù)據(jù)庫的功能“Explorer”界面提供了很多功能,是WEKA使用最多的模塊。現(xiàn)在我們先來熟悉它的界面,然后利用它對數(shù)據(jù)進(jìn)行預(yù)處理。界面如下如所示:876543211上圖顯示的是“Explorer”打開“weather.nominal.arff”的情況。我們根據(jù)不同的功能把這個(gè)界面分成8個(gè)區(qū)域。1.區(qū)域1的幾個(gè)選項(xiàng)卡是用來切換不同的挖掘任務(wù)面板。2.區(qū)域2是一些常用按鈕。包括打開數(shù)據(jù),保存及編輯功能。3.在區(qū)域3中“Choose”某個(gè)“Filter”,可以實(shí)現(xiàn)篩選數(shù)據(jù)或者對數(shù)據(jù)進(jìn)行某種變換。數(shù)據(jù)預(yù)處理主要就利用它來實(shí)現(xiàn)。4.區(qū)域4展示了數(shù)據(jù)集的一些基本情況。5.區(qū)域5

7、中列出了數(shù)據(jù)集的所有屬性。勾選一些屬性并“Remove”就可以刪除它們,刪除后還可以利用區(qū)域2的“Undo”按鈕找回。區(qū)域5上方的一排按鈕是用來實(shí)現(xiàn)快速勾選的。在區(qū)域5中選中某個(gè)屬性,則區(qū)域6中有關(guān)于這個(gè)屬性的摘要。注意對于數(shù)值屬性和標(biāo)稱屬性,摘要的方式是不一樣的。6.區(qū)域7是區(qū)域5中選中屬性的直方圖。若數(shù)據(jù)集的某個(gè)屬性是目標(biāo)變量,直方圖中的每個(gè)長方形就會按照該變量的比例分成不同顏色的段。默認(rèn)地,分類或回歸任務(wù)的默認(rèn)目標(biāo)變量是數(shù)據(jù)集的最后一個(gè)屬性(這里的“play”正好是)。要想換個(gè)分段的依據(jù),即目標(biāo)變

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。