資源描述:
《《weka操作介紹》PPT課件.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、WEKA操作介紹命令環(huán)境算法實(shí)驗(yàn)環(huán)境知識流環(huán)境在KnowledgeFlow窗口頂部有八個標(biāo)簽:DataSources--數(shù)據(jù)載入器DataSinks--數(shù)據(jù)保存器Filters--篩選器Classifiers--分類器Clusterers--聚類器Associations—關(guān)聯(lián)器Evaluation—評估器Visualization—可視化325416781.區(qū)域1的幾個選項(xiàng)卡是用來切換不同的挖掘任務(wù)面板。Preprocess(數(shù)據(jù)預(yù)處理)Classify(分類)Cluster(聚類)Associate(關(guān)聯(lián)分析)SelectAtt
2、ributes(選擇屬性)Visualize(可視化)2.區(qū)域2是一些常用按鈕。包括打開數(shù)據(jù),保存及編輯功能。我們可以在這里把“bank-data.csv”,另存為“bank-data.arff”3.在區(qū)域3中“Choose”某個“Filter”,可以實(shí)現(xiàn)篩選數(shù)據(jù)或者對數(shù)據(jù)進(jìn)行某種變換。數(shù)據(jù)預(yù)處理主要就利用它來實(shí)現(xiàn)。對取值較多的數(shù)值型屬性,離散化可借助WEKA中名為“Discretize”的Filter來完成。4.區(qū)域4展示了數(shù)據(jù)集的一些基本情況。5.區(qū)域5中列出了數(shù)據(jù)集的所有屬性。勾選一些屬性并“Remove”就可以刪除它們,刪除
3、后還可以利用區(qū)域2的“Undo”按鈕找回。區(qū)域5上方的一排按鈕是用來實(shí)現(xiàn)快速勾選的。在區(qū)域5中選中某個屬性,則區(qū)域6中有關(guān)于這個屬性的摘要。注意對于數(shù)值屬性和標(biāo)稱屬性,摘要的方式是不一樣的。6.區(qū)域7是區(qū)域5中選中屬性的直方圖。若數(shù)據(jù)集的某個屬性是目標(biāo)變量,直方圖中的每個長方形就會按照該變量的比例分成不同顏色的段。默認(rèn)地,分類或回歸任務(wù)的默認(rèn)目標(biāo)變量是數(shù)據(jù)集的最后一個屬性。要想換個分段的依據(jù),即目標(biāo)變量,在區(qū)域7上方的下拉框中選個不同的分類屬性就可以了。下拉框里選上“NoClass”或者一個數(shù)值屬性會變成黑白的直方圖。屬性名(Nam
4、e)、屬性類型(Type)、缺失值(Missing)數(shù)及比例、不同值(Distinct)數(shù)、唯一值(Unique)數(shù)及比例對于數(shù)值屬性和標(biāo)稱屬性,摘要的方式是不一樣的。數(shù)值屬性顯示最小值(Minimum)、最大值(Maximum)、均值(Mean)和標(biāo)準(zhǔn)差(StdDev)7.區(qū)域8是狀態(tài)欄,可以查看Log以判斷是否有錯。右邊的weka鳥在動的話說明WEKA正在執(zhí)行挖掘任務(wù)。右鍵點(diǎn)擊狀態(tài)欄還可以執(zhí)行JAVA內(nèi)存的垃圾回收。Usingtrainingset使用訓(xùn)練集評估Suppliedtestset使用測試集評估Cross-valida
5、tion交叉驗(yàn)證設(shè)置折數(shù)FoldsPercentagesplit保持方法。使用一定比例的訓(xùn)練實(shí)例作評估設(shè)置訓(xùn)練實(shí)例的百分比ClassifyRuninformation運(yùn)行信息Summary針對訓(xùn)練/檢驗(yàn)集的預(yù)測效果匯總(平均絕對誤差等等)DetailedAccuracyByClass對每個類的預(yù)測準(zhǔn)確度的詳細(xì)描述。ConfusionMatrix混淆矩陣,其中矩陣的行是實(shí)際的類,矩陣的列是預(yù)測得到的類,矩陣元素就是相應(yīng)測試樣本的個數(shù)主要算法包括:SimpleKMeans—支持分類屬性的K均值算法DBScan—支持分類屬性的基于密度的算
6、法EM—基于混合模型的聚類算法FathestFirst—K中心點(diǎn)算法OPTICS—基于密度的另一個算法Cobweb—概念聚類算法sIB—基于信息論的聚類算法,不支持分類屬性XMeans—能自動確定簇個數(shù)的擴(kuò)展K均值算法,不支持分類屬性Cluster右擊左側(cè)欄resultlist,點(diǎn)“Visualizeclusterassignments”。彈出的窗口給出了各實(shí)例的散點(diǎn)圖。ClusterAssociate設(shè)置參數(shù)car:如果設(shè)為真,則會挖掘類關(guān)聯(lián)規(guī)則而不是全局關(guān)聯(lián)規(guī)則。classindex:類屬性索引。如果設(shè)置為-1,最后的屬性被當(dāng)做
7、類屬性。delta:以此數(shù)值為迭代遞減單位。不斷減小支持度直至達(dá)到最小支持度或產(chǎn)生了滿足數(shù)量要求的規(guī)則。lowerBoundMinSupport:最小支持度下界。metricType:度量類型,設(shè)置對規(guī)則進(jìn)行排序的度量依據(jù)??梢允牵褐眯哦龋愱P(guān)聯(lián)規(guī)則只能用置信度挖掘),提升度(lift),平衡度(leverage),確信度(conviction)。minMtric:度量的最小值。numRules:要發(fā)現(xiàn)的規(guī)則數(shù)。outputItemSets:如果設(shè)置為真,會在結(jié)果中輸出項(xiàng)集。removeAllMissingCols:移除全部為缺失值
8、的列。significanceLevel:重要程度。重要性測試(僅用于置信度)。upperBoundMinSupport:最小支持度上界。從這個值開始迭代減小最小支持度。verbose:如果設(shè)置為真,則算法會以冗余模式運(yùn)行。關(guān)聯(lián)運(yùn)行結(jié)