資源描述:
《SPSS_Clementine_數(shù)據(jù)挖掘入門》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、SPSSClementine目錄SPSSClementine數(shù)據(jù)挖掘入門(1)2客戶端基本界面3項(xiàng)目區(qū)3工具欄3源工具(Sources)3記錄操作(RecordOps)和字段操作(FieldOps)4圖形(Graphs)4輸出(Output)4模型(Model)4數(shù)據(jù)流設(shè)計(jì)區(qū)4管理區(qū)5Outputs5Models5SPSSClementine數(shù)據(jù)挖掘入門(2)61.定義數(shù)據(jù)源62.理解數(shù)據(jù)83.準(zhǔn)備數(shù)據(jù)94.建模135.模型評估146.部署模型15SPSSClementine數(shù)據(jù)挖掘入門(3)17分類20決策樹20Na?veBayes23神經(jīng)網(wǎng)絡(luò)24回歸26聚類
2、27序列聚類30關(guān)聯(lián)3131SPSSClementineSPSSClementine數(shù)據(jù)挖掘入門(1) SPSSClementine是Spss公司收購ISL獲得的數(shù)據(jù)挖掘工具。在Gartner的客戶數(shù)據(jù)挖掘工具評估中,僅有兩家廠商被列為領(lǐng)導(dǎo)者:SAS和SPSS。SAS獲得了最高abilitytoexecute評分,代表著SAS在市場執(zhí)行、推廣、認(rèn)知方面有最佳表現(xiàn);而SPSS獲得了最高的completenessofvision,表明SPSS在技術(shù)創(chuàng)新方面遙遙領(lǐng)先?! ?31SPSSClementine 客戶端基本界面 SPSSClementine(在此簡稱c
3、lementine)在安裝好后會(huì)自動(dòng)啟用服務(wù),服務(wù)端的管理需要使用SPSSPredictiveEnterpriseManager,在服務(wù)端clementine沒有復(fù)雜的管理工具,一般的數(shù)據(jù)挖掘人員通過客戶端完成所有工作。下面就是clementine客戶端的界面?! ? 一看到上面這個(gè)界面,我相信只要是使用過SSIS+SSAS部署數(shù)據(jù)挖掘模型的,應(yīng)該已經(jīng)明白了六、七分。是否以躍躍欲試了呢,別急,精彩的還在后面^_’ 項(xiàng)目區(qū) 顧名思義,是對項(xiàng)目的管理,提供了兩種視圖。其中CRISP-DM(CrossIndustryStandardProcessforDataM
4、ining,數(shù)據(jù)挖掘跨行業(yè)標(biāo)準(zhǔn)流程)是由SPSS、DaimlerChrysler(戴姆勒克萊斯勒,汽車公司)、NCR(就是那個(gè)擁有Teradata的公司)共同提出的。Clementine里通過組織CRISP-DM的六個(gè)步驟完成項(xiàng)目。在項(xiàng)目中可以加入流、節(jié)點(diǎn)、輸出、模型等?! 」ぞ邫凇 」ぞ邫诳偘薊TL、數(shù)據(jù)分析、挖掘模型工具,工具可以加入到數(shù)據(jù)流設(shè)計(jì)區(qū)中,跟SSIS中的數(shù)據(jù)流非常相似。Clementine中有6類工具。 源工具(Sources) 相當(dāng)SSIS數(shù)據(jù)流中的源組件啦,clementine支持的數(shù)據(jù)源有數(shù)據(jù)庫、平面文件、Excel、維度數(shù)據(jù)、SA
5、S數(shù)據(jù)、用戶輸入等。31SPSSClementine 記錄操作(RecordOps)和字段操作(FieldOps) 相當(dāng)于SSIS數(shù)據(jù)流的轉(zhuǎn)換組件,RecordOps是對數(shù)據(jù)行轉(zhuǎn)換,F(xiàn)ieldOps是對列轉(zhuǎn)換,有些類型SSIS的異步輸出轉(zhuǎn)換和同步輸出轉(zhuǎn)換(關(guān)于SSIS異步和同步輸出的概念,詳見拙作:http://www.cnblogs.com/esestt/archive/2007/06/03/769411.html)?! D形(Graphs) 用于數(shù)據(jù)可視化分析?! ≥敵觯∣utput) Clementine的輸出不僅僅是ETL過程中的load過程,它
6、的輸出包括了對數(shù)據(jù)的統(tǒng)計(jì)分析報(bào)告輸出?! ? ※在ver11,Output中的ETL數(shù)據(jù)目的工具被分到了Export的工具欄中?! ∧P停∕odel) Clementine中包括了豐富的數(shù)據(jù)挖掘模型?! ? 數(shù)據(jù)流設(shè)計(jì)區(qū) 這個(gè)沒什么好說的,看圖就知道了,有向的箭頭指明了數(shù)據(jù)的流向。Clementine項(xiàng)目中可以有多個(gè)數(shù)據(jù)流設(shè)計(jì)區(qū),就像在PhotoShop中可以同時(shí)開啟多個(gè)設(shè)計(jì)圖一樣?! ”热缯f,我這里有兩個(gè)數(shù)據(jù)流:Stream1和Stream2。通過在管理區(qū)的Streams欄中點(diǎn)擊切換不同的數(shù)量流。31SPSSClementine ? 管理區(qū)
7、管理區(qū)包括Streams、Outputs、Models三欄。Streams上面已經(jīng)說過了,是管理數(shù)據(jù)流的。 Outputs 不要跟工具欄中的輸出搞混,這里的Outputs是圖形、輸出這類工具產(chǎn)生的分析結(jié)果。例如,下面的數(shù)據(jù)源連接到矩陣、數(shù)據(jù)審查、直方圖工具,在執(zhí)行數(shù)據(jù)流后,這個(gè)工具產(chǎn)生了三個(gè)輸出。在管理區(qū)的Outputs欄中雙擊這些輸出,可看到輸出的圖形或報(bào)表?! odels 經(jīng)過訓(xùn)練的模型會(huì)出現(xiàn)在這一欄中,這就像是真表(TruthTable)的概念那樣,訓(xùn)練過的模型可以加入的數(shù)據(jù)流中用于預(yù)測和打分。另外,模型還可以導(dǎo)出為支持PMML協(xié)議的XML文件
8、,但是PMML沒有給定所