SPSS_Clementine_數(shù)據(jù)挖掘入門

SPSS_Clementine_數(shù)據(jù)挖掘入門

ID:39468354

大?。?73.00 KB

頁數(shù):31頁

時(shí)間:2019-07-04

SPSS_Clementine_數(shù)據(jù)挖掘入門_第1頁
SPSS_Clementine_數(shù)據(jù)挖掘入門_第2頁
SPSS_Clementine_數(shù)據(jù)挖掘入門_第3頁
SPSS_Clementine_數(shù)據(jù)挖掘入門_第4頁
SPSS_Clementine_數(shù)據(jù)挖掘入門_第5頁
資源描述:

《SPSS_Clementine_數(shù)據(jù)挖掘入門》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、SPSSClementine目錄SPSSClementine數(shù)據(jù)挖掘入門(1)2客戶端基本界面3項(xiàng)目區(qū)3工具欄3源工具(Sources)3記錄操作(RecordOps)和字段操作(FieldOps)4圖形(Graphs)4輸出(Output)4模型(Model)4數(shù)據(jù)流設(shè)計(jì)區(qū)4管理區(qū)5Outputs5Models5SPSSClementine數(shù)據(jù)挖掘入門(2)61.定義數(shù)據(jù)源62.理解數(shù)據(jù)83.準(zhǔn)備數(shù)據(jù)94.建模135.模型評估146.部署模型15SPSSClementine數(shù)據(jù)挖掘入門(3)17分類20決策樹20Na?veBayes23神經(jīng)網(wǎng)絡(luò)24回歸26聚類

2、27序列聚類30關(guān)聯(lián)3131SPSSClementineSPSSClementine數(shù)據(jù)挖掘入門(1)  SPSSClementine是Spss公司收購ISL獲得的數(shù)據(jù)挖掘工具。在Gartner的客戶數(shù)據(jù)挖掘工具評估中,僅有兩家廠商被列為領(lǐng)導(dǎo)者:SAS和SPSS。SAS獲得了最高abilitytoexecute評分,代表著SAS在市場執(zhí)行、推廣、認(rèn)知方面有最佳表現(xiàn);而SPSS獲得了最高的completenessofvision,表明SPSS在技術(shù)創(chuàng)新方面遙遙領(lǐng)先?! ?31SPSSClementine  客戶端基本界面  SPSSClementine(在此簡稱c

3、lementine)在安裝好后會(huì)自動(dòng)啟用服務(wù),服務(wù)端的管理需要使用SPSSPredictiveEnterpriseManager,在服務(wù)端clementine沒有復(fù)雜的管理工具,一般的數(shù)據(jù)挖掘人員通過客戶端完成所有工作。下面就是clementine客戶端的界面?! ?  一看到上面這個(gè)界面,我相信只要是使用過SSIS+SSAS部署數(shù)據(jù)挖掘模型的,應(yīng)該已經(jīng)明白了六、七分。是否以躍躍欲試了呢,別急,精彩的還在后面^_’  項(xiàng)目區(qū)  顧名思義,是對項(xiàng)目的管理,提供了兩種視圖。其中CRISP-DM(CrossIndustryStandardProcessforDataM

4、ining,數(shù)據(jù)挖掘跨行業(yè)標(biāo)準(zhǔn)流程)是由SPSS、DaimlerChrysler(戴姆勒克萊斯勒,汽車公司)、NCR(就是那個(gè)擁有Teradata的公司)共同提出的。Clementine里通過組織CRISP-DM的六個(gè)步驟完成項(xiàng)目。在項(xiàng)目中可以加入流、節(jié)點(diǎn)、輸出、模型等?! 」ぞ邫凇 」ぞ邫诳偘薊TL、數(shù)據(jù)分析、挖掘模型工具,工具可以加入到數(shù)據(jù)流設(shè)計(jì)區(qū)中,跟SSIS中的數(shù)據(jù)流非常相似。Clementine中有6類工具。  源工具(Sources)  相當(dāng)SSIS數(shù)據(jù)流中的源組件啦,clementine支持的數(shù)據(jù)源有數(shù)據(jù)庫、平面文件、Excel、維度數(shù)據(jù)、SA

5、S數(shù)據(jù)、用戶輸入等。31SPSSClementine  記錄操作(RecordOps)和字段操作(FieldOps)  相當(dāng)于SSIS數(shù)據(jù)流的轉(zhuǎn)換組件,RecordOps是對數(shù)據(jù)行轉(zhuǎn)換,F(xiàn)ieldOps是對列轉(zhuǎn)換,有些類型SSIS的異步輸出轉(zhuǎn)換和同步輸出轉(zhuǎn)換(關(guān)于SSIS異步和同步輸出的概念,詳見拙作:http://www.cnblogs.com/esestt/archive/2007/06/03/769411.html)?! D形(Graphs)  用于數(shù)據(jù)可視化分析?! ≥敵觯∣utput)  Clementine的輸出不僅僅是ETL過程中的load過程,它

6、的輸出包括了對數(shù)據(jù)的統(tǒng)計(jì)分析報(bào)告輸出?! ?  ※在ver11,Output中的ETL數(shù)據(jù)目的工具被分到了Export的工具欄中?!   ∧P停∕odel)  Clementine中包括了豐富的數(shù)據(jù)挖掘模型?! ?  數(shù)據(jù)流設(shè)計(jì)區(qū)  這個(gè)沒什么好說的,看圖就知道了,有向的箭頭指明了數(shù)據(jù)的流向。Clementine項(xiàng)目中可以有多個(gè)數(shù)據(jù)流設(shè)計(jì)區(qū),就像在PhotoShop中可以同時(shí)開啟多個(gè)設(shè)計(jì)圖一樣?! ”热缯f,我這里有兩個(gè)數(shù)據(jù)流:Stream1和Stream2。通過在管理區(qū)的Streams欄中點(diǎn)擊切換不同的數(shù)量流。31SPSSClementine  ?  管理區(qū)  

7、管理區(qū)包括Streams、Outputs、Models三欄。Streams上面已經(jīng)說過了,是管理數(shù)據(jù)流的。  Outputs  不要跟工具欄中的輸出搞混,這里的Outputs是圖形、輸出這類工具產(chǎn)生的分析結(jié)果。例如,下面的數(shù)據(jù)源連接到矩陣、數(shù)據(jù)審查、直方圖工具,在執(zhí)行數(shù)據(jù)流后,這個(gè)工具產(chǎn)生了三個(gè)輸出。在管理區(qū)的Outputs欄中雙擊這些輸出,可看到輸出的圖形或報(bào)表?!   odels  經(jīng)過訓(xùn)練的模型會(huì)出現(xiàn)在這一欄中,這就像是真表(TruthTable)的概念那樣,訓(xùn)練過的模型可以加入的數(shù)據(jù)流中用于預(yù)測和打分。另外,模型還可以導(dǎo)出為支持PMML協(xié)議的XML文件

8、,但是PMML沒有給定所

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。