數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炄?數(shù)據(jù)挖掘).doc

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炄?數(shù)據(jù)挖掘).doc

ID:56104154

大?。?32.50 KB

頁數(shù):8頁

時間:2020-03-16

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炄?數(shù)據(jù)挖掘).doc_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炄?數(shù)據(jù)挖掘).doc_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炄?數(shù)據(jù)挖掘).doc_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炄?數(shù)據(jù)挖掘).doc_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炄?數(shù)據(jù)挖掘).doc_第5頁
資源描述:

《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炄?數(shù)據(jù)挖掘).doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、一、實(shí)驗內(nèi)容和目的目的:1.理解數(shù)據(jù)挖掘的基本概念及其過程;2.理解數(shù)據(jù)挖掘與數(shù)據(jù)倉庫、OLAP之間的關(guān)系3.理解基本的數(shù)據(jù)挖掘技術(shù)與方法的工作原理與過程,掌握數(shù)據(jù)挖掘相關(guān)工具的使用。內(nèi)容:將創(chuàng)建一個數(shù)據(jù)挖掘模型以訓(xùn)練銷售數(shù)據(jù),并使用“Microsoft決策樹”算法在客戶群中找出會員卡選擇模式。請將要挖掘的維度(事例維度)設(shè)置為客戶,再將Member_Card成員的屬性設(shè)置為數(shù)據(jù)挖掘算法識別模式時要使用的信息。然后選擇人口統(tǒng)計特征列表,算法將從中確定模式:婚姻狀況、年收入、在家子女?dāng)?shù)和教育程度。下一步需要訓(xùn)練模型

2、,以便能夠瀏覽樹視圖并從中讀取模式。市場部將根據(jù)這些模式設(shè)計新的會員卡,使其適應(yīng)申請各類會員卡的客戶類型。二、所用儀器、材料(設(shè)備名稱、型號、規(guī)格等)操作系統(tǒng)平臺:Windows7數(shù)據(jù)庫平臺:SQLServer2008SP2三、實(shí)驗原理知識發(fā)現(xiàn)被認(rèn)為是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程。數(shù)據(jù)挖掘被認(rèn)為是KDD過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式。KDD過程定義為:KDD是從數(shù)據(jù)集中識別出有效出、新穎的、潛在有用的,以及最終可理解的模式的高級處理過程。KDD過程可以概括為3部分:數(shù)據(jù)準(zhǔn)備(dataprep

3、aration),數(shù)據(jù)挖掘及結(jié)果的解釋和評估(interpretation&evaluation)。-8-數(shù)據(jù)挖掘的對象主要是關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫,這是典型的結(jié)構(gòu)化數(shù)據(jù)。隨著技術(shù)的發(fā)展,數(shù)據(jù)挖掘?qū)ο笾鸩綌U(kuò)大到半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),這主要是文本數(shù)據(jù)、圖像與視頻數(shù)據(jù)以及Web數(shù)據(jù)等。數(shù)據(jù)挖掘任務(wù)有6項:關(guān)聯(lián)分析、時序模式、聚類、分類、偏差檢測、預(yù)測。數(shù)據(jù)挖掘方法是由人工智能、機(jī)器學(xué)習(xí)的方法發(fā)展而來,結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法以及科學(xué)計算可視化技術(shù),以數(shù)據(jù)庫為研究對象,形成了數(shù)據(jù)挖掘方法和技術(shù)。數(shù)據(jù)挖掘方法

4、和技術(shù)可以分為6大類:1.歸納學(xué)習(xí)的信息論方法:ID3等方法(決策樹方法)、IBLE方法(決策規(guī)則樹方法)2.歸納學(xué)習(xí)的集合論方法:粗糙集(roughset)方法、關(guān)聯(lián)規(guī)則挖掘、覆蓋正例排斥反例方法、概念樹方法。3.仿生物技術(shù)的神經(jīng)網(wǎng)絡(luò)方法:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)4.仿生物技術(shù)的遺傳算法:繁殖(選擇)、交叉(重組)、變異(突變)5.?dāng)?shù)據(jù)數(shù)據(jù)的公式發(fā)現(xiàn):物理定律發(fā)現(xiàn)系統(tǒng)BACON、經(jīng)驗公式發(fā)現(xiàn)系統(tǒng)FDD6.可視化技術(shù):提取幾何圖元、繪制、顯示和演放四、實(shí)驗方法、步驟要求:利用實(shí)驗室和指導(dǎo)教師提供的實(shí)驗軟

5、件,認(rèn)真完成規(guī)定的實(shí)驗內(nèi)容,真實(shí)地記錄實(shí)驗中遇到的各種問題和解決的方法與過程,并根據(jù)實(shí)驗案例繪出多維數(shù)據(jù)組織模型及其OLAP操作過程。實(shí)驗完成后,應(yīng)根據(jù)實(shí)驗情況寫出實(shí)驗報告。五、實(shí)驗過程原始記錄(數(shù)據(jù)、圖表、計算等)本實(shí)驗使用MicrosoftSQLServer的數(shù)據(jù)挖掘工具,對一組電信運(yùn)營商的客戶數(shù)據(jù)進(jìn)行挖掘,分析客戶流失特征,以此來預(yù)測當(dāng)前可能流失的客戶,為企業(yè)營銷提供支持。u首先將待挖掘數(shù)據(jù)(存放于文本文件中)導(dǎo)入數(shù)據(jù)庫先在數(shù)據(jù)庫中建立數(shù)據(jù)表(若直接導(dǎo)入,相應(yīng)字段的數(shù)據(jù)類型不匹配,會影響挖掘效果)USE[D

6、W]GO-8-SETANSI_NULLSONGOSETQUOTED_IDENTIFIERONGOCREATETABLE[dbo].[大理PAS流失訓(xùn)練]([SERV_ID][float]NULL,--服務(wù)ID[CUST_ID][float]NULL,[ZWSC][float]NULL,--在網(wǎng)時長[BILLING_MODE_ID][float]NULL,[PAYMENT_METHOD][float]NULL,--付費(fèi)方式[ORG_ID][float]NULL,--地區(qū)ID[NEW_YXSX][float]NULL

7、,[ZWSC_DSC][nvarchar](255)NULL,[KB][nvarchar](255)NULL,--捆綁其他業(yè)務(wù)[AGE][nvarchar](255)NULL,--年齡[LX][nvarchar](255)NULL,--來電顯示[CL][nvarchar](255)NULL,--彩鈴[FEE_ALL][nvarchar](255)NULL,[YC][nvarchar](255)NULL,--預(yù)存[IS_LS][float]NULL--是否流失,0表示未流失,1表示流失)ON[PRIMARY]GO導(dǎo)

8、入待挖掘數(shù)據(jù)-8-u打開Microsoft的SQLServerBusinessIntelligenceDevelopmentStudio工具,在實(shí)驗二的OLAP項目中添加剛剛創(chuàng)建導(dǎo)入的數(shù)據(jù)表執(zhí)行挖掘算法,創(chuàng)建挖掘結(jié)構(gòu),并分析挖掘結(jié)果1.Microsoft決策樹-8--8-挖掘得到的決策樹:數(shù)據(jù)挖掘結(jié)果:命中率:覆蓋率:2.Microsoft神經(jīng)網(wǎng)絡(luò)-8-挖掘得到的模型:-

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。