《序論數(shù)據(jù)挖掘》PPT課件

《序論數(shù)據(jù)挖掘》PPT課件

ID:36763618

大?。?45.60 KB

頁數(shù):38頁

時間:2019-05-10

《序論數(shù)據(jù)挖掘》PPT課件_第1頁
《序論數(shù)據(jù)挖掘》PPT課件_第2頁
《序論數(shù)據(jù)挖掘》PPT課件_第3頁
《序論數(shù)據(jù)挖掘》PPT課件_第4頁
《序論數(shù)據(jù)挖掘》PPT課件_第5頁
資源描述:

《《序論數(shù)據(jù)挖掘》PPT課件》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)主講教師:王玲教科書和參考書教科書數(shù)據(jù)挖掘:概念與技術(shù),JiaweiHan和MichelineKamber著,機(jī)械工業(yè)出版社(2001)參考書數(shù)據(jù)挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著,機(jī)械工業(yè)出版社(2003)DataMining:PracticalLearningToolsandTechniqueswithJavaImplementations作者:(新西蘭)IanH.Witten,EideFrank這本書是結(jié)合開源數(shù)據(jù)挖掘工具weka編寫,用java語言實現(xiàn),書中描述了怎么去開發(fā),怎么weka的基礎(chǔ)上進(jìn)行二次開

2、發(fā)。機(jī)器學(xué)習(xí)(英文版)作者:TomM.Mitchell中文版英文影印版數(shù)據(jù)挖掘的發(fā)展動力---需要是發(fā)明之母數(shù)據(jù)爆炸問題自動數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息解決方法:數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉庫(DataWarehouse)和在線分析處理(OLAP)數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(規(guī)則,規(guī)律,模式,約束)數(shù)據(jù)庫技術(shù)的演化(1)1960s和以前:文件系統(tǒng)1970s:層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫1980s早期:關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的實現(xiàn)數(shù)據(jù)庫技術(shù)的

3、演化(2)1980s晚期:各種高級數(shù)據(jù)庫系統(tǒng)(擴(kuò)展的關(guān)系數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫等等.)面向應(yīng)用的數(shù)據(jù)庫系統(tǒng)(空間數(shù)據(jù)庫,時序數(shù)據(jù)庫,多媒體數(shù)據(jù)庫等等)1990s:數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫2000s流數(shù)據(jù)管理和挖掘基于各種應(yīng)用的數(shù)據(jù)挖掘XML數(shù)據(jù)庫和整合的信息系統(tǒng)什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個精確的用詞)數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識挖掘(KDD)知識提煉、數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。并非所有的東西都是數(shù)據(jù)

4、挖掘基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個多學(xué)科的融合數(shù)據(jù)挖掘應(yīng)用的應(yīng)用領(lǐng)域市場分析和管理百貨公司、超市、銀行、電子商務(wù)風(fēng)險分析和管理電信、保險欺詐檢測和異常模式的監(jiān)測信用卡、警察機(jī)關(guān)、稅務(wù)部門其他應(yīng)用文本挖掘流數(shù)據(jù)挖掘DNA和生物數(shù)據(jù)分析數(shù)據(jù)挖掘應(yīng)用——市場分析和管理(1)數(shù)據(jù)從那里來?信用卡交易,會員卡,商家的優(yōu)惠卷,消費者投訴電話,公眾生活方式研究目標(biāo)市場構(gòu)建一系列的“客

5、戶群模型”,這些顧客具有相同特征:興趣愛好,收入水平,消費習(xí)慣,等等確定顧客的購買模式交叉市場分析貨物銷售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預(yù)測數(shù)據(jù)挖掘應(yīng)用——市場分析和管理(2)顧客分析哪類顧客購買那種商品(聚類分析或分類預(yù)測)客戶需求分析確定適合不同顧客的最佳商品預(yù)測何種因素能夠吸引新顧客提供概要信息多維度的綜合報告統(tǒng)計概要信息(數(shù)據(jù)的集中趨勢和變化)數(shù)據(jù)挖掘應(yīng)用——公司分析和風(fēng)險管理財務(wù)計劃現(xiàn)金流轉(zhuǎn)分析和預(yù)測交叉區(qū)域分析和時間序列分析(財務(wù)資金比率,趨勢分析等等)資源計劃總結(jié)和比較資源和花費競爭對競爭者和市場趨勢的監(jiān)控將顧客按等級分組和基于等級的定價過程將定價策略應(yīng)

6、用于競爭更激烈的市場中數(shù)據(jù)挖掘應(yīng)用——欺詐行為檢測和異常模式的發(fā)現(xiàn)方法:對欺騙行為進(jìn)行聚類和建模,并進(jìn)行孤立點分析應(yīng)用:衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等汽車保險:相撞事件的分析洗錢:發(fā)現(xiàn)可疑的貨幣交易行為醫(yī)療保險職業(yè)病人,醫(yī)生以及相關(guān)數(shù)據(jù)分析不必要的或相關(guān)的測試電信:電話呼叫欺騙行為電話呼叫模型:呼叫目的地,持續(xù)時間,日或周呼叫次數(shù).分析該模型發(fā)現(xiàn)與期待標(biāo)準(zhǔn)的偏差零售產(chǎn)業(yè)分析師估計有38%的零售額下降是由于雇員的不誠實行為造成的反恐怖主義其他應(yīng)用體育競賽美國NBA的29個球隊中,有25個球隊使用了IBM分析機(jī)構(gòu)的數(shù)據(jù)挖掘工具,通過分析每個對手的數(shù)據(jù)(蓋帽、助攻、犯規(guī)等數(shù)據(jù))來獲

7、得比賽時的對抗優(yōu)勢。天文學(xué)JPL實驗室和Palomar天文臺就曾經(jīng)在數(shù)據(jù)挖掘工具的幫助下發(fā)現(xiàn)了22顆新的恒星網(wǎng)上沖浪通過將數(shù)據(jù)挖掘算法應(yīng)用于網(wǎng)絡(luò)訪問日志,從有市場相關(guān)的網(wǎng)頁中發(fā)現(xiàn)消費者的偏愛和行為,分析網(wǎng)絡(luò)行銷的有效性,改善網(wǎng)絡(luò)站點組織。這就是新興的WEB挖掘研究數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識挖掘(KDD)數(shù)據(jù)挖掘——知識挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估KnowledgeDiscoveryinDatabase典型數(shù)據(jù)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。