資源描述:
《什么是數(shù)據(jù)挖掘——學(xué)習(xí)資料》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程由以下三個階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。 并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(informationretrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能
2、涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強信息檢索系統(tǒng)的能力。數(shù)據(jù)挖掘的起源 需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學(xué)探索等?! ?shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗,(2)人工智能、模式識
3、別和機器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。數(shù)據(jù)挖掘能做什么 1)數(shù)據(jù)挖掘能做以下七種不同事情(分析方法): ·分類(Classification) ·估計(Estimation) ·預(yù)測(Pre
4、diction) ·相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules) ·聚類(Clustering) ·描述和可視化(DescriptionandVisualization) ·復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等) 2)數(shù)據(jù)挖掘分類 以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘 ·直接數(shù)據(jù)挖掘 目標(biāo)是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進行描述?! らg接數(shù)據(jù)挖掘4
5、4 目標(biāo)中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關(guān)系。 ·分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘 3)各種分析方法的簡介 ·分類(Classification) 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進行分類?! ±樱骸⌒庞每ㄉ暾堈?,分類為低、中、高風(fēng)險 注意:類的個數(shù)是確定的,預(yù)先定義好的 ·估計(Estimation) 估計與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸
6、出;分類的類別是確定數(shù)目的,估值的量是不確定的?! ±樱骸 .根據(jù)購買模式,估計一個家庭的孩子個數(shù) b.根據(jù)購買模式,估計一個家庭的收入 一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務(wù),運用估值,給各個客戶記分(Score0~1)。然后,根據(jù)閾值,將貸款級別分類?! ゎA(yù)測(Prediction) 通常,預(yù)測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。從這種意義上說,預(yù)言其實
7、沒有必要分為一個單獨的類。預(yù)言其目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預(yù)言準(zhǔn)確性是多少?! ±樱汉D虾娇找腩I(lǐng)先的數(shù)據(jù)挖掘工具馬克威分析系統(tǒng),分析客流、燃油等變化趨勢,以航線收益為主題進行數(shù)據(jù)挖掘,制定精細的銷售策略,有效提高了企業(yè)收益。 ·相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules) 決定哪些事情將一起發(fā)生?! ±樱骸 .超市中客戶在購買A的同時,經(jīng)常會購買B,即A=>B(關(guān)聯(lián)規(guī)則) b.客戶在購買A后,隔一段時間,會購買B(序
8、列分析) ·聚類(Clustering) 聚類是對記錄分組,把相似的記錄在一個聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。 例子: a.一些特定癥狀的聚集可能預(yù)示了一個特定的疾病 b.租