《數(shù)據(jù)挖掘技術(shù)》第1章 數(shù)據(jù)挖掘綜述(課件)

《數(shù)據(jù)挖掘技術(shù)》第1章 數(shù)據(jù)挖掘綜述(課件)

ID:36889290

大小:1.80 MB

頁(yè)數(shù):65頁(yè)

時(shí)間:2019-05-10

《數(shù)據(jù)挖掘技術(shù)》第1章 數(shù)據(jù)挖掘綜述(課件)_第1頁(yè)
《數(shù)據(jù)挖掘技術(shù)》第1章 數(shù)據(jù)挖掘綜述(課件)_第2頁(yè)
《數(shù)據(jù)挖掘技術(shù)》第1章 數(shù)據(jù)挖掘綜述(課件)_第3頁(yè)
《數(shù)據(jù)挖掘技術(shù)》第1章 數(shù)據(jù)挖掘綜述(課件)_第4頁(yè)
《數(shù)據(jù)挖掘技術(shù)》第1章 數(shù)據(jù)挖掘綜述(課件)_第5頁(yè)
資源描述:

《《數(shù)據(jù)挖掘技術(shù)》第1章 數(shù)據(jù)挖掘綜述(課件)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、第1章數(shù)據(jù)挖掘綜述1.1數(shù)據(jù)挖掘的研究歷史和現(xiàn)狀1.2數(shù)據(jù)挖掘定義1.3數(shù)據(jù)挖掘研究?jī)?nèi)容1.4數(shù)據(jù)挖掘系統(tǒng)工作原理第1章數(shù)據(jù)挖掘綜述1.1數(shù)據(jù)挖掘的研究歷史和現(xiàn)狀數(shù)據(jù)挖掘演變的過(guò)程電子數(shù)據(jù)處理的初期,人們?cè)噲D通過(guò)某些方法來(lái)實(shí)現(xiàn)自動(dòng)決策支持,機(jī)器學(xué)習(xí)成為人們關(guān)心的焦點(diǎn)。神經(jīng)網(wǎng)絡(luò)技術(shù)形成和發(fā)展,人們將注意力轉(zhuǎn)向知識(shí)工程,直接給計(jì)算機(jī)輸入已被代碼化的規(guī)則。80年代人們?cè)谛碌纳窠?jīng)網(wǎng)絡(luò)理論指導(dǎo)下,又回到機(jī)器學(xué)習(xí)方法上,并將其成果應(yīng)用于處理大型商業(yè)數(shù)據(jù)庫(kù)。隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)挖掘概念從商業(yè)角度被開發(fā)出來(lái)。第1章數(shù)據(jù)挖掘綜

2、述進(jìn)化階段時(shí)間段技術(shù)支持生產(chǎn)廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集60年代計(jì)算機(jī),磁帶等IBM,CDC提供靜態(tài)歷史數(shù)據(jù)數(shù)據(jù)訪問(wèn)80年代關(guān)系數(shù)據(jù)庫(kù),結(jié)構(gòu)化查詢語(yǔ)言SQLOracleSybase,Informix,IBM,Microsoft在紀(jì)錄中動(dòng)態(tài)歷史數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫(kù)90年代聯(lián)機(jī)分析處理,多維數(shù)據(jù)庫(kù)Pilot,Comshare,Arbor,Cognos,Microstrategy在各層次提供回溯的動(dòng)態(tài)的歷史數(shù)據(jù)數(shù)據(jù)挖掘正在流行高級(jí)算法,多處理系統(tǒng),海量算法Pilot,Lockheed,IBM,SGI,其他初創(chuàng)公司可提供預(yù)測(cè)性信息數(shù)據(jù)進(jìn)化的階段表1-1數(shù)據(jù)進(jìn)化

3、的四個(gè)階段第1章數(shù)據(jù)挖掘綜述發(fā)現(xiàn)知識(shí)(KDD)1989年舉行的第十一屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上首次出現(xiàn)知識(shí)(KDD)一詞。目前為止,由美國(guó)人工智能協(xié)會(huì)主辦的KDD國(guó)際研討會(huì)已經(jīng)召開8次,研究重點(diǎn)逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。并行計(jì)算、計(jì)算機(jī)網(wǎng)絡(luò)和信息工程等其他領(lǐng)域的國(guó)際學(xué)會(huì)、學(xué)刊也把數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)列為專題和??懻?。與國(guó)外相比,國(guó)內(nèi)對(duì)DMKD的研究稍晚,尚未形成整體力量。1993年國(guó)家自然科學(xué)基金首次支持該領(lǐng)域的研究項(xiàng)目。目前,國(guó)內(nèi)的許多科研單位和高等院校競(jìng)相開展知識(shí)發(fā)現(xiàn)的基礎(chǔ)理

4、論及其應(yīng)用研究。第1章數(shù)據(jù)挖掘綜述1.2數(shù)據(jù)挖掘定義1.2.1技術(shù)角度的定義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。這個(gè)定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。第1章數(shù)據(jù)挖掘綜述其中何謂知識(shí)?從廣義上理解,數(shù)據(jù)、信息也是知識(shí)的表現(xiàn)形式,但是人們把概念、規(guī)則、模式、規(guī)律和約束等看作知識(shí),

5、原始數(shù)據(jù)可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的,甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的、演繹的、歸納的。發(fā)現(xiàn)的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持和過(guò)程控制以及數(shù)據(jù)自身的維護(hù)。這里所說(shuō)的知識(shí)發(fā)現(xiàn),是相對(duì)的,是有特定前提和約束條件,面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶理解。最好能用自然語(yǔ)言表達(dá)所發(fā)現(xiàn)的結(jié)果。第1章數(shù)據(jù)挖掘綜述1.2.2商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是一類深層次的數(shù)

6、據(jù)分析方法?,F(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域由于純機(jī)會(huì)的(Opportunistic)商業(yè)運(yùn)作而產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),經(jīng)過(guò)深層分析,獲得有利于商業(yè)運(yùn)作、有競(jìng)爭(zhēng)力的信息。數(shù)據(jù)挖掘可以描述為:一種按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。第1章數(shù)據(jù)挖掘綜述1.2.3數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別是:數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和可實(shí)用三個(gè)特征。數(shù)據(jù)挖掘是要發(fā)

7、現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。第1章數(shù)據(jù)挖掘綜述1.2.4數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中拿到數(shù)據(jù)挖掘庫(kù)或數(shù)據(jù)集市中(見(jiàn)圖1-1)。圖1-1數(shù)據(jù)挖掘從數(shù)據(jù)庫(kù)中得出如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)已經(jīng)清理過(guò),很可能在做數(shù)據(jù)挖掘時(shí)就沒(méi)必要再清理一次,而且所有的數(shù)據(jù)不一致的問(wèn)題都已經(jīng)被解決了。第1章數(shù)據(jù)挖掘綜述數(shù)據(jù)倉(cāng)庫(kù)建立一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù),把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問(wèn)題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)內(nèi),是一項(xiàng)巨大的工程。圖

8、1-2數(shù)據(jù)挖掘從事物數(shù)據(jù)庫(kù)中得出第1章數(shù)據(jù)挖掘綜述1.2.5數(shù)據(jù)挖掘和在線分析處理(OLAP)OLAP是決策支持領(lǐng)域的一部分。OLAP分析是建立一系列的假設(shè),然后通過(guò)OLAP來(lái)證

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。