數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

ID:37400828

大?。?18.75 KB

頁(yè)數(shù):11頁(yè)

時(shí)間:2019-05-12

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第5頁(yè)
資源描述:

《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘引言數(shù)據(jù)是知識(shí)的源泉。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識(shí)完全是兩回事。過(guò)去幾年中,從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)這一領(lǐng)域發(fā)展的很快。廣闊的市場(chǎng)和研究利益促使這一領(lǐng)域的飛速發(fā)展。計(jì)算機(jī)技術(shù)和數(shù)據(jù)收集技術(shù)的進(jìn)步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲(chǔ)信息。收集數(shù)據(jù)是為了得到信息,然而大量的數(shù)據(jù)本身并不意味信息。盡管現(xiàn)代的數(shù)據(jù)庫(kù)技術(shù)使我們很容易存儲(chǔ)大量的數(shù)據(jù)流,但現(xiàn)在還沒(méi)有一種成熟的技術(shù)幫助我們分析、理解并使數(shù)據(jù)以可理解的信息表示出來(lái)。在過(guò)去,我們常用的知識(shí)獲取方法是由知識(shí)工程師把專家經(jīng)驗(yàn)知識(shí)經(jīng)過(guò)分析、篩選、比較、綜合、再提取出知識(shí)和規(guī)則。然而,由于知識(shí)

2、工程師所擁有知識(shí)的有局限性,所以對(duì)于獲得知識(shí)的可信度就應(yīng)該打個(gè)折扣。目前,傳統(tǒng)的知識(shí)獲取技術(shù)面對(duì)巨型數(shù)據(jù)倉(cāng)庫(kù)無(wú)能為力,數(shù)據(jù)挖掘技術(shù)就應(yīng)運(yùn)而生。數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來(lái)越突出,人們希望在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對(duì)數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。數(shù)據(jù)挖掘通過(guò)在大量數(shù)據(jù)的基礎(chǔ)上對(duì)各種學(xué)習(xí)算法的訓(xùn)練,得到數(shù)據(jù)對(duì)象間的關(guān)系模式,這些模式反映了數(shù)據(jù)的內(nèi)在特性,是對(duì)數(shù)據(jù)包含信息的更高層次的抽象[1]。目前,

3、在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來(lái)越多的關(guān)注,同時(shí),在實(shí)際問(wèn)題中,大量成功運(yùn)用數(shù)據(jù)挖掘的實(shí)例說(shuō)明了數(shù)據(jù)挖掘?qū)茖W(xué)研究具有很大的促進(jìn)作用。數(shù)據(jù)挖掘可以幫助人們對(duì)大規(guī)模數(shù)據(jù)進(jìn)行高效的分析處理,以節(jié)約時(shí)間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。目錄一、數(shù)據(jù)倉(cāng)庫(kù)概念及特征二、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)三、數(shù)據(jù)挖掘的概念及其技術(shù)過(guò)程四、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系:五、結(jié)論數(shù)據(jù)倉(cāng)庫(kù)概念及特征1、數(shù)據(jù)倉(cāng)庫(kù)概念。數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、不可更新的(穩(wěn)定的)、隨時(shí)間不斷變化的數(shù)據(jù)集合。與其他數(shù)據(jù)庫(kù)應(yīng)用不同的是,數(shù)據(jù)倉(cāng)庫(kù)更像一種過(guò)程,即對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合

4、、加工和分析的過(guò)程,而不是一種可以購(gòu)買的產(chǎn)品。2、數(shù)據(jù)倉(cāng)庫(kù)的特征:①面向主題。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。②集成的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上,經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。③相對(duì)穩(wěn)定的。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查

5、詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。④反映歷史變化。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)到目前各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。二、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是指具有綜合企業(yè)數(shù)據(jù)的能力,能夠?qū)Υ罅科髽I(yè)數(shù)據(jù)進(jìn)行快速和準(zhǔn)確分析,輔助做出更好的商業(yè)決策的系統(tǒng)。見圖二。它本身包括三部分內(nèi)容:⑴數(shù)據(jù)層。實(shí)現(xiàn)對(duì)企業(yè)操作數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗和匯總,形成信息數(shù)據(jù),并存儲(chǔ)在企業(yè)級(jí)的中心信息數(shù)據(jù)庫(kù)中。 ???⑵應(yīng)用層。通過(guò)聯(lián)機(jī)分析處理,甚至是數(shù)據(jù)挖掘等應(yīng)用處理,實(shí)現(xiàn)對(duì)信息數(shù)據(jù)的分析。 ????⑶表現(xiàn)層。通

6、過(guò)前臺(tái)分析工具,將查詢報(bào)表、統(tǒng)計(jì)分析、多維聯(lián)機(jī)分析和數(shù)據(jù)發(fā)掘的結(jié)論展現(xiàn)在用戶面前。三、數(shù)據(jù)挖掘的概念及其技術(shù)過(guò)程數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。隨著人工智能技術(shù)在專家咨詢、語(yǔ)言處理、娛樂(lè)游戲等模式識(shí)別領(lǐng)域的應(yīng)用日益廣泛。從選取專業(yè)學(xué)習(xí)、研究方向的實(shí)際出發(fā),提出了將數(shù)據(jù)挖掘應(yīng)用于輔助選取專業(yè)學(xué)習(xí)、研究方向的數(shù)據(jù)挖掘技術(shù)流程模型。1數(shù)據(jù)挖掘技術(shù)的過(guò)程數(shù)據(jù)挖掘技術(shù)是一個(gè)多步驟、可能需多次反復(fù)

7、的處理過(guò)程。主要包括以下幾步:準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、確定數(shù)據(jù)挖掘的目標(biāo)、確定知識(shí)發(fā)現(xiàn)算法、數(shù)據(jù)挖掘(DataMining)、模式解釋、知識(shí)評(píng)價(jià),如圖所示。其中最重要的一個(gè)步驟是數(shù)據(jù)挖掘,它是利用某些特定的知識(shí)發(fā)現(xiàn)算法,在可接受的運(yùn)算效率的限制下,從有效數(shù)據(jù)中發(fā)現(xiàn)有關(guān)的知識(shí)。2數(shù)據(jù)挖掘技術(shù)主要有四種開采任務(wù):(1)數(shù)據(jù)總結(jié)是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘是從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。(2)分類發(fā)現(xiàn)這是一項(xiàng)非常重要的任務(wù),分類是運(yùn)用分類器把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。