資源描述:
《統(tǒng)計(jì)類數(shù)據(jù)挖掘和知識類數(shù)據(jù)挖掘》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第六章統(tǒng)計(jì)類數(shù)據(jù)挖掘和知識類數(shù)據(jù)挖掘6.1設(shè)計(jì)數(shù)據(jù)挖掘模型6.1.1數(shù)據(jù)挖掘方法論6.1.2構(gòu)造和使用數(shù)據(jù)挖掘模型6.2統(tǒng)計(jì)類數(shù)據(jù)挖掘6.2.1統(tǒng)計(jì)分析類數(shù)據(jù)挖掘技術(shù)6.2.2統(tǒng)計(jì)分析工具6.2.3統(tǒng)計(jì)分析工具應(yīng)用6.3知識類數(shù)據(jù)挖掘6.3.1知識發(fā)現(xiàn)系統(tǒng)的一般結(jié)構(gòu)6.3.2知識發(fā)現(xiàn)技術(shù)及其運(yùn)用6.3.3知識發(fā)現(xiàn)工具6.4MDX語言6.1設(shè)計(jì)數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘的基本機(jī)制是數(shù)據(jù)挖掘模型,這是一個(gè)抽象的對象,該模型以一系列結(jié)構(gòu)行集存儲數(shù)據(jù)挖掘信息,并可使用各種工具輕松訪問數(shù)據(jù)。構(gòu)造和使用數(shù)據(jù)挖掘模型首先必必須創(chuàng)建數(shù)據(jù)挖掘模型,并可以使用數(shù)據(jù)挖掘
2、模型測覽器以圖形格式顯示數(shù)據(jù)挖掘模型的內(nèi)容。6.1.1數(shù)據(jù)挖掘方法論1.數(shù)據(jù)取樣(Sample)2.數(shù)據(jù)特征探索、分析和預(yù)處理(Explore)3.問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇(Modify)4.模型的研發(fā)及知識的發(fā)現(xiàn)(Model)5.模型和知識的綜合解釋和評價(jià)(Assess)6.1.2構(gòu)造和使用數(shù)據(jù)挖掘模型1.創(chuàng)建數(shù)據(jù)挖掘模型創(chuàng)建新的數(shù)據(jù)挖掘模型包括確定模型類型、構(gòu)建事例集將要使用的模型并選擇模型構(gòu)造新數(shù)據(jù)挖掘模型所用的數(shù)據(jù)挖掘技術(shù)。根據(jù)要處理的事例集數(shù)據(jù)的類型,可以使用兩種類型的數(shù)據(jù)挖掘模型:關(guān)系數(shù)據(jù)挖掘模型和OLAP數(shù)據(jù)模型。前者設(shè)計(jì)
3、為處理傳統(tǒng)的關(guān)系數(shù)據(jù)庫表,而后者則設(shè)計(jì)為處理以多維數(shù)據(jù)集形式保存的OLAP數(shù)據(jù)。2.編輯數(shù)據(jù)挖掘模型一般可以通過編輯器來編輯數(shù)據(jù)挖掘模型。數(shù)據(jù)挖掘模型的進(jìn)程取決于挖掘模型的類型。(1)通過編輯器編輯關(guān)系數(shù)據(jù)挖掘模型可以使用關(guān)系挖掘模型編輯器編輯關(guān)系數(shù)據(jù)挖掘模型的結(jié)構(gòu),該編輯器也可用來處理數(shù)據(jù)挖掘模型和查看結(jié)果內(nèi)容,允許更改數(shù)據(jù)挖掘模型的基本屬性(如數(shù)據(jù)挖掘算法),顯示數(shù)據(jù)挖掘模型列(包括鍵列、輸入列和可預(yù)測列)。關(guān)系挖掘模型編輯器還可以顯示構(gòu)造事例集的表結(jié)構(gòu),顯示事例和支持表。對于已培訓(xùn)的關(guān)系挖掘模型,可以使用數(shù)據(jù)挖掘模型瀏覽器,以圖形形式顯
4、示數(shù)據(jù)挖掘模型的內(nèi)容。(2)通過編輯器編輯OLAP數(shù)據(jù)挖掘模型可以使用OLAP挖掘模型編輯器編輯OLAP數(shù)據(jù)挖掘模型的結(jié)構(gòu).而且可處理數(shù)據(jù)挖掘模型并顯示結(jié)果內(nèi)容,更改數(shù)據(jù)挖掘模型的基本屬性(如數(shù)據(jù)挖掘算法)及組成數(shù)據(jù)挖掘模型事例集的維度、級別和度量值的屬性。如果OLAP數(shù)據(jù)挖掘模型已經(jīng)過培訓(xùn),則該編輯器還可以使用數(shù)據(jù)挖掘模型瀏覽器以圖形形式顯示數(shù)據(jù)挖掘模型的內(nèi)容。3.培訓(xùn)數(shù)據(jù)挖掘模型為提供預(yù)測性的結(jié)果,數(shù)據(jù)挖掘模型首先必須在稱為“培訓(xùn)”的進(jìn)程中采用已知數(shù)據(jù)。在該進(jìn)程中,數(shù)據(jù)被插入到未經(jīng)過培訓(xùn)的數(shù)據(jù)挖掘模型中。這個(gè)進(jìn)程并不將培訓(xùn)數(shù)據(jù)保存到數(shù)據(jù)挖
5、掘模型中,而是通過數(shù)據(jù)挖掘模型分析培訓(xùn)數(shù)據(jù),找出以后可使用的規(guī)則和模式,以確定預(yù)測列的圖值并將統(tǒng)計(jì)信息作為數(shù)據(jù)挖掘模型內(nèi)容保存。4.查看數(shù)據(jù)挖掘模型查看已培訓(xùn)數(shù)據(jù)挖掘模型的最簡單方法是使用數(shù)據(jù)挖掘模型瀏覽器和相關(guān)性網(wǎng)絡(luò)瀏覽器,這些圖形化工具以易于理解的圖形界面顯示數(shù)據(jù)挖掘模型的復(fù)雜內(nèi)容(如決策樹),并圖形化數(shù)據(jù)挖掘模型的內(nèi)容。圖形化是指以易十理解的可視化格式顯示復(fù)雜數(shù)據(jù)的過程,但在數(shù)據(jù)挖掘中實(shí)現(xiàn)卻非常困難。數(shù)據(jù)挖掘模型瀏覽器可以簡化數(shù)據(jù)挖掘模型內(nèi)容的圖形化過程,而相關(guān)性網(wǎng)絡(luò)瀏覽器則可以使決策樹數(shù)據(jù)挖掘模型中復(fù)雜關(guān)系的圖形化變得易于理解。5.對
6、數(shù)據(jù)挖掘模型的其他操作也可以為數(shù)據(jù)挖掘模型分配安全角色,以將對該模型及其預(yù)測能力的訪問權(quán)限限制為特定用戶和組、當(dāng)數(shù)據(jù)挖掘模型鏈接到相應(yīng)的數(shù)據(jù)庫時(shí),將使用數(shù)據(jù)庫角色決定是否允許訪問鏈接到數(shù)據(jù)庫中的數(shù)據(jù)挖掘模型,這與在多維數(shù)據(jù)集中使用數(shù)據(jù)庫角色類似。6.2統(tǒng)計(jì)類數(shù)據(jù)挖掘統(tǒng)計(jì)技術(shù)是一個(gè)有著百余年歷史,并有著廣泛應(yīng)用的技術(shù)。目前所使用的一些經(jīng)典數(shù)據(jù)挖掘技術(shù)(如CART和CHAID等)都來自統(tǒng)計(jì)技術(shù)。在數(shù)據(jù)挖掘中的概率、獨(dú)立性、偶然性和過適應(yīng)性等概念也都來源于統(tǒng)計(jì)技術(shù)。6.2.1統(tǒng)計(jì)分析類數(shù)據(jù)挖掘技術(shù)統(tǒng)計(jì)類數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)中較為成熟的一種,主
7、要包括數(shù)據(jù)的聚集與度量技術(shù)、各種回歸技術(shù)、聚類挖掘技術(shù)和最近鄰域挖掘技術(shù)等。1.?dāng)?shù)據(jù)的聚集與度量2.各種回歸技術(shù)回歸又包括線性回歸和非線性回歸。3.聚類挖掘技術(shù)(1)聚類分析原理(2)分層聚類(3)劃分聚類(4)密度聚類(5)網(wǎng)格聚類(6)模型聚類4.最近鄰域數(shù)據(jù)挖掘最近鄰域數(shù)據(jù)挖掘工具是數(shù)據(jù)挖掘技術(shù)中最容易理解的技術(shù)之一,因?yàn)樗门c人們思維方式相似的方法進(jìn)行分析——檢測最接近的匹配樣本。用最近鄰域方法進(jìn)行預(yù)測的基本概念是相互之間“接近”的對象具有相似的預(yù)測值。如果知道其中一個(gè)對象的預(yù)測值后,可以預(yù)測其最近的鄰域?qū)ο蟆?.2.2統(tǒng)計(jì)分析工具數(shù)
8、據(jù)挖掘中的統(tǒng)計(jì)分析上具是一種處于知識發(fā)現(xiàn)工具和信息處理工具之間的數(shù)據(jù)挖掘工具。1.統(tǒng)計(jì)類數(shù)據(jù)挖掘工具的功能(1)可視化功能(2)探索功能(3)統(tǒng)計(jì)功能(4)數(shù)據(jù)管理