資源描述:
《【doc】通用數(shù)據(jù)挖掘平臺設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、通用數(shù)據(jù)挖掘平臺設(shè)計與實現(xiàn)2012年第2期(總第1l8期)信息通信INFORMATION&COMMUNICAT10NS20l2(Sum.No118)通用數(shù)據(jù)挖掘平臺設(shè)計與實現(xiàn)王青峰,翟永剛,林楠(天津軍事交通學(xué)院教育技術(shù)中心,天津300161)摘要:數(shù)據(jù)挖掘平臺的實現(xiàn)為決策管理提供了清晰明確的價值信息,通過分析數(shù)據(jù)挖掘技術(shù)的特性,包括數(shù)據(jù)挖掘概述,數(shù)據(jù)預(yù)處理與關(guān)聯(lián)分析等,重點闡明了基于數(shù)據(jù)挖掘技術(shù)采處理復(fù)雜問題的交換平臺的研究.關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;設(shè)計實現(xiàn);數(shù)據(jù)分析中圖分類號:TP313.13文獻(xiàn)標(biāo)識碼:A文章
2、編號:1673—1131(2012)02—0l14—021數(shù)據(jù)挖掘的基本理論1.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是通過數(shù)理模式從大量隨機(jī)的,模糊不完全的實際應(yīng)用數(shù)據(jù)資料中,找出人們不易察覺的有用信息和知識的行為過程.數(shù)據(jù)挖掘為從海量數(shù)據(jù)中提取有價值的信息提供了決策支持,是數(shù)據(jù)庫技術(shù),統(tǒng)計學(xué)和人工智能技術(shù)交叉的學(xué)科.從商業(yè)角度來說,數(shù)據(jù)挖掘主要體現(xiàn)在對大量業(yè)務(wù)數(shù)據(jù)進(jìn)行處理分析,為商業(yè)決策者提供有價值的數(shù)據(jù)信息.基于這種需求,數(shù)據(jù)挖掘一直是各個領(lǐng)域?qū)W者爭相研究的熱點.I.2數(shù)據(jù)挖掘工具的發(fā)展過程數(shù)據(jù)挖掘工具經(jīng)歷了獨立數(shù)據(jù)挖掘軟件,橫向數(shù)據(jù)
3、挖掘工具集和縱向數(shù)據(jù)挖掘解決方案三個階段.數(shù)據(jù)挖掘軟件早期,雖然對數(shù)據(jù)算法有相當(dāng)?shù)牧私?但仍然離不開對大量數(shù)據(jù)的處理工作.到了第二個階段,數(shù)據(jù)挖掘工具提供了多種通用算法并實現(xiàn)了數(shù)據(jù)的轉(zhuǎn)換和可視化.而到了近期,數(shù)據(jù)挖掘提供了針對特定應(yīng)用系統(tǒng)的解決方案,極大地發(fā)揮了其在決策中的實際應(yīng)用作用.1.3數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DataWarehouse)作為一種數(shù)據(jù)存儲和組織技術(shù),為數(shù)據(jù)挖掘提供了廣泛的數(shù)據(jù)源和支持平臺,是由決策支持系統(tǒng)的衍生產(chǎn)品.反過來數(shù)據(jù)挖掘為數(shù)據(jù)倉庫提供了更廣泛的技術(shù)支持和更高的決策支持.數(shù)據(jù)倉庫是數(shù)據(jù)挖掘平臺的重要組成
4、部分,它的產(chǎn)生從側(cè)面反映了決策者從基本事務(wù)的處理到信息戰(zhàn)略決策分析的轉(zhuǎn)變.2數(shù)據(jù)挖掘平臺的設(shè)計與實現(xiàn)數(shù)據(jù)挖掘指將大量隨機(jī)模糊的信息轉(zhuǎn)變成可供決策參考信息的完整過程.下面分別對各個模塊進(jìn)行展開說明.2.1數(shù)據(jù)挖掘過程為避免數(shù)據(jù)挖掘的盲目性,在數(shù)據(jù)挖掘之前應(yīng)該明確數(shù)據(jù)挖掘的目的,確保數(shù)據(jù)挖掘探索問題的預(yù)見性.數(shù)據(jù)挖掘的工作流程可分為數(shù)據(jù)回集,數(shù)據(jù)的存儲處理,數(shù)據(jù)展現(xiàn)三個步驟.數(shù)據(jù)回集主要指將外部數(shù)據(jù)從外部脫機(jī)存儲介質(zhì)和聯(lián)機(jī)事務(wù)處理系統(tǒng)中導(dǎo)入數(shù)據(jù)倉庫的過程.匯集過程中包括對數(shù)據(jù)的復(fù)制,轉(zhuǎn)換,調(diào)度和監(jiān)控等工作流程.數(shù)據(jù)的存儲與管理是數(shù)
5、據(jù)倉庫的主要工作任務(wù),數(shù)據(jù)倉庫把不同來源的數(shù)據(jù)放在一起,解決這些數(shù)據(jù)的沖突問題,它所設(shè)計的數(shù)據(jù)量大且隨著時間的推移不斷積累.而數(shù)據(jù)倉庫要實現(xiàn)對這些數(shù)據(jù)的治理和優(yōu)化查詢,為數(shù)據(jù)挖掘創(chuàng)造一個獨立的數(shù)據(jù)環(huán)境.數(shù)據(jù)展現(xiàn)的方式主要包括查詢,報表,可視化圖標(biāo),統(tǒng)計分析,數(shù)據(jù)挖掘模型等.從數(shù)據(jù)分析的意義來說,以簡潔明了114的方式敘述數(shù)據(jù)信息稱為描述式數(shù)據(jù)挖掘;通過建立模型并預(yù)測數(shù)據(jù)集行為的表述稱為猜測式數(shù)據(jù)挖掘.2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘?qū)崿F(xiàn)的首要環(huán)節(jié).在進(jìn)行預(yù)處理之前,數(shù)據(jù)挖掘平臺需要先把所需要與業(yè)務(wù)對象有關(guān)聯(lián)的數(shù)據(jù)信息從數(shù)據(jù)
6、倉庫中轉(zhuǎn)移到數(shù)據(jù)挖掘庫中.數(shù)據(jù)預(yù)處理包括一下4個步驟:(1)數(shù)據(jù)清洗:包括增補遺漏的數(shù)據(jù)屬性,識別和修改異常數(shù)據(jù);(2)數(shù)據(jù)集成:將來自多個源的數(shù)據(jù)進(jìn)行合并形成完整的數(shù)據(jù)集合;(3)數(shù)據(jù)轉(zhuǎn)換:通過數(shù)據(jù)規(guī)格化處理等方式將篩選的數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘平臺適用的數(shù)據(jù)形式;(4)數(shù)據(jù)消減:將轉(zhuǎn)化后的數(shù)據(jù)通過維度消減和數(shù)據(jù)壓縮等方式減小數(shù)據(jù)規(guī)模以保證研究數(shù)據(jù)的質(zhì)量.2.3數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘平臺的挖掘原理基于以下幾種方法:(1)遺傳算:基于生物遺傳原理的全局化搜索算法.具有易結(jié)合,隱含并行b.等特點.不足是次算法較為復(fù)雜,較早收斂問題還
7、有待解決.(2)神經(jīng)網(wǎng)絡(luò)方法:神經(jīng)網(wǎng)絡(luò)模型分為bp反向傳播模型,用于模式識別和分類預(yù)測的神經(jīng)網(wǎng)絡(luò)模型等等.因其本身的白適應(yīng)性,分布存儲和并行處理特性較適合數(shù)據(jù)挖掘的研究,越來越受到人們的青睞.(3)粗集方法:不需額外信息,數(shù)據(jù)依賴程度較小,算法簡單且易于操作.關(guān)系數(shù)據(jù)庫管理系統(tǒng)和數(shù)據(jù)倉庫管理系統(tǒng)的發(fā)展為粗集方法的應(yīng)用奠定了堅實的基礎(chǔ).用集合論作為粗集方法的計算基礎(chǔ)難以處理連續(xù)的數(shù)據(jù)信息.(4)覆蓋正例排斥反例法:比較典型的有aql1,aql5算法,通過覆蓋所有正例,排斥反例的方式來尋找規(guī)則.(5)決策樹方法:通過數(shù)據(jù)分類從中篩
8、選出有利用價值的數(shù)據(jù)信息,此方法簡單便捷,速度快,適合大量數(shù)據(jù)的處理工作.較有代表的便是著名的id3算法.(6)模糊集方法:基于模糊集和理論的模糊識別決策分析.系統(tǒng)復(fù)雜性越高,模糊性越強(qiáng)越有利于這種方法的使用..(7)統(tǒng)計分析方法:利用函數(shù)等統(tǒng)計學(xué)手段對數(shù)據(jù)庫字段進(jìn)行歸類分析