資源描述:
《數(shù)據(jù)挖掘工具選擇》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)挖掘工具選擇一、數(shù)據(jù)挖掘工具分類數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。專用數(shù)據(jù)挖掘工具是針對某個特定領(lǐng)域的問題提供解決方案,在涉及算法的時候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對任何領(lǐng)域,都可以開發(fā)特定的數(shù)據(jù)挖掘工具。例如,IBM公司的AdvancedScout系統(tǒng)針對NBA的數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍π詮?qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識可靠度也比較高。通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采
2、用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。例如,IBM公司Almaden研究中心開發(fā)的QUEST系統(tǒng),SGI公司開發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學(xué)開發(fā)的DBMiner系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇?!《?、數(shù)據(jù)挖掘工具選擇需要考慮的問題數(shù)據(jù)挖掘是一個過程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗(yàn)與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實(shí)施的過程中不斷的磨合,才能取得成功,因此我
3、們在選擇數(shù)據(jù)挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點(diǎn):(1)可產(chǎn)生的模式種類的數(shù)量:分類,聚類,關(guān)聯(lián)等(2)解決復(fù)雜問題的能力(3)操作性能(4)數(shù)據(jù)存取能力(5)和其他產(chǎn)品的接口三、數(shù)據(jù)挖掘工具介紹:1.QUEST QUEST是IBM公司Almaden研究中心開發(fā)的一個多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開發(fā)提供高效的數(shù)據(jù)開采基本構(gòu)件。系統(tǒng)具有如下特點(diǎn): 提供了專門在大型數(shù)據(jù)庫上進(jìn)行各種開采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時間序列聚類、決策樹分類、遞增式主動開采等。 各種開采算法具有近似線
4、性計(jì)算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫。 算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。2.MineSet MineSet是由SGI公司和美國Standford大學(xué)聯(lián)合開發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。MineSet集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶直觀地、實(shí)時地發(fā)掘、理解大量數(shù)據(jù)背后的知識。MineSet有如下特點(diǎn): MineSet以先進(jìn)的可視化顯示方法聞名于世?! ≈С侄喾N關(guān)系數(shù)據(jù)庫??梢灾苯訌腛racle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過SQL命令執(zhí)行
5、查詢?! 《喾N數(shù)據(jù)轉(zhuǎn)換功能。在進(jìn)行挖掘前,MineSet可以去除不必要的數(shù)據(jù)項(xiàng),統(tǒng)計(jì)、集合、分組數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)類型,構(gòu)造表達(dá)式由已有數(shù)據(jù)項(xiàng)生成新的數(shù)據(jù)項(xiàng),對數(shù)據(jù)采樣等?! 〔僮骱唵?、支持國際字符、可以直接發(fā)布到Web。3.DBMiner DBMiner是加拿大SimonFraser大學(xué)開發(fā)的一個多任務(wù)數(shù)據(jù)挖掘系統(tǒng),它的前身是DBLearn。該系統(tǒng)設(shè)計(jì)的目的是把關(guān)系數(shù)據(jù)庫和數(shù)據(jù)開采集成在一起,以面向?qū)傩缘亩嗉壐拍顬榛A(chǔ)發(fā)現(xiàn)各種知識。DBMiner系統(tǒng)具有如下特色: 能完成多種知識的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類規(guī)則、演化
6、知識、偏離知識等?! 【C合了多種數(shù)據(jù)開采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計(jì)分析、逐級深化發(fā)現(xiàn)多級規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法?! √岢隽艘环N交互式的類SQL語言——數(shù)據(jù)開采查詢語言DMQL?! ∧芘c關(guān)系數(shù)據(jù)庫平滑集成?! ?shí)現(xiàn)了基于客戶/服務(wù)器體系結(jié)構(gòu)的Unix和PC(Windows/NT)版本的系統(tǒng)。4.IntelligentMiner 由美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件IntelligentMiner是一種分別面向數(shù)據(jù)庫和文本信息進(jìn)行數(shù)據(jù)挖掘的軟件系列,它包括IntelligentMinerforData和IntelligentMine
7、rforText。IntelligentMinerforData可以挖掘包含在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。它已經(jīng)成功應(yīng)用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;IntelligentMinerforText允許企業(yè)從文本信息進(jìn)行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、LotusNotes數(shù)據(jù)庫等等。5.SASEnterpriseMiner 這是一種在我國的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應(yīng)用和鐵路部門在春運(yùn)客運(yùn)研
8、究中的應(yīng)用。SASEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具,按照"抽樣--探索--轉(zhuǎn)換--建模--評估"的方法進(jìn)行數(shù)據(jù)挖掘??梢耘cSAS數(shù)據(jù)倉庫和OLAP集成,實(shí)現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的"端到端"知識發(fā)現(xiàn)。6.