資源描述:
《如何選擇數(shù)據(jù)挖掘工具.docx》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、如何選擇數(shù)據(jù)挖掘工具2010-08-1711:17:27一、數(shù)據(jù)挖掘工具分類(lèi) 數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類(lèi):專(zhuān)用挖掘工具和通用挖掘工具。專(zhuān)用數(shù)據(jù)挖掘工具是針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案,在涉及算法的時(shí)候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開(kāi)發(fā)特定的數(shù)據(jù)挖掘工具。例如,IBM公司的AdvancedScout系統(tǒng)針對(duì)NBA的數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識(shí)可靠度也比較高。通用數(shù)據(jù)挖掘工具不區(qū)分
2、具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見(jiàn)的數(shù)據(jù)類(lèi)型。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見(jiàn)的數(shù)據(jù)類(lèi)型。例如,IBM公司Almaden研究中心開(kāi)發(fā)的QUEST系統(tǒng),SGI公司開(kāi)發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學(xué)開(kāi)發(fā)的DBMiner系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來(lái)挖掘都由用戶(hù)根據(jù)自己的應(yīng)用來(lái)選擇?!《?shù)據(jù)挖掘工具選擇需要考慮的問(wèn)題 數(shù)據(jù)挖掘是一個(gè)過(guò)程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗(yàn)與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實(shí)施的過(guò)程中不斷的磨合,才能取得成功,因此我們
3、在選擇數(shù)據(jù)挖掘工具的時(shí)候,要全面考慮多方面的因素,主要包括以下幾點(diǎn):(1)可產(chǎn)生的模式種類(lèi)的數(shù)量:分類(lèi),聚類(lèi),關(guān)聯(lián)等(2)解決復(fù)雜問(wèn)題的能力(3)操作性能(4)數(shù)據(jù)存取能力(5)和其他產(chǎn)品的接口三、數(shù)據(jù)挖掘工具介紹:1.QUEST QUEST是IBM公司Almaden研究中心開(kāi)發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開(kāi)發(fā)提供高效的數(shù)據(jù)開(kāi)采基本構(gòu)件。系統(tǒng)具有如下特點(diǎn): 提供了專(zhuān)門(mén)在大型數(shù)據(jù)庫(kù)上進(jìn)行各種開(kāi)采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類(lèi)、決策樹(shù)分類(lèi)、遞增式主動(dòng)開(kāi)采等。 各種開(kāi)采算法具有近似線性計(jì)算復(fù)雜度,可適用于任意
4、大小的數(shù)據(jù)庫(kù)?! ∷惴ň哂姓胰?,即能將所有滿(mǎn)足指定類(lèi)型的模式全部尋找出來(lái)。為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。2.MineSet MineSet是由SGI公司和美國(guó)Standford大學(xué)聯(lián)合開(kāi)發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。MineSet集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶(hù)直觀地、實(shí)時(shí)地發(fā)掘、理解大量數(shù)據(jù)背后的知識(shí)。MineSet有如下特點(diǎn): MineSet以先進(jìn)的可視化顯示方法聞名于世?! ≈С侄喾N關(guān)系數(shù)據(jù)庫(kù)??梢灾苯訌腛racle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過(guò)SQL命令執(zhí)行查詢(xún)?! 《喾N數(shù)據(jù)轉(zhuǎn)換功能。在進(jìn)行挖掘前,Mine
5、Set可以去除不必要的數(shù)據(jù)項(xiàng),統(tǒng)計(jì)、集合、分組數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)類(lèi)型,構(gòu)造表達(dá)式由已有數(shù)據(jù)項(xiàng)生成新的數(shù)據(jù)項(xiàng),對(duì)數(shù)據(jù)采樣等?! 〔僮骱?jiǎn)單、支持國(guó)際字符、可以直接發(fā)布到Web。3.DBMiner DBMiner是加拿大SimonFraser大學(xué)開(kāi)發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),它的前身是DBLearn。該系統(tǒng)設(shè)計(jì)的目的是把關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)開(kāi)采集成在一起,以面向?qū)傩缘亩嗉?jí)概念為基礎(chǔ)發(fā)現(xiàn)各種知識(shí)。DBMiner系統(tǒng)具有如下特色: 能完成多種知識(shí)的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類(lèi)規(guī)則、演化知識(shí)、偏離知識(shí)等?! 【C合了多種數(shù)據(jù)開(kāi)采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計(jì)分析、逐
6、級(jí)深化發(fā)現(xiàn)多級(jí)規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法?! √岢隽艘环N交互式的類(lèi)SQL語(yǔ)言――數(shù)據(jù)開(kāi)采查詢(xún)語(yǔ)言DMQL?! ∧芘c關(guān)系數(shù)據(jù)庫(kù)平滑集成?! ?shí)現(xiàn)了基于客戶(hù)/服務(wù)器體系結(jié)構(gòu)的Unix和PC(Windows/NT)版本的系統(tǒng)。4.IntelligentMiner 由美國(guó)IBM公司開(kāi)發(fā)的數(shù)據(jù)挖掘軟件IntelligentMiner是一種分別面向數(shù)據(jù)庫(kù)和文本信息進(jìn)行數(shù)據(jù)挖掘的軟件系列,它包括IntelligentMinerforData和IntelligentMinerforText。IntelligentMinerforData可以挖掘包含在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)
7、據(jù)中心中的隱含信息,幫助用戶(hù)利用傳統(tǒng)數(shù)據(jù)庫(kù)或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。它已經(jīng)成功應(yīng)用于市場(chǎng)分析、詐騙行為監(jiān)測(cè)及客戶(hù)聯(lián)系管理等;IntelligentMinerforText允許企業(yè)從文本信息進(jìn)行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁(yè)面、電子郵件、LotusNotes數(shù)據(jù)庫(kù)等等。5.SASEnterpriseMiner 這是一種在我國(guó)的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應(yīng)用和鐵路部門(mén)在春運(yùn)客運(yùn)研究中的應(yīng)用。SASEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具,按照"抽樣--探索--轉(zhuǎn)換--建模--評(píng)估"的方
8、法進(jìn)行數(shù)據(jù)挖掘??梢耘cSAS數(shù)據(jù)倉(cāng)庫(kù)和OLAP集成,實(shí)現(xiàn)從提出數(shù)據(jù)