資源描述:
《數(shù)據(jù)挖掘工具的評(píng)判》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)挖掘工具的評(píng)判要做數(shù)據(jù)挖掘,當(dāng)然需要工具。但若靠傳統(tǒng)的自我編程來實(shí)現(xiàn),未免有些費(fèi)時(shí)費(fèi)力,而且其性能也不一定比商業(yè)工具來得強(qiáng)和穩(wěn)定。目前,世界上已經(jīng)有很多商業(yè)公司和研究機(jī)構(gòu)開發(fā)出了各自的數(shù)據(jù)挖掘產(chǎn)品,而且功能和使用簡(jiǎn)易性也在日益提高。例如:SAS公司的EnterpriseMiner以及IBM公司的IntelligentMiner,等等。直接采用商業(yè)數(shù)據(jù)挖掘工具來幫助項(xiàng)目實(shí)施,是一個(gè)很好的選擇。它既節(jié)省了大量的開發(fā)費(fèi)用,又可以節(jié)約維護(hù)和升級(jí)的開銷。本文是目前國內(nèi)第一份對(duì)主流數(shù)據(jù)挖掘工具的評(píng)估報(bào)告,該報(bào)告綜合了國內(nèi)一流業(yè)務(wù)專家和數(shù)
2、據(jù)挖掘?qū)<业囊庖?,為幫助企業(yè)進(jìn)行類似評(píng)估提供了很高的參考價(jià)值。工具種類數(shù)據(jù)挖掘工具包括兩種:●數(shù)據(jù)挖掘(MiningforData)工具:其所用的數(shù)據(jù)都存儲(chǔ)在已經(jīng)有了明確字段定義的數(shù)據(jù)庫或文本文件里,我們稱之為結(jié)構(gòu)化的數(shù)據(jù)挖掘工具。它主要是用來進(jìn)行預(yù)測(cè)、聚類分析、關(guān)聯(lián)分析、時(shí)間序列分析以及統(tǒng)計(jì)分析等?!裎谋就诰?TextMining)工具:它是用來從非結(jié)構(gòu)化的文檔中提取有價(jià)值的信息,這些信息都隱藏在文檔里并且沒有清晰的字段定義。文本挖掘主要是應(yīng)用在市場(chǎng)調(diào)研報(bào)告中或呼叫中心(CallCenter)的客戶報(bào)怨定級(jí)、專利的分類、網(wǎng)頁的
3、分類以及電子郵件分類等。根據(jù)著名數(shù)據(jù)挖掘網(wǎng)站KDnuggets統(tǒng)計(jì),目前已有50多種數(shù)據(jù)挖掘工具問世。●一般而言,目前市場(chǎng)上這些數(shù)據(jù)挖掘工具又可分成兩類——企業(yè)型工具以及小型工具。企業(yè)型數(shù)據(jù)挖掘工具:應(yīng)用在需要高處理能力、高網(wǎng)絡(luò)容量和大數(shù)據(jù)量的場(chǎng)合下。這些工具通常支持多種平臺(tái),并基于客戶機(jī)/服務(wù)器結(jié)構(gòu)。它通??梢灾苯舆B接一些復(fù)雜的數(shù)據(jù)管理系統(tǒng)(不像普通文本文件),并能處理大量的數(shù)據(jù)。這類數(shù)據(jù)挖掘工具的另一個(gè)特點(diǎn)是它通常提供了多種數(shù)據(jù)挖掘算法,并有能力解決多種應(yīng)用問題。企業(yè)數(shù)據(jù)挖掘工具的實(shí)例有IBM的IntelligentMine
4、r和SASEnterpriseMiner等?!裥⌒蛿?shù)據(jù)挖掘工具:它與企業(yè)型的工具著眼點(diǎn)不同。小型數(shù)據(jù)挖掘工具或者是針對(duì)低端、低消費(fèi)的用戶,或者是為解決特定的應(yīng)用問題提供特定的解決方案。比如Oracle公司的Darwin,Insightful公司的InsightfulMiner,等等。工具選擇如何在眾多工具中挑選出最適合本公司的呢?這的確是一個(gè)非常具有挑戰(zhàn)性的工作。由于各個(gè)公司的背景、財(cái)務(wù)、挖掘水平各不相同,對(duì)數(shù)據(jù)挖掘工具的需求也就各不一樣。到目前為止,可供參考的權(quán)威評(píng)估報(bào)告非常少。最近的一份完整而權(quán)威的數(shù)據(jù)挖掘工具評(píng)估報(bào)告是由J
5、ohnF.ElderIV和DeanW.Abbott在1998年完成的??梢哉f,它已經(jīng)過時(shí)了。但一般說來,對(duì)數(shù)據(jù)挖掘工具的選擇可從以下幾點(diǎn)著眼:●公司的數(shù)據(jù)挖掘需求是短期行為還是長(zhǎng)期使用如果是短期行為,就購買那些能解決特定問題的軟件包或外包給咨詢公司。如果是長(zhǎng)期使用,就需要購買功能比較豐富,使用比較方便,維護(hù)升級(jí)比較好的企業(yè)型數(shù)據(jù)挖掘工具?!窆镜臄?shù)據(jù)挖掘經(jīng)驗(yàn)和水平公司應(yīng)該根據(jù)內(nèi)部數(shù)據(jù)挖掘團(tuán)隊(duì)的經(jīng)驗(yàn)和水平,選取一些經(jīng)過基本培訓(xùn)后就能掌握的工具。而不要盲目求好,最終導(dǎo)致因不會(huì)使用工具而將其束之高擱,從而造成資源的浪費(fèi)?!窆镜臄?shù)據(jù)狀
6、態(tài)在挑選數(shù)據(jù)挖掘工具前,公司必須對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行評(píng)估。如果沒有具備進(jìn)行業(yè)務(wù)主題數(shù)據(jù)挖掘(比如:風(fēng)險(xiǎn)預(yù)測(cè))的數(shù)據(jù)或者現(xiàn)有格式不能滿足數(shù)據(jù)挖掘工具的需求,那就需要等數(shù)據(jù)具備了,才可考慮購買工具?!窆镜念A(yù)算當(dāng)然,在評(píng)估數(shù)據(jù)挖掘工具時(shí),公司也要結(jié)合自身的財(cái)務(wù)預(yù)算來決定?!窆ぞ叩男阅芎玫墓ぞ呖梢愿行У赝诰虺龈邷?zhǔn)確和高價(jià)值的信息,所以工具性能的評(píng)估也是相當(dāng)重要的。下面,本文將結(jié)合國內(nèi)某一家大公司數(shù)據(jù)挖掘工具評(píng)估的實(shí)際例子,對(duì)目前市場(chǎng)上最流行的數(shù)據(jù)軟件工具從純技術(shù)角度進(jìn)行詳細(xì)講解和評(píng)估。從而為行內(nèi)公司進(jìn)行類似的工作提供參考。工具評(píng)判圖1顯
7、示了數(shù)據(jù)挖掘工具評(píng)估的一般過程。首先我們要通過不同途徑(Internet,雜志,供應(yīng)商提交材料等)盡可能多地收集數(shù)據(jù)挖掘工具的相關(guān)資料。然后,根據(jù)公司的業(yè)務(wù)需求、工具性能、公司背景等情況,確定3~5個(gè)初選對(duì)象。在確定完評(píng)估對(duì)象后,我們將從技術(shù)、業(yè)務(wù)需求、數(shù)據(jù)狀態(tài)、供應(yīng)商實(shí)力、財(cái)務(wù)預(yù)算等各個(gè)角度來制定比較詳細(xì)的評(píng)估條款以及權(quán)值。制定完標(biāo)準(zhǔn)后,下一步就是根據(jù)所制定的標(biāo)準(zhǔn)進(jìn)行逐一評(píng)分。最后,根據(jù)評(píng)分結(jié)果進(jìn)行總結(jié),從而提出數(shù)據(jù)挖掘工具的選取建議。下面的案例,是國內(nèi)某家大公司數(shù)據(jù)挖掘工具的技術(shù)評(píng)估過程:該公司于2002年開始啟動(dòng)數(shù)據(jù)挖掘項(xiàng)
8、目。對(duì)于該公司來說,數(shù)據(jù)挖掘是一項(xiàng)長(zhǎng)期的工程。由于同時(shí)考慮到數(shù)據(jù)量大、業(yè)務(wù)需求廣泛,因此本次評(píng)估對(duì)象僅限于企業(yè)級(jí)的數(shù)據(jù)挖掘工具。根據(jù)所收集的資料,我們對(duì)目前在中國市場(chǎng)上最為流行的三大數(shù)據(jù)挖掘軟件(SAS公司的EnterpriseMiner、IBM公司的Intel