資源描述:
《常用數(shù)據(jù)挖掘工具評判》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、----------專業(yè)最好文檔,專業(yè)為你服務,急你所急,供你所需-------------文檔下載最佳的地方數(shù)據(jù)挖掘工具的評判劉世平姚玉輝博士/文要做數(shù)據(jù)挖掘,當然需要工具。但若靠傳統(tǒng)的自我編程來實現(xiàn),未免有些費時費力,而且其性能也不一定比商業(yè)工具來得強和穩(wěn)定。目前,世界上已經(jīng)有很多商業(yè)公司和研究機構開發(fā)出了各自的數(shù)據(jù)挖掘產(chǎn)品,而且功能和使用簡易性也在日益提高。例如:SAS公司的EnterpriseMiner以及IBM公司的IntelligentMiner,等等。直接采用商業(yè)數(shù)據(jù)挖掘工具來幫助項目實施,是一個很好的選擇。它既節(jié)省了大量的開發(fā)費用,又可以節(jié)約維護和升
2、級的開銷。本文是目前國內(nèi)第一份對主流數(shù)據(jù)挖掘工具的評估報告,該報告綜合了國內(nèi)一流業(yè)務專家和數(shù)據(jù)挖掘?qū)<业囊庖?,為幫助企業(yè)進行類似評估提供了很高的參考價值。工具種類數(shù)據(jù)挖掘工具包括兩種:●數(shù)據(jù)挖掘(MiningforData)工具:其所用的數(shù)據(jù)都存儲在已經(jīng)有了明確字段定義的數(shù)據(jù)庫或文本文件里,我們稱之為結構化的數(shù)據(jù)挖掘工具。它主要是用來進行預測、聚類分析、關聯(lián)分析、時間序列分析以及統(tǒng)計分析等?!裎谋就诰?TextMining)工具:它是用來從非結構化的文檔中提取有價值的信息,這些信息都隱藏在文檔里并且沒有清晰的字段定義。文本挖掘主要是應用在市場調(diào)研報告中或呼叫中心(C
3、allCenter)的客戶報怨定級、專利的分類、網(wǎng)頁的分類以及電子郵件分類等。根據(jù)著名數(shù)據(jù)挖掘網(wǎng)站KDnuggets統(tǒng)計,目前已有50多種數(shù)據(jù)挖掘工具問世?!褚话愣裕壳笆袌錾线@些數(shù)據(jù)挖掘工具又可分成兩類——企業(yè)型工具以及小型工具。企業(yè)型數(shù)據(jù)挖掘工具:應用在需要高處理能力、高網(wǎng)絡容量和大數(shù)據(jù)量的場合下。這些工具通常支持多種平臺,并基于客戶機/服務器結構。它通??梢灾苯舆B接一些復雜的數(shù)據(jù)管理系統(tǒng)(不像普通文本文件),并能處理大量的數(shù)據(jù)。這類數(shù)據(jù)挖掘工具的另一個特點是它通常提供了多種數(shù)據(jù)挖掘算法,并有能力解決多種應用問題。企業(yè)數(shù)據(jù)挖掘工具的實例有IBM的Intelli
4、gentMiner和SASEnterpriseMiner等。●小型數(shù)據(jù)挖掘工具:它與企業(yè)型的工具著眼點不同。小型數(shù)據(jù)挖掘工具或者是針對低端、低消費的用戶,或者是為解決特定的應用問題提供特定的解決方案。比如Oracle公司的Darwin,Insightful公司的InsightfulMiner,等等。工具選擇----------專業(yè)最好文檔,專業(yè)為你服務,急你所急,供你所需-------------文檔下載最佳的地方----------專業(yè)最好文檔,專業(yè)為你服務,急你所急,供你所需-------------文檔下載最佳的地方如何在眾多工具中挑選出最適合本公司的呢?這的
5、確是一個非常具有挑戰(zhàn)性的工作。由于各個公司的背景、財務、挖掘水平各不相同,對數(shù)據(jù)挖掘工具的需求也就各不一樣。到目前為止,可供參考的權威評估報告非常少。最近的一份完整而權威的數(shù)據(jù)挖掘工具評估報告是由JohnF.ElderIV和DeanW.Abbott在1998年完成的??梢哉f,它已經(jīng)過時了。但一般說來,對數(shù)據(jù)挖掘工具的選擇可從以下幾點著眼:●公司的數(shù)據(jù)挖掘需求是短期行為還是長期使用如果是短期行為,就購買那些能解決特定問題的軟件包或外包給咨詢公司。如果是長期使用,就需要購買功能比較豐富,使用比較方便,維護升級比較好的企業(yè)型數(shù)據(jù)挖掘工具。●公司的數(shù)據(jù)挖掘經(jīng)驗和水平公司應該
6、根據(jù)內(nèi)部數(shù)據(jù)挖掘團隊的經(jīng)驗和水平,選取一些經(jīng)過基本培訓后就能掌握的工具。而不要盲目求好,最終導致因不會使用工具而將其束之高擱,從而造成資源的浪費?!窆镜臄?shù)據(jù)狀態(tài)在挑選數(shù)據(jù)挖掘工具前,公司必須對現(xiàn)有的數(shù)據(jù)進行評估。如果沒有具備進行業(yè)務主題數(shù)據(jù)挖掘(比如:風險預測)的數(shù)據(jù)或者現(xiàn)有格式不能滿足數(shù)據(jù)挖掘工具的需求,那就需要等數(shù)據(jù)具備了,才可考慮購買工具?!窆镜念A算當然,在評估數(shù)據(jù)挖掘工具時,公司也要結合自身的財務預算來決定?!窆ぞ叩男阅芎玫墓ぞ呖梢愿行У赝诰虺龈邷蚀_和高價值的信息,所以工具性能的評估也是相當重要的。下面,本文將結合國內(nèi)某一家大公司數(shù)據(jù)挖掘工具評估的實際
7、例子,對目前市場上最流行的數(shù)據(jù)軟件工具從純技術角度進行詳細講解和評估。從而為行內(nèi)公司進行類似的工作提供參考。工具評判圖1顯示了數(shù)據(jù)挖掘工具評估的一般過程。首先我們要通過不同途徑(Internet,雜志,供應商提交材料等)盡可能多地收集數(shù)據(jù)挖掘工具的相關資料。然后,根據(jù)公司的業(yè)務需求、工具性能、公司背景等情況,確定3~5個初選對象。在確定完評估對象后,我們將從技術、業(yè)務需求、數(shù)據(jù)狀態(tài)、供應商實力、財務預算等各個角度來制定比較詳細的評估條款以及權值。制定完標準后,下一步就是根據(jù)所制定的標準進行逐一評分。最后,根據(jù)評分結果進行總結,從而提出數(shù)據(jù)挖掘工具的選取建議。--