數(shù)據(jù)挖掘工具的評判

數(shù)據(jù)挖掘工具的評判

ID:14707409

大?。?73.00 KB

頁數(shù):6頁

時間:2018-07-30

數(shù)據(jù)挖掘工具的評判_第1頁
數(shù)據(jù)挖掘工具的評判_第2頁
數(shù)據(jù)挖掘工具的評判_第3頁
數(shù)據(jù)挖掘工具的評判_第4頁
數(shù)據(jù)挖掘工具的評判_第5頁
資源描述:

《數(shù)據(jù)挖掘工具的評判》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、數(shù)據(jù)挖掘工具的評判要做數(shù)據(jù)挖掘,當然需要工具。但若靠傳統(tǒng)的自我編程來實現(xiàn),未免有些費時費力,而且其性能也不一定比商業(yè)工具來得強和穩(wěn)定。目前,世界上已經有很多商業(yè)公司和研究機構開發(fā)出了各自的數(shù)據(jù)挖掘產品,而且功能和使用簡易性也在日益提高。例如:SAS公司的EnterpriseMiner以及IBM公司的IntelligentMiner,等等。直接采用商業(yè)數(shù)據(jù)挖掘工具來幫助項目實施,是一個很好的選擇。它既節(jié)省了大量的開發(fā)費用,又可以節(jié)約維護和升級的開銷。本文是目前國內第一份對主流數(shù)據(jù)挖掘工具的評估報告,該報告綜合了國內一流業(yè)務專家和數(shù)

2、據(jù)挖掘專家的意見,為幫助企業(yè)進行類似評估提供了很高的參考價值。工具種類數(shù)據(jù)挖掘工具包括兩種:●數(shù)據(jù)挖掘(MiningforData)工具:其所用的數(shù)據(jù)都存儲在已經有了明確字段定義的數(shù)據(jù)庫或文本文件里,我們稱之為結構化的數(shù)據(jù)挖掘工具。它主要是用來進行預測、聚類分析、關聯(lián)分析、時間序列分析以及統(tǒng)計分析等。●文本挖掘(TextMining)工具:它是用來從非結構化的文檔中提取有價值的信息,這些信息都隱藏在文檔里并且沒有清晰的字段定義。文本挖掘主要是應用在市場調研報告中或呼叫中心(CallCenter)的客戶報怨定級、專利的分類、網頁的

3、分類以及電子郵件分類等。根據(jù)著名數(shù)據(jù)挖掘網站KDnuggets統(tǒng)計,目前已有50多種數(shù)據(jù)挖掘工具問世?!褚话愣裕壳笆袌錾线@些數(shù)據(jù)挖掘工具又可分成兩類——企業(yè)型工具以及小型工具。企業(yè)型數(shù)據(jù)挖掘工具:應用在需要高處理能力、高網絡容量和大數(shù)據(jù)量的場合下。這些工具通常支持多種平臺,并基于客戶機/服務器結構。它通常可以直接連接一些復雜的數(shù)據(jù)管理系統(tǒng)(不像普通文本文件),并能處理大量的數(shù)據(jù)。這類數(shù)據(jù)挖掘工具的另一個特點是它通常提供了多種數(shù)據(jù)挖掘算法,并有能力解決多種應用問題。企業(yè)數(shù)據(jù)挖掘工具的實例有IBM的IntelligentMine

4、r和SASEnterpriseMiner等?!裥⌒蛿?shù)據(jù)挖掘工具:它與企業(yè)型的工具著眼點不同。小型數(shù)據(jù)挖掘工具或者是針對低端、低消費的用戶,或者是為解決特定的應用問題提供特定的解決方案。比如Oracle公司的Darwin,Insightful公司的InsightfulMiner,等等。工具選擇如何在眾多工具中挑選出最適合本公司的呢?這的確是一個非常具有挑戰(zhàn)性的工作。由于各個公司的背景、財務、挖掘水平各不相同,對數(shù)據(jù)挖掘工具的需求也就各不一樣。到目前為止,可供參考的權威評估報告非常少。最近的一份完整而權威的數(shù)據(jù)挖掘工具評估報告是由J

5、ohnF.ElderIV和DeanW.Abbott在1998年完成的。可以說,它已經過時了。但一般說來,對數(shù)據(jù)挖掘工具的選擇可從以下幾點著眼:●公司的數(shù)據(jù)挖掘需求是短期行為還是長期使用如果是短期行為,就購買那些能解決特定問題的軟件包或外包給咨詢公司。如果是長期使用,就需要購買功能比較豐富,使用比較方便,維護升級比較好的企業(yè)型數(shù)據(jù)挖掘工具?!窆镜臄?shù)據(jù)挖掘經驗和水平公司應該根據(jù)內部數(shù)據(jù)挖掘團隊的經驗和水平,選取一些經過基本培訓后就能掌握的工具。而不要盲目求好,最終導致因不會使用工具而將其束之高擱,從而造成資源的浪費?!窆镜臄?shù)據(jù)狀

6、態(tài)在挑選數(shù)據(jù)挖掘工具前,公司必須對現(xiàn)有的數(shù)據(jù)進行評估。如果沒有具備進行業(yè)務主題數(shù)據(jù)挖掘(比如:風險預測)的數(shù)據(jù)或者現(xiàn)有格式不能滿足數(shù)據(jù)挖掘工具的需求,那就需要等數(shù)據(jù)具備了,才可考慮購買工具?!窆镜念A算當然,在評估數(shù)據(jù)挖掘工具時,公司也要結合自身的財務預算來決定?!窆ぞ叩男阅芎玫墓ぞ呖梢愿行У赝诰虺龈邷蚀_和高價值的信息,所以工具性能的評估也是相當重要的。下面,本文將結合國內某一家大公司數(shù)據(jù)挖掘工具評估的實際例子,對目前市場上最流行的數(shù)據(jù)軟件工具從純技術角度進行詳細講解和評估。從而為行內公司進行類似的工作提供參考。工具評判圖1顯

7、示了數(shù)據(jù)挖掘工具評估的一般過程。首先我們要通過不同途徑(Internet,雜志,供應商提交材料等)盡可能多地收集數(shù)據(jù)挖掘工具的相關資料。然后,根據(jù)公司的業(yè)務需求、工具性能、公司背景等情況,確定3~5個初選對象。在確定完評估對象后,我們將從技術、業(yè)務需求、數(shù)據(jù)狀態(tài)、供應商實力、財務預算等各個角度來制定比較詳細的評估條款以及權值。制定完標準后,下一步就是根據(jù)所制定的標準進行逐一評分。最后,根據(jù)評分結果進行總結,從而提出數(shù)據(jù)挖掘工具的選取建議。下面的案例,是國內某家大公司數(shù)據(jù)挖掘工具的技術評估過程:該公司于2002年開始啟動數(shù)據(jù)挖掘項

8、目。對于該公司來說,數(shù)據(jù)挖掘是一項長期的工程。由于同時考慮到數(shù)據(jù)量大、業(yè)務需求廣泛,因此本次評估對象僅限于企業(yè)級的數(shù)據(jù)挖掘工具。根據(jù)所收集的資料,我們對目前在中國市場上最為流行的三大數(shù)據(jù)挖掘軟件(SAS公司的EnterpriseMiner、IBM公司的Intel

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。