資源描述:
《數(shù)據(jù)挖掘工具的選擇、分析、比較與展望》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、數(shù)據(jù)挖掘工具的選擇、分析、比較與展望高春華(南京大學(xué)計算機科學(xué)與技術(shù)系,南京,210093)Choice,Analysis,ComparisonandFutureStudiesofDataMiningToolsGAOChun-Hua(DepartmentofComputerScienceandTechnology,NanjingUniversity,Nanjing,210093)Abstract:Asanewtechnologyofderivingknowledgefrommassivedata,d
2、atamininghasbecomeincreasinglypopularinresearchandindustryfields.Itssuccessincommercialareamakessoftwareengineersdevelopnewdataminingtoolsandimprovecurrenttools.Nowwecanseedataminingtoolshavebecomeafeastofeye,soitishardforustochooseproperdataminingtool
3、s.Inordertooffersomehelp,thepaperdiscussessomewaysofchoosingdataminingtools.Atthesametime,itmakesintroductionofseveralfamousdataminingtoolsanddiscussesthestrengthandweaknessofeachtool.ItthenchoosesSPSSClementineasatooltodosomedataminingworkandcompareit
4、withWEKAandSASEM.Finally,ittalksaboutthefeaturesandnewfunctionsoffuturedataminingtools.KeyWords:DataMining;SPSSClementine,Useoftools,Comparativestudies,Futurework摘要:數(shù)據(jù)挖掘作為一項從海量數(shù)據(jù)中提取知識的信息技術(shù)引起了國內(nèi)外學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,它在商業(yè)方面的成功應(yīng)用使得軟件開發(fā)商不斷開發(fā)新的數(shù)據(jù)挖掘工具,改進(jìn)現(xiàn)有的數(shù)據(jù)挖掘工具,一時
5、之間數(shù)據(jù)挖掘工具可謂琳瑯滿目,于是出現(xiàn)了如何合理選擇挖掘工具的問題。鑒此,本文提出并討論了幾點關(guān)于理選擇數(shù)據(jù)挖掘工具的技巧。同時,就現(xiàn)有的幾個著名挖掘工具,介紹各自的特點,以及相互的優(yōu)缺點。然后,選用SPSSClementine這種挖掘工具進(jìn)行實際操作,并且具體介紹它與Weka、SASEM之間的優(yōu)缺點。最后,展望一下,未來數(shù)據(jù)挖掘工具的特點與新功能。關(guān)鍵詞:數(shù)據(jù)挖掘、SPSSClementine、工具使用、工具比較、展望前言:隨著信息時代的到來,信息利用的重要性日漸突出,因此數(shù)據(jù)庫和計算機網(wǎng)絡(luò)隨之應(yīng)
6、運而生。如今數(shù)據(jù)庫和計算機網(wǎng)絡(luò)被廣泛應(yīng)用,加上先進(jìn)的數(shù)據(jù)自動生成和采集工具的使用,人們擁有的數(shù)據(jù)量急劇增大。然而數(shù)據(jù)的極速增長與數(shù)據(jù)分析方法的改進(jìn)并不成正比,一方面人們希望在已有的大量數(shù)據(jù)的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策、企業(yè)管理,另一方面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具很難令人滿意的對數(shù)據(jù)進(jìn)行深層次的處理,這樣二者之間的矛盾日益突出,正是在這種狀況下,數(shù)據(jù)挖掘應(yīng)運而生。數(shù)據(jù)挖掘作為一項從海量數(shù)據(jù)中提取知識的信息技術(shù)是一個"以發(fā)現(xiàn)為驅(qū)動"的過程,已經(jīng)引起了學(xué)術(shù)界和產(chǎn)業(yè)界的極大重視。特別是從1989年8月在美國底特律
7、召開的第11屆國際人工智能聯(lián)合會議上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)概念以來,數(shù)據(jù)挖掘在國際國內(nèi)都受到了前所未有的重視,目前數(shù)據(jù)挖掘廣泛應(yīng)用于各個領(lǐng)域,如地理學(xué)、地質(zhì)學(xué)、生物醫(yī)學(xué)等等,總之?dāng)?shù)據(jù)挖掘的出現(xiàn)____________作者簡介:高春華(1988-),男,江蘇海門人,大學(xué)本科生,主要研究領(lǐng)域為軟件工程,MFC使數(shù)據(jù)庫技術(shù)進(jìn)入了一個更高級的階段,不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,還能夠找出以往數(shù)據(jù)間潛在的聯(lián)系,促進(jìn)信息的傳播。1.數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘是一個從數(shù)據(jù)中提取模式的過程,是一個受多個學(xué)科影響的
8、交叉領(lǐng)域,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學(xué)、機器學(xué)習(xí)、可視化和信息科學(xué)等;數(shù)據(jù)挖掘反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型,是一種決策支持過程。通過預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。由于傳統(tǒng)的事物型工具(如查詢工具、報表工具)無法回答事先未定義的綜合性問題或跨部門/機構(gòu)的問題,因此其用戶必須清楚地了解問題的目的。數(shù)據(jù)挖掘就可以回答事先未加定義的綜合性問題或跨部門/機構(gòu)的問題,挖掘潛在的模式并預(yù)測未來的趨勢,用戶不必提出確切的問