資源描述:
《合理選擇數(shù)據(jù)挖掘工具》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、合理選擇數(shù)據(jù)挖掘工具>>教育資源庫(kù) 摘要:數(shù)據(jù)挖掘作為一項(xiàng)從海量數(shù)據(jù)中提取知識(shí)的信息技術(shù)引起了國(guó)內(nèi)外學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,它在商業(yè)方面的成功應(yīng)用使得軟件開發(fā)商不斷開發(fā)新的數(shù)據(jù)挖掘工具,改進(jìn)現(xiàn)有的數(shù)據(jù)挖掘工具,一時(shí)之間數(shù)據(jù)挖掘工具可謂琳瑯滿目,于是出現(xiàn)了如何合理選擇挖掘工具的問(wèn)題。鑒于此,本文提出并討論了五點(diǎn)關(guān)于合理選擇數(shù)據(jù)挖掘工具的技巧。 關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)挖掘工具;數(shù)據(jù)倉(cāng)庫(kù) 隨著數(shù)據(jù)庫(kù)和計(jì)算機(jī)網(wǎng)絡(luò)的廣泛應(yīng)用,加上先進(jìn)的數(shù)據(jù)自動(dòng)生成和采集工具的使用,人們擁有的數(shù)據(jù)量急劇增大。然而數(shù)
2、據(jù)的極速增長(zhǎng)與數(shù)據(jù)分析方法的改進(jìn)并不成正比,一方面人們希望在已有的大量數(shù)據(jù)的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策、企業(yè)管理,另一方面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具很難令人滿意的對(duì)數(shù)據(jù)進(jìn)行深層次的處理,這樣二者之間的矛盾日益突出,正是在這種狀況下,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。數(shù)據(jù)挖掘作為一項(xiàng)從海量數(shù)據(jù)中提取知識(shí)的信息技術(shù)是一個(gè)以發(fā)現(xiàn)為驅(qū)動(dòng)的過(guò)程,已經(jīng)引起了學(xué)術(shù)界和產(chǎn)業(yè)界的極大重視。特別是從1989年8月在美國(guó)底特律召開的第11屆國(guó)際人工智能聯(lián)合會(huì)議上首次出現(xiàn)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)概念以來(lái),數(shù)據(jù)挖掘在國(guó)際國(guó)內(nèi)都受到了前所未有的重視,
3、目前數(shù)據(jù)挖掘廣泛應(yīng)用于各個(gè)領(lǐng)域,如地理學(xué)、地質(zhì)學(xué)、生物醫(yī)學(xué)等等,總之?dāng)?shù)據(jù)挖掘的出現(xiàn)使數(shù)據(jù)庫(kù)技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段,不僅能對(duì)過(guò)去的數(shù)據(jù)進(jìn)行查詢和遍歷,還能夠找出以往數(shù)據(jù)間潛在的聯(lián)系,促進(jìn)信息的傳播?! ?shù)據(jù)挖掘技術(shù)概述 1、數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)中提取模式的過(guò)程,是一個(gè)受多個(gè)學(xué)科影響的交叉領(lǐng)域,包括數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)等;數(shù)據(jù)挖掘反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測(cè)數(shù)據(jù)中確定模式或合理模型,是一種決策支持過(guò)程。通過(guò)預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策
4、略,減少風(fēng)險(xiǎn),做出正確的決策。由于傳統(tǒng)的事物型工具(如查詢工具、報(bào)表工具)無(wú)法回答事先未定義的綜合性問(wèn)題或跨部門/機(jī)構(gòu)的問(wèn)題,因此其用戶必須清楚地了解問(wèn)題的目的。數(shù)據(jù)挖掘就可以回答事先未加定義的綜合性問(wèn)題或跨部門/機(jī)構(gòu)的問(wèn)題,挖掘潛在的模式并預(yù)測(cè)未來(lái)的趨勢(shì),用戶不必提出確切的問(wèn)題,而且模糊問(wèn)題更有利于發(fā)現(xiàn)未知的事實(shí)?! ?、數(shù)據(jù)挖掘的主要方法和途徑 數(shù)據(jù)挖掘有很多種分類方法,如按發(fā)現(xiàn)的知識(shí)種類,挖掘的數(shù)據(jù)庫(kù)類型,挖掘方法,挖掘途徑,所采用的技術(shù)等等。下面只討論四個(gè)應(yīng)用比較廣泛的方法: 關(guān)聯(lián)規(guī)
5、則(AssociationRule) 在數(shù)據(jù)挖掘領(lǐng)域中,關(guān)聯(lián)規(guī)則應(yīng)用最為廣泛,是重要的研究方向。表示數(shù)據(jù)庫(kù)中一組對(duì)象之間某種關(guān)聯(lián)關(guān)系的規(guī)則,一般來(lái)講,可以用多個(gè)參數(shù)來(lái)描述一個(gè)關(guān)聯(lián)規(guī)則的屬性,常用的有:可信度,支持度,興趣度,期望可信度,作用度?! ‰x群數(shù)據(jù)(Outlier) 離群數(shù)據(jù)就是明顯偏離其他數(shù)據(jù)、不滿足數(shù)據(jù)的一般模式或行為、與存在的其他數(shù)據(jù)不一致的數(shù)據(jù)。數(shù)據(jù)挖掘的大部分研究忽視了離群數(shù)據(jù)的存在和意義,現(xiàn)有的方法往往研究如何減少離群數(shù)據(jù)對(duì)正常數(shù)據(jù)的影響,或僅僅把其當(dāng)作噪音來(lái)對(duì)待。這些離
6、群數(shù)據(jù)可能于計(jì)算機(jī)錄入錯(cuò)誤、人為錯(cuò)誤等,也可能就是數(shù)據(jù)的真實(shí)反映?! 』诎咐耐评恚╟ase-basedreasoning,CBR) 基于案例的推理于人類的認(rèn)知心理活動(dòng),它屬于類比推理方法。其基本思想是基于人們?cè)趩?wèn)題求解中習(xí)慣于過(guò)去處理類似問(wèn)題的經(jīng)驗(yàn)和獲取的知識(shí),在針對(duì)新舊情況的差異作相應(yīng)的調(diào)整,從而得到新問(wèn)題的解并形成新的案例。CBR方法的應(yīng)用越來(lái)越受到人們的重視,在許多領(lǐng)域都有較好的推廣前景,例如,在氣象、環(huán)保、地震、農(nóng)業(yè)、醫(yī)療、商業(yè)、CAD等領(lǐng)域;CBR也可用在計(jì)算機(jī)軟硬件的生產(chǎn)中,如
7、軟件及硬件的故障檢測(cè);CBR方法尤其在不易總結(jié)出專家知識(shí)的領(lǐng)域中,應(yīng)用越來(lái)越普遍,也越來(lái)越深入?! ≈С窒蛄繖C(jī)(SupportVectorMachine,SVM) 支持向量機(jī)是近幾年發(fā)展起來(lái)的新型通用的知識(shí)發(fā)現(xiàn)方法,在分類方面具有良好的性能。SVM是建立在計(jì)算學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則之上,主要思想是針對(duì)兩類分類問(wèn)題在高位空間中尋找一個(gè)超平面作為兩類的分割,以保證最小的分類錯(cuò)誤率?! ?shù)據(jù)挖掘工具 伴隨越來(lái)越多的軟件供應(yīng)商加入數(shù)據(jù)挖掘這一行列,使得現(xiàn)有的挖掘工具的性能得到進(jìn)一步的增強(qiáng),使用
8、更加便捷,也使得其價(jià)格門檻迅速降低,為應(yīng)用的普及帶來(lái)了可能。當(dāng)然數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展同樣功不可沒。數(shù)據(jù)倉(cāng)庫(kù)是將海量復(fù)雜的客戶行為數(shù)據(jù)集中起來(lái)建立的一個(gè)整合的、結(jié)構(gòu)化的數(shù)據(jù)模型,是實(shí)施數(shù)據(jù)挖掘的基礎(chǔ),這里不作為討論的重點(diǎn)?! ?、數(shù)據(jù)挖掘工具分類 一般來(lái)講,數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用數(shù)據(jù)挖掘工具和通用數(shù)據(jù)挖掘工具。專用數(shù)據(jù)挖掘工具是針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案,在涉及算法的時(shí)候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化;而通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法