數(shù)據(jù)挖掘技術(shù)研究

數(shù)據(jù)挖掘技術(shù)研究

ID:9488571

大?。?0.00 KB

頁數(shù):3頁

時間:2018-05-01

數(shù)據(jù)挖掘技術(shù)研究_第1頁
數(shù)據(jù)挖掘技術(shù)研究_第2頁
數(shù)據(jù)挖掘技術(shù)研究_第3頁
資源描述:

《數(shù)據(jù)挖掘技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應用文檔-天天文庫。

1、數(shù)據(jù)挖掘技術(shù)研究[摘要]本文主要介紹了數(shù)據(jù)挖掘的基本概念,以及數(shù)據(jù)挖掘的方法?! 關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法    隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應運而生?! ∫弧?shù)據(jù)挖掘的定義  數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前

2、數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程?! 《?shù)據(jù)挖掘的方法  1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有

3、力的工具之一?! ?.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則?! ?.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝

4、聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗?! ?.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據(jù)

5、挖掘的分類方面?! ?.神經(jīng)X絡(luò)。神經(jīng)X絡(luò)建立在自學習的數(shù)學模型基礎(chǔ)之上,能夠?qū)Υ罅繌碗s的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)X絡(luò)既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)X絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元X絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元X絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。  6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應性最高的假設(shè)的后代替代群體的某個

6、部分,來更新當前群體的一組假設(shè),來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度?! ?.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬

7、性值分成相應的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。  8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎(chǔ)上發(fā)

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。