基于粗集和神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)挖掘方法

基于粗集和神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)挖掘方法

ID:20036342

大?。?9.50 KB

頁數(shù):3頁

時(shí)間:2018-10-09

基于粗集和神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)挖掘方法_第1頁
基于粗集和神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)挖掘方法_第2頁
基于粗集和神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)挖掘方法_第3頁
資源描述:

《基于粗集和神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)挖掘方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、基于粗集和神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)挖掘方法顏菲 [摘要]在處理大數(shù)據(jù)量,消除冗余信息等方面,粗集理論有著良好效果。而神經(jīng)網(wǎng)絡(luò)則具有獨(dú)特的模型結(jié)構(gòu)和固有的非線性模擬能力,以及高度的自適應(yīng)和容錯(cuò)特性等突出特征。因此,兩種技術(shù)的有效結(jié)合是近幾年數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)。本文提出了一個(gè)新的混合挖掘方法。[關(guān)鍵詞]數(shù)據(jù)挖掘粗集神經(jīng)網(wǎng)絡(luò)一、引言隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫中抽取出來,將為公司創(chuàng)造很多潛在的利潤,而這種從海量數(shù)據(jù)庫中挖掘信息的技術(shù),就稱之為數(shù)據(jù)挖掘(DataMinin

2、g-DM)。[1]粗集理論是一種刻畫不完整性和不確定性信息的數(shù)學(xué)工具,能有效地分析和處理不精確、不一致、不完整等各種不完備信息,并從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律[2]。粗集理論以觀察和測(cè)量所得的數(shù)據(jù)并進(jìn)行分類的方法為基礎(chǔ),它認(rèn)為知識(shí)是基于對(duì)對(duì)象分類的能力,知識(shí)直接與真實(shí)或抽象世界有關(guān)的不同分類模式聯(lián)系在一起。粗集用上近似、下近似和邊界來刻畫信息的不確定性。神經(jīng)網(wǎng)絡(luò)是通過網(wǎng)絡(luò)中各連接權(quán)值的改變,實(shí)現(xiàn)信息的處理和存儲(chǔ)。在神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元既是信息的存儲(chǔ)單元,又是信息的處理單元,信息的處理與存儲(chǔ)合二為一,由這些神經(jīng)元構(gòu)成的網(wǎng)絡(luò)在每個(gè)神經(jīng)元的共同作用下,完成對(duì)輸入模式的識(shí)別與記憶。

3、人工神經(jīng)網(wǎng)絡(luò)以神經(jīng)元間廣泛的互連分布來存貯信息,以非線性神經(jīng)元來協(xié)同處理信息。因此,它具有大規(guī)模并行處理、極強(qiáng)的魯棒性和容錯(cuò)性,很強(qiáng)的自學(xué)習(xí)功能。二、粗集和神經(jīng)網(wǎng)絡(luò)集成方法概述由于粗集和神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的優(yōu)勢(shì)互補(bǔ)性,因此將兩種技術(shù)的有效結(jié)合是當(dāng)前的一個(gè)研究熱點(diǎn),已引起了許多學(xué)者的廣泛關(guān)注。目前常用的有如下幾種結(jié)合方式:(1)將粗集作為神經(jīng)網(wǎng)絡(luò)的前端處理器(2)強(qiáng)耦合方式:即先用粗集分析決策表得到初始規(guī)則,然后用神經(jīng)網(wǎng)絡(luò)精化。(3)粗神經(jīng)網(wǎng)絡(luò):在普通BP網(wǎng)的輸入層和隱層之間加一個(gè)粗神經(jīng)元(全互連接),以抑制輸入層數(shù)據(jù)的波動(dòng)。(4)用粗集優(yōu)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。除上述結(jié)合模式外,還存在許

4、多新的集成方式。在現(xiàn)行的各種結(jié)合方式中,粗集理論的屬性約簡是其中的重要組成部分之一,通過用其對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)進(jìn)行約簡,減少網(wǎng)絡(luò)學(xué)習(xí)所需數(shù)據(jù)量,達(dá)到進(jìn)一步改善神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效率和精度的目的。然而在實(shí)際應(yīng)用中,對(duì)于一些規(guī)模較大的網(wǎng)絡(luò),粗集的處理效率還值得深入研究。由于基于并行遺傳算法的屬性約簡方法可有效解決數(shù)據(jù)量大、維數(shù)多時(shí)的快速約簡問題,因而我們可考慮首先用其對(duì)神經(jīng)網(wǎng)絡(luò)的輸入空間進(jìn)行快速選取,在此基礎(chǔ)上用神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)挖掘,以進(jìn)一步提高應(yīng)用粗集和神經(jīng)網(wǎng)絡(luò)對(duì)大型實(shí)際數(shù)據(jù)庫進(jìn)行挖掘時(shí)的效率。三、一種新的集成化算法的實(shí)踐基于前述分析,本文設(shè)計(jì)了一種粗集理論和神經(jīng)網(wǎng)絡(luò)的組合模型,通過對(duì)

5、某超市客戶特征分析的應(yīng)用,驗(yàn)證了該模型的性能優(yōu)于傳統(tǒng)的粗糙集和一般的神經(jīng)網(wǎng)絡(luò)模型。(一)建模思想對(duì)樣本數(shù)據(jù)進(jìn)行分析,然后據(jù)己知的領(lǐng)域知識(shí)形成一個(gè)初始的信息表,采用合理的離散方法對(duì)連續(xù)屬性進(jìn)行離散化,用基于遺傳算法的并行約簡算法對(duì)數(shù)據(jù)進(jìn)行快速屬性約簡(水平約簡),以約簡后的屬性作為輸入層神經(jīng)元,然后對(duì)數(shù)據(jù)進(jìn)行垂直約簡,包括消除數(shù)據(jù)中的不一致對(duì)象和冗余對(duì)象,最后用神經(jīng)網(wǎng)絡(luò)對(duì)處理后的精簡數(shù)據(jù)進(jìn)行訓(xùn)練。并行約簡算法的引入可以進(jìn)一步提高粗集和神經(jīng)網(wǎng)絡(luò)模型的整體挖掘效率。處理過程如圖1所示。圖1數(shù)據(jù)處理流程圖(二)算法各組成部分(1)連續(xù)屬性離散化:用粗集方法對(duì)數(shù)據(jù)進(jìn)行分析前,需要將連續(xù)變量

6、離散化,離散化本質(zhì)上可歸結(jié)為利用選取的斷點(diǎn)來對(duì)條件屬性構(gòu)成的空間進(jìn)行劃分的問題,把n維空間劃分成有限個(gè)區(qū)域,使得每個(gè)區(qū)域中的對(duì)象的決策值相同。常用的方法有:距離劃分方法、等頻率劃分方法、NaiveScaler方法等。(2)決策表形成:采用量化后的條件屬性和決策屬性值形成一張二維表格每一行描述一個(gè)對(duì)象,每一列對(duì)應(yīng)對(duì)象的一種屬性。(3)屬性約簡:決策表屬性約簡的過程,就是從決策表系統(tǒng)的條件屬性中去掉不必要的的條件屬性,從而分析所得到約簡中的條件屬性對(duì)于決策屬性的決策規(guī)則。本文所用流程:輸入:條件屬性集合C={Y11,Y12,……,Y53},決策屬性集合D=imvex0h;輸出:一個(gè)屬性約簡集

7、合REDUStep1:計(jì)算條件屬性C有D正域POSC(D);Step2:對(duì)屬性Yij∈C,計(jì)算去除它所得到的條件屬性子集C{Yij}的D正域POSc{Yij}(D);Step3:如果POSc{Yij}(D)=POSC(D),則說明屬性Yij對(duì)于決策屬性d是不必要的,這時(shí)C=C{Yij},轉(zhuǎn)step2;否則,輸出屬性約簡REDU=C。(4)對(duì)象約簡:消除數(shù)據(jù)中的不一致對(duì)象和冗余對(duì)象,不一致對(duì)象為條件屬性相同而決策屬性不同的對(duì)象,冗余對(duì)象為條件屬性相同而決策屬性也相同的對(duì)象。

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。