基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究

基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究

ID:32966200

大?。?.04 MB

頁數(shù):41頁

時間:2019-02-18

基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究_第1頁
基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究_第2頁
基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究_第3頁
基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究_第4頁
基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究_第5頁
資源描述:

《基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、太原科技大學碩士學位論文基于信息熵和子空間的離群數(shù)據(jù)挖掘算法研究姓名:張賀申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:張繼福20090701中文摘要離群數(shù)據(jù)挖掘是找出隱含在海量數(shù)據(jù)中相對稀疏而孤立的異常數(shù)據(jù)模式,它往往可以使人們發(fā)現(xiàn)一些真實的,但又出乎意料的知識,因此通過對離群數(shù)據(jù)的研究,發(fā)現(xiàn)異常的行為和模式,有著非常重要的意義。現(xiàn)有的傳統(tǒng)離群數(shù)據(jù)挖掘方法存在著受人為因素影響較大,而且不能對挖掘出來的離群點做進一步分析的問題。本文采用信息熵作為離群數(shù)據(jù)的度量手段,對離群數(shù)據(jù)挖掘方法進行了研究,其主要研究成果如下:1、給出一種基于信息熵的離群數(shù)據(jù)挖掘算法(OMBIE)。首先,分析和定義了

2、基于信息熵的離群度量因子,并通過離群度量因子來度量數(shù)據(jù)集中每個記錄的離群程度;然后,根據(jù)每個數(shù)據(jù)點離群程度,檢測出離群數(shù)據(jù),從而有效地消除了人為主觀因素對離群檢測的影響,進一步反映客觀事物的本質,并能較好地解釋離群點的含義;最后,實驗驗證了該算法的可行性和有效性。2、給出一種離群數(shù)據(jù)挖掘算法(OMBCAS)。首先,引入屬性熵與特征屬性的概念,并計算特征屬性子空間和屬性權重;然后,利用異常度的概念,計算子空間離群影響因子,并檢測出離群點;最后,實驗驗證了算法具有不需要人為干預、伸縮性強等優(yōu)點。關鍵字:離群數(shù)據(jù);信息熵;離群度量因子;特征屬性;子空間;恒星光譜數(shù)據(jù)ABSTRACTThetasko

3、fOutlierMiningistodiscoverexceptional,interesting,sparseandisolatedpatternsconcealedinmassivedataset.Itcanfindsomereal,butunexpectedknowledge.Therefore,itisofsignificancetomineabnormalbehaviorsandpatternsbystudyingOutlierMiningmethods.Thetraditionaloutlierminingmethodsaresubjecttoman-madefactors;in

4、addition,minedoutlierscannotbeanalyzedfurther.Wehaveadoptedtheinformationentropyasameansofmeasuringoutlierdata,andstudiedOutlierMiningmethodshavebeenstudied.Mainresearchesareasfollows:1)Anewdataminingalgorithm---OutlierMiningalgorithmbasedonInformationEntropyispresentedbyusingoutliermeasurefactorba

5、sedoninformationentropy.Inthealgorithm,outliermeasurefactorofeachrecordiscalculatedbyusinginformationentropy,andthenoutliersaredetectedbythevaluesofoutliermeasurefactor,SOthatimpactbyman-madefactorsiseliminatedinoutliermining.Thedefinitionofoutlierbasedonoutliermeasurefactorcouldexplainthemeaningof

6、theoutliers.Intheend,experimentalresultsshowthefeasibilityand,effectivenessofthealgorithmbyutilizingUCIandhigh-dimensionalstarspectrumdata.2)Anoutlierminingalgorithmbasedoncharacteristicattributesubspaceisproposed.Firstly,thedefinitionsofattributeentropyandcharacteristicattributeareintroducedtomake

7、correspondingcharacteristicattributesubspaceandattributeweight.Secondly,subspaceoutlierinfluencefactoriscomputedbyabnormalitydegree,andthenoutliersarefound.Finally,experimentresultsshowthatthealgorithmisfea

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。