模糊C均值聚類算法的改進(jìn)研究.pdf

模糊C均值聚類算法的改進(jìn)研究.pdf

ID:52948730

大?。?83.64 KB

頁(yè)數(shù):4頁(yè)

時(shí)間:2020-04-02

模糊C均值聚類算法的改進(jìn)研究.pdf_第1頁(yè)
模糊C均值聚類算法的改進(jìn)研究.pdf_第2頁(yè)
模糊C均值聚類算法的改進(jìn)研究.pdf_第3頁(yè)
模糊C均值聚類算法的改進(jìn)研究.pdf_第4頁(yè)
資源描述:

《模糊C均值聚類算法的改進(jìn)研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、第10卷第3期淮陰師范學(xué)院學(xué)報(bào)(自然科學(xué))Vol.10No.32011年6月JOURNALOFHUAIYINTEACHERSCOLLEGE(NaturalScience)Jun.2011模糊C均值聚類算法的改進(jìn)研究賈丙靜,王傳安,宋雪亞(安徽科技學(xué)院理學(xué)院,安徽風(fēng)陽(yáng)233100)摘要:模糊C均值聚類算法(FCM)是一種比較有代表性的模糊聚類算法,主要是通過(guò)迭代更新聚類中心和隸屬度矩陣,使目標(biāo)函數(shù)值達(dá)到最小.FCM算法還有很多缺陷和不足,其中最主要的就是選取不同的初始中心,會(huì)得到不同的聚類結(jié)果,影響到聚類的穩(wěn)定性和準(zhǔn)確率.本文對(duì)要聚類的數(shù)據(jù)集采用數(shù)據(jù)分區(qū)技

2、術(shù)進(jìn)行預(yù)處理,根據(jù)物質(zhì)質(zhì)心的定義及質(zhì)心運(yùn)動(dòng)原理,計(jì)算每個(gè)數(shù)據(jù)分區(qū)的質(zhì)心做為FCM聚類的初始聚類中心.實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法FCM能夠降低迭代次數(shù)和運(yùn)行時(shí)間,得到比較穩(wěn)定的聚類結(jié)果.關(guān)鍵詞:模糊C均值聚類算法;數(shù)據(jù)分區(qū);質(zhì)心中圖分類號(hào):O159文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-6876(2011)03-0226-040引言隨著計(jì)算機(jī)、通信和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們被海量信息淹沒(méi)的同時(shí)又面臨著知識(shí)的貧乏,因此,開(kāi)始思考采用一定的方法從蘊(yùn)含著豐富信息的數(shù)據(jù)中抽取感興趣的知識(shí)和信息,包括有效的、新穎的、潛在有用的概念、規(guī)律和模式等,這就是數(shù)據(jù)挖掘.在數(shù)據(jù)挖掘技術(shù)

3、中,聚類分析是其中最主要的研究課題之一,其主要功能是根據(jù)對(duì)象的屬性,將大規(guī)模的數(shù)據(jù)集合分為由類似的對(duì)象組成的多個(gè)類.其中,類內(nèi)具有最大的相似性,類間具有最小的相似性.目前,常用的聚類分析方法有劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法和模糊聚類方法.由于在現(xiàn)實(shí)生活中,很多對(duì)象沒(méi)有嚴(yán)格的屬性,不能把它絕對(duì)的劃分到某個(gè)類別中,因此,模糊聚類分析成為聚類的研究主流,它得到的是樣本屬于某個(gè)類別的不確定程度,更能客[1,2]觀的反映真實(shí)的世界.模糊C均值聚類算法(FCM)是一種代表性的模糊聚類算法,但是FCM還有很多缺陷和不足,其中最主

4、要的就是算法的性能依賴于初始中心的選擇,選取不同的初始中心,會(huì)得到不同的聚類結(jié)果,影響到聚類的穩(wěn)定性和準(zhǔn)確率.針對(duì)上述問(wèn)題,我們首先對(duì)要聚類的數(shù)據(jù)采用數(shù)據(jù)分區(qū)技術(shù)進(jìn)行預(yù)處理,然后根據(jù)物質(zhì)質(zhì)心的定義及質(zhì)心運(yùn)動(dòng)原理,計(jì)算每個(gè)數(shù)據(jù)分區(qū)的質(zhì)心做為FCM聚類的初始聚類中心,降低FCM對(duì)初始中心的依賴性.1經(jīng)典FCM算法在非監(jiān)督模式識(shí)別領(lǐng)域,FCM聚類算法是應(yīng)用最廣泛的算法之一.Dunn在Ruspini提出模糊劃分概念的基礎(chǔ)上,改進(jìn)傳統(tǒng)的硬C均值聚類算法,把其推廣到模糊情形,形成FCM算法.Bezdek在其提出的FCM算法的基礎(chǔ)上推廣到更一般的形式,就形成了我們今天

5、所看到的經(jīng)典FCM算法.經(jīng)典FCM算法的基本思想是:隨機(jī)初始化若干個(gè)聚類中心,計(jì)算樣本中的每個(gè)數(shù)據(jù)對(duì)聚類中心的隸屬度,構(gòu)成隸屬度矩陣,然后通過(guò)若干次的迭代更新聚類中心和隸屬度矩陣,使目標(biāo)函數(shù)值達(dá)到最小.目標(biāo)函數(shù)如下:ncm2Jm(U,V)=∑∑uijdij(1)j=1i=1假設(shè)待聚類數(shù)據(jù)集合X中含有n個(gè)對(duì)象,其中,m是模糊加權(quán)指數(shù),控制算法的柔性,m>1;c表示收稿日期:2011-02-22基金項(xiàng)目:安徽省自然科學(xué)基金資助項(xiàng)目(KJ2011Z070)作者簡(jiǎn)介:賈丙靜(1982-),女,山東曹縣人,助教,碩士,研究方向?yàn)閃eb日志挖掘等.第3期賈丙靜等:模

6、糊C均值聚類算法的改進(jìn)研究227分類數(shù);uij∈[0,1]表示第i個(gè)樣本點(diǎn)xi屬于第j個(gè)分類的隸屬度;dij表示樣本點(diǎn)xi與聚類中心vj的歐幾里德距離;V=狖vi狚(i=1,2,,c)表示聚類中心矩陣,U=狖uij狚表示隸屬度矩陣,其中隸屬度值uij具有如下的約束條件:c∑uij=1,i=1,2,3,,n(2)j=1n0<∑uij

7、uijxii=1vj=n(5)m∑uiji=12改進(jìn)FCM算法2.1數(shù)據(jù)分區(qū)在海量高維數(shù)據(jù)中,統(tǒng)計(jì)數(shù)據(jù)在每一維上的分布特性,根據(jù)它的分布特性,可將數(shù)據(jù)劃分為若干個(gè)[3-5]分布均勻的區(qū)域.劃分的基本過(guò)程如下:首先,從采集的大量數(shù)據(jù)中選取一個(gè)子數(shù)據(jù)集做為樣本數(shù)據(jù).然后,用直方圖分析子數(shù)據(jù)集中每一維上的分布密度.直方圖是表示數(shù)據(jù)分布變化情況的一種統(tǒng)計(jì)工具,是由若干個(gè)高度不等的矩形組成,橫軸表示數(shù)據(jù)類型,縱軸表示分布情況.繪制直方圖之前,要統(tǒng)計(jì)數(shù)據(jù)點(diǎn)中的最大值和最小值,根據(jù)數(shù)據(jù)的特點(diǎn)決定組數(shù)并利用每組中兩個(gè)端點(diǎn)的差值求出組距.最后,繪制直方圖,得到的直方圖的類

8、型有雙峰型、偏態(tài)型、折齒型等,通過(guò)分析結(jié)果,決定在那一維上分區(qū)、劃分為幾個(gè)區(qū)及各

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。