資源描述:
《基于劃分的聚類算法研究與應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于劃分的聚類算法研究與應(yīng)用何宇成都信息工程大學(xué)摘要:隨著數(shù)學(xué)、計算機科學(xué)以及統(tǒng)計學(xué)、生物學(xué)等的快速發(fā)展,促進了聚類算法的產(chǎn)生。聚類分析在數(shù)據(jù)的處理和分析當(dāng)中有著舉足輕重的作用,并且被廣泛應(yīng)用到多個領(lǐng)域,介于此人們發(fā)明出了聚類算法。這些算法可以被分為以劃分方法為代表的多種多樣的處理方法。今天我們著重來探討一下棊于劃分的聚類算法的研宂與應(yīng)用。關(guān)鍵詞:劃分方法;聚類算法;研究與應(yīng)用;作者簡介:何宇(1985一),男,四川仁壽人,碩士,主要研究方向為網(wǎng)絡(luò)安全及計算機應(yīng)用。收稿日期:2017-05-05Received:2017-05-05隨著我國的數(shù)學(xué)、計算機科
2、學(xué)以及經(jīng)濟學(xué)學(xué)科的快速發(fā)展,聚類算法得到廣泛使用,加快丫數(shù)據(jù)處理與分析的速度,很大程度上促進/這些學(xué)科的發(fā)展。而且聚類算法的應(yīng)用領(lǐng)域己經(jīng)涉及生活和生產(chǎn)的方方而而,它是將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。這有很多具體應(yīng)用的實例,比如說在商業(yè)方面,聚類分析方法可以幫助銷售工作者找到不同的客戶群,并且通過聚類分析中特定的模式來展現(xiàn)客戶群的差異性。實際出真知,聚類分析方法對于市場的整體分析和數(shù)據(jù)處理等有著極其重要的作用,而且可以根據(jù)對客戶群特點的分析準(zhǔn)確把握客戶的消費心理,這樣一來能夠促使廠商發(fā)現(xiàn)新的商機,開發(fā)新型的產(chǎn)業(yè)和地區(qū)市場,并且
3、能夠?qū)⑦@些信息整合起來;在保險行業(yè),聚類分析的應(yīng)用更是在很大程度上解放的人力,很多數(shù)據(jù)的收集、處理變得極其方便,主要是根據(jù)地區(qū)的保險業(yè)的平均水平來劃分的,以平均值為劃分的界限,再結(jié)合局部地區(qū)的經(jīng)濟發(fā)展速度、人均工資水平以及對保險業(yè)的態(tài)度和購買程度進行分組;再者便是在近些年來最為流行的貿(mào)易方式一一電子商務(wù)。電子商務(wù)顧名思義用的就是計算機,其本身在數(shù)據(jù)處理上就占有一定的優(yōu)勢,利用聚類分析的方法使得電子商務(wù)中的交易數(shù)據(jù)和人群劃分更加明顯,交易人群特點的掌握有利于電商事業(yè)的發(fā)展,也為更近-步的商務(wù)交流提供了建設(shè)性的意見。1劃分方法的基本概念及其常用的方法劃分方法(
4、PAM:Partitioningmethod)的定義是首先創(chuàng)建k個劃分,k為要創(chuàng)建的劃分個數(shù)。常用的劃分方法有:k-means,k-medics,CLARA(ClusteringLargeApplication),CLARANS(ClusteringLargeApplicationbaseduponRandomizedSearch).FCM。其中以k-means的使用最為普?通,嚴(yán)格來說k一means屬于非層次聚類法f種,下面我們來看一下它的整個執(zhí)行過程,一井分為兩個部分,分別是初始化,循環(huán)。所謂初始化就是指選擇或是人為指定某些記錄作為凝聚點,但是要注意的
5、一點就是按就近原則進行初始化的選擇,而丑要注意記錄屮心的數(shù)據(jù),最后根據(jù)記錄數(shù)據(jù)重新進行這一過程。一直不斷地重復(fù)這一過程,直到凝聚點位置收斂為止。這種方法一般具有節(jié)省運算時間等特點。2具體的運算過程2.1數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指我們在對數(shù)據(jù)進行正式的處理之前,要先對數(shù)據(jù)的整體進行一下估量,主耍從數(shù)據(jù)的數(shù)量、范圍、程度和既定標(biāo)準(zhǔn)這兒方面入手,進行規(guī)劃分類和簡單的預(yù)測分析,然后再就每一個方面對整體數(shù)據(jù)的影響進行估量式判斷,建立起一個預(yù)測模式。m當(dāng)然在我們有了明確的數(shù)據(jù)處理和分析結(jié)果時要將這一預(yù)測模式清楚,避免結(jié)果混淆。2.2定義距離函數(shù)聚類的產(chǎn)生是由于多個領(lǐng)域和
6、數(shù)據(jù)之間存在著和似性,正是由于事物之間和似性的存在,才促生了聚類的算法。但是這些相似性的存在也極容易造成事物之間的混淆。所以給這些數(shù)據(jù)設(shè)置一個定義函數(shù)是非常冇必要的。函數(shù)的設(shè)置是為了避免誤差,所以在設(shè)置相似距離時一定要把握好度量,保持?jǐn)?shù)據(jù)點之間的平衡,從而保證整個運算過程的準(zhǔn)確性。2.3聚類或分組數(shù)據(jù)對象的分類要根據(jù)數(shù)據(jù)的特點、適應(yīng)的環(huán)境或是發(fā)揮的作用等來進行分類,而II由于分類時采用的方法不同或是人為因素的干擾,總會產(chǎn)生不同的數(shù)據(jù)分組。劃分方法一般從初始劃分和最優(yōu)化一個聚類標(biāo)準(zhǔn)開始。CrispClustering,它的每一個數(shù)據(jù)都屬丁?革獨的類;Fuzz
7、yClustering,它的每個數(shù)據(jù)可能在任何一個矣中,CrispClustering和FuzzyClustering是劃分方法的W個主要技術(shù),劃分方法聚類方法具有自身的法則優(yōu)勢,它可以找到在不同的分類組之間的相似性,其至可以分析出在同一組內(nèi)分類數(shù)據(jù)之間存在的差異性,我們常說數(shù)據(jù)的處理和分析要科學(xué),要辯證的看到事物的兩面性。m這種方法本身就是一種辯證的方法,所以用它來分析和處理數(shù)據(jù)最合適不過了。3聚類方法的主要應(yīng)用研宄聚類算法在實際應(yīng)用過程中涉及多個行業(yè)發(fā)展。從商業(yè)、生物、地理、保險行業(yè)、因特網(wǎng)行業(yè)以及電子商務(wù)行業(yè)等都所有涉獵。3.1商業(yè)在商業(yè)市場的發(fā)展過
8、程中,往往對于市場未知風(fēng)險的預(yù)測是企業(yè)可持續(xù)發(fā)展的一個重要問題。如