資源描述:
《模式識別大作業(yè)-k近鄰》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、姓名:學(xué)號:題目對sonar和wdbc屮數(shù)據(jù)(如表1所示)進(jìn)行分類,并將實驗結(jié)果填入表屮。表1實驗數(shù)據(jù)類別數(shù)特征維數(shù)樣本個數(shù)wdbc230叫=357w2=212sonar260w{=98vv2=110ZL77實驗結(jié)果準(zhǔn)確率Sonar0.5569Wdbc0.8514K-Means聚類算法算法思想K-均值算法的主要思想是先在需要分類的數(shù)據(jù)中尋找K組數(shù)據(jù)作為初始聚類屮心,然后計算其他數(shù)據(jù)距離這三個聚類屮心的距離,將數(shù)據(jù)歸入與其距離最近的聚類中心,之后再對這K個聚類的數(shù)據(jù)計算均值,作為新的聚類中心,繼續(xù)以上步驟,直到新的聚類屮心與上一次的聚類屮心值相等時結(jié)束算法。在木次算法實現(xiàn)
2、中,選擇在兩類樣本點中隨機選擇兩個點作為兩類數(shù)據(jù)的初始聚類中心,然后在開始迭代,計算,直至找到最優(yōu)分類。二.算法流程圖三?程序運行結(jié)果1、對sonar數(shù)據(jù)進(jìn)行k均值聚類表一:sonar(Kmeans)運行次數(shù)準(zhǔn)確率10.591320.603030.504840.581750.490460.519270.673180.572190.5096100.5240平均準(zhǔn)確率0.5569程序迭代次數(shù):6得到第一類聚類中心是(0.03250.04430.04690.05850.07170.09830.11620.13060.17420.19900.21790.23890.25620.
3、27370.29650.34580.35680.39370.44860.51300.52660.48250.48940.52340.53120.57450.57900.60560.59510.58030.52200.47910.50200.53870.55080.53270.48230.45410.42710.39140.35470.32250.27240.23810.22080.17990.12630.09080.05250.02230.01610.01440.01180.01180.01070.00910.00910.00890.00940.0073)得到第二類聚類
4、屮心是(0.02640.03360.04130.05010.07810.10970.12630.13830.18110.21590.25100.25960.28740.31550.33970.40550.46470.50070.55110.60430.67710.74110.77690.79570.79430.80320.80370.76690.68080.58140.49000.40600.34730.29160.26210.26300.26610.24530.24220.24500.23530.24180.22520.19430.17780.14470.11930.
5、09190.05140.01890.01600.01260.00680.00720.00670.00980.0058)0.01020.00810.00752、對wdbc數(shù)據(jù)進(jìn)行k均值聚類表二:wdbc(Kmeans)運行次數(shù)準(zhǔn)確率10.851420.851430.8514運行了幾次程序,發(fā)現(xiàn)準(zhǔn)確率一直保持不變,分析可能是由于兩類數(shù)據(jù)比較集屮而類間距離又足夠大導(dǎo)致,隨機選擇的樣本點對數(shù)據(jù)分類沒有產(chǎn)生什么影響。程序迭代次數(shù):11得到的第一類聚類中心是:1.0e+003*(0.01940.00010.00000.02890.00030.02170.00020.00000.15
6、850.0001)0.12820.00010.00001.75301.18590.00070.00000.00010.00010.00120.00000.00040.00010.00530.00000.00040.00020.09570.02370.0002得到的第二類聚類中心是:1.0e+003*(0.01260.00000.00000.02470.00030.01860.00020.00000.09190.0001)0.08110.00010.00000.61960.49610.00030.00000.00010.00010.00120.00000.00020.00
7、010.00220.00000.00020.00010.02380.01400.0001四?實驗總結(jié)用k均值聚類方法對sonar和wdbc的識別率分別是0.5569和0.8514。主耍原因可能是sonar數(shù)據(jù)中兩類數(shù)據(jù)類間不夠分離,類內(nèi)距離不夠緊密,而wdbc數(shù)據(jù)屮兩類數(shù)據(jù)的點類內(nèi)相對集屮,類間足夠分離。用k均值聚類對wdbc數(shù)據(jù)識別率較高。經(jīng)過幾個晩上的艱苦奮斗,努力學(xué)習(xí),不斷請教前輩大神和上網(wǎng)查詢,不斷調(diào)試程序,最終才得以成功運行,我對這幾種判別方法有了更深層次的認(rèn)識,同時對matlab這個強大的數(shù)值計算軟件應(yīng)用的也更加熟練,山重水復(fù)