資源描述:
《基于網(wǎng)格密度的高精度聚類(lèi)算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、河北工業(yè)大學(xué)碩士學(xué)位論文基于網(wǎng)格密度的高精度聚類(lèi)算法研究姓名:李靜會(huì)申請(qǐng)學(xué)位級(jí)別:碩士專(zhuān)業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:彭玉青20081101河北工業(yè)大學(xué)碩士學(xué)位論文基于網(wǎng)格密度的高精度聚類(lèi)算法研究摘要數(shù)據(jù)挖掘又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從大型數(shù)據(jù)集中發(fā)現(xiàn)有趣的、有用的且預(yù)先未知的知識(shí)的過(guò)程。數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)研究最活躍的領(lǐng)域之一,通過(guò)數(shù)據(jù)挖掘可以從大型數(shù)據(jù)集中提取可信、新穎、有效并易于理解的知識(shí)、規(guī)律或高層信息,這給人們?cè)谛畔r(shí)代所積累的海量數(shù)據(jù)賦予了新的意義。隨著數(shù)據(jù)挖掘技術(shù)的迅猛發(fā)展,作為其重要組
2、成部分,聚類(lèi)分析和邊界模式檢測(cè)技術(shù)已經(jīng)廣泛應(yīng)用于模式識(shí)別、數(shù)據(jù)分析、圖像處理、市場(chǎng)研究等許多領(lǐng)域。而聚類(lèi)和邊界模式檢測(cè)算法的研究也已經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域中非?;钴S的一個(gè)研究課題。本文提出了參數(shù)自動(dòng)化的基于網(wǎng)格密度的高精度的聚類(lèi)算法。針對(duì)網(wǎng)格聚類(lèi)算法的聚類(lèi)結(jié)果對(duì)用戶(hù)輸入?yún)?shù)敏感這一問(wèn)題,本文提出了一種參數(shù)自動(dòng)化的處理方法;另外,本文還在結(jié)合了基于密度聚類(lèi)算法和網(wǎng)格聚類(lèi)算法的優(yōu)點(diǎn)的基礎(chǔ)上,采用計(jì)算低密度單元中的點(diǎn)到相鄰高密度單元重心的歐幾里德距離的方法來(lái)處理邊界點(diǎn),這種處理網(wǎng)格聚類(lèi)邊界的方法,克服了
3、由于網(wǎng)格單元內(nèi)數(shù)據(jù)分布不均勻而造成聚類(lèi)結(jié)果不準(zhǔn)確的缺點(diǎn),可以準(zhǔn)確衡量出數(shù)據(jù)點(diǎn)的分布稠密程度趨勢(shì),從而達(dá)到使聚類(lèi)結(jié)果更加準(zhǔn)確的目的。同時(shí),本文還在該算法的基礎(chǔ)上提出了增量數(shù)據(jù)挖掘算法,能夠?qū)?dòng)態(tài)的數(shù)據(jù)庫(kù)進(jìn)行處理。實(shí)驗(yàn)結(jié)果表明:該算法可以有效的檢測(cè)出任意形狀、不同大小和不同密度聚類(lèi)的邊界點(diǎn),并能有效的消除噪聲。并且在該算法基礎(chǔ)上提出的增量聚類(lèi)算法在不影響聚類(lèi)結(jié)果的前提下可以較高效率的處理數(shù)據(jù)的增量問(wèn)題。關(guān)鍵字:聚類(lèi),網(wǎng)格,密度,邊界,增量i基于網(wǎng)格密度的高精度聚類(lèi)算法研究AnalysisofDensi
4、tyGrid-basedImprovingClusteringQualityAlgorithmABSTRACTDataminingalsocallsknowledge-discover,whichisaprocessofdiscoveringtheinteresting,usefulandunknownknowledgefromthehugedataset.Dataminingisoneofthemostactivitystudyofthedatabase.Itcanpick-upcreditab
5、le,original,effectiveandunderstandableknowledge,ruleandinformationthroughdatamining.Besides,clusteringanddealingboundaryarithmetichasbeenanactivestudyindata-miningfield.Thispapergivesanautomaticparameterandheighefficiencyarithmeticbasedongridanddensit
6、y.Thearithmetichastheexcellenceofarithmeticbasedongridandthearithmeticbasedondensity,andhasahigheffective.Thearithmeticdealswiththeboundarybythedistancebetweenthepointinlowdensitygirdandthecenterofgravityofthebordergridwhichcanexactscalethedata-distri
7、buting,sowecangetamorenicetyresult.Besides,thepaperalsogivesaincreaing-arithmeticwhichcandealwiththedynamicdata.Theresultshowsthat:thearithmeticcandealwiththeboundaryeffectively,andtheincreasing-arithmeticbasedonthisarithmeticcandealwiththedynamicdata
8、effectively.KEYWORDS:Clustering,Gird,Dentisyboundary,Increaing-dataii原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下,進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本學(xué)位論文的研究成果不包含任何他人創(chuàng)作的、已公開(kāi)發(fā)表或者沒(méi)有公開(kāi)發(fā)表的作品的內(nèi)容。對(duì)本論文所涉及的研究工作做出貢獻(xiàn)的其他個(gè)人和集體,均已在文中以明確方式標(biāo)明。本學(xué)位論文原創(chuàng)性聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者簽名:日期:關(guān)于學(xué)位