資源描述:
《基于多元權(quán)重特征加權(quán)的中文文本分類算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、·圖書分類號(hào)TP391密級(jí)非密UDC_______________________________________________________________碩士學(xué)位論文基于多元權(quán)重特征加權(quán)的中文文本分類算法董慧指導(dǎo)教師(姓名、職稱)尹四清申請(qǐng)學(xué)位級(jí)別碩士專業(yè)名稱計(jì)算機(jī)應(yīng)用技術(shù)論文提交日期2011年5月20日論文答辯日期2011年5月28日學(xué)位授予日期年月日論文評(píng)閱人樊永生馬建芬答辯委員會(huì)主席李德玉2011年5月28日····原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在指導(dǎo)教師的指導(dǎo)下,獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含其他個(gè)人或集體已經(jīng)發(fā)表或
2、撰寫過的科研成果。對(duì)本文的研究作出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。論文作者簽名:日期:關(guān)于學(xué)位論文使用權(quán)的說明本人完全了解中北大學(xué)有關(guān)保管、使用學(xué)位論文的規(guī)定,其中包括:①學(xué)校有權(quán)保管、并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件;②學(xué)??梢圆捎糜坝?、縮印或其它復(fù)制手段復(fù)制并保存學(xué)位論文;③學(xué)??稍试S學(xué)位論文被查閱或借閱;④學(xué)??梢詫W(xué)術(shù)交流為目的,復(fù)制贈(zèng)送和交換學(xué)位論文;⑤學(xué)校可以公布學(xué)位論文的全部或部分內(nèi)容(保密學(xué)位論文在解密后遵守此規(guī)定)。簽名:日期:導(dǎo)師簽名:日期:····基于多元權(quán)重特征加權(quán)的中文文本分類算法摘要隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷發(fā)展,實(shí)
3、時(shí)共享網(wǎng)絡(luò)資源已經(jīng)成為可能,但是同時(shí)也帶來了海量的信息資源。為了能夠從海量紛雜的文本信息中及時(shí)準(zhǔn)確地獲取有效的知識(shí)和信息,人們開始關(guān)注文本分類技術(shù)。文本分類技術(shù)可以在很大程度上解決信息雜亂問題,方便用戶準(zhǔn)確地定位所需要的信息。本文探討了文本分類的一些關(guān)鍵技術(shù),包括文本表示、文本預(yù)處理、特征選擇、特征詞加權(quán)計(jì)算、文本分類算法、性能評(píng)價(jià)。其中,特征詞加權(quán)算法和KNN分類算法是文本分類過程中兩個(gè)比較重要的問題,本文圍繞這兩個(gè)問題進(jìn)行研究。本文首先闡述了常用的特征詞加權(quán)算法,著重研究了傳統(tǒng)的tf*idf加權(quán)算法,分析該加權(quán)算法存在的不足,即只考慮特征詞頻率tf和反文檔頻率idf兩種因素,而忽視
4、了特征詞本身的特點(diǎn)。在傳統(tǒng)的tf*idf加權(quán)算法的基礎(chǔ)上,本文分析了特征詞的一些特點(diǎn),比如特征詞在文檔中的位置分布情況、特征詞的詞語長(zhǎng)度和所屬的類別,綜合考慮了這幾種因素之后,提出多元權(quán)重特征加權(quán)算法,將原有公式進(jìn)行了擴(kuò)展,使得經(jīng)過加權(quán)算法調(diào)整后的特征詞更具有代表性。另外,本文研究了一些常用的文本分類算法后,重點(diǎn)分析了KNN分類算法。針對(duì)KNN分類算法的分類結(jié)果易受訓(xùn)練文檔集數(shù)據(jù)傾斜的影響,本文引入了算術(shù)平均的思想,提出有針對(duì)性的改進(jìn)算法,并通過實(shí)驗(yàn)來驗(yàn)證該算法的有效性。實(shí)驗(yàn)結(jié)果表明,本文所提出的算法效果令人滿意,在一定程度上提高了分類的準(zhǔn)確率、查全率。關(guān)鍵詞:文本分類,多元權(quán)重,特征
5、選擇,特征詞加權(quán),KNN分類算法····ChineseTextClassificationAlgorithmBasedonMultiple-factorsFeatureWeightingAbstractWiththedevelopmentofcomputernetworks,itispossiblethatnotonlypeoplecanshareresourcesandresultsinrealtime,butalsocreateamassofinformationresources.Tobeabletoobtaineffectiveknowledgeandinformationin
6、theconfusedmassofinformationinatimelyandaccurateaccess,textclassificationhasbeenwidespreadconcern.Textclassificationcanlargelysolvetheinformationclutterphenomenon,userscanlocateinformationaccuratelyandconveniently.Thispaperanalyzessomekeytechniquesoftextclassification,includingtextrepresentation
7、,textsegmentation,clearstopwords,featureselection,textclassificationalgorithms,andperformanceevaluation.FeatureweightingalgorithmandtheKNNclassificationalgorithmaretwoimportantissuesintheprocessoftextclassification,sothispap