基于多元權(quán)重特征加權(quán)的中文文本分類算法

基于多元權(quán)重特征加權(quán)的中文文本分類算法

ID:27254411

大小:1.84 MB

頁數(shù):116頁

時(shí)間:2018-12-02

基于多元權(quán)重特征加權(quán)的中文文本分類算法_第1頁
基于多元權(quán)重特征加權(quán)的中文文本分類算法_第2頁
基于多元權(quán)重特征加權(quán)的中文文本分類算法_第3頁
基于多元權(quán)重特征加權(quán)的中文文本分類算法_第4頁
基于多元權(quán)重特征加權(quán)的中文文本分類算法_第5頁
資源描述:

《基于多元權(quán)重特征加權(quán)的中文文本分類算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、·圖書分類號(hào)TP391密級(jí)非密UDC_______________________________________________________________碩士學(xué)位論文基于多元權(quán)重特征加權(quán)的中文文本分類算法董慧指導(dǎo)教師(姓名、職稱)尹四清申請(qǐng)學(xué)位級(jí)別碩士專業(yè)名稱計(jì)算機(jī)應(yīng)用技術(shù)論文提交日期2011年5月20日論文答辯日期2011年5月28日學(xué)位授予日期年月日論文評(píng)閱人樊永生馬建芬答辯委員會(huì)主席李德玉2011年5月28日····原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在指導(dǎo)教師的指導(dǎo)下,獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含其他個(gè)人或集體已經(jīng)發(fā)表或

2、撰寫過的科研成果。對(duì)本文的研究作出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。論文作者簽名:日期:關(guān)于學(xué)位論文使用權(quán)的說明本人完全了解中北大學(xué)有關(guān)保管、使用學(xué)位論文的規(guī)定,其中包括:①學(xué)校有權(quán)保管、并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件;②學(xué)??梢圆捎糜坝?、縮印或其它復(fù)制手段復(fù)制并保存學(xué)位論文;③學(xué)??稍试S學(xué)位論文被查閱或借閱;④學(xué)??梢詫W(xué)術(shù)交流為目的,復(fù)制贈(zèng)送和交換學(xué)位論文;⑤學(xué)校可以公布學(xué)位論文的全部或部分內(nèi)容(保密學(xué)位論文在解密后遵守此規(guī)定)。簽名:日期:導(dǎo)師簽名:日期:····基于多元權(quán)重特征加權(quán)的中文文本分類算法摘要隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷發(fā)展,實(shí)

3、時(shí)共享網(wǎng)絡(luò)資源已經(jīng)成為可能,但是同時(shí)也帶來了海量的信息資源。為了能夠從海量紛雜的文本信息中及時(shí)準(zhǔn)確地獲取有效的知識(shí)和信息,人們開始關(guān)注文本分類技術(shù)。文本分類技術(shù)可以在很大程度上解決信息雜亂問題,方便用戶準(zhǔn)確地定位所需要的信息。本文探討了文本分類的一些關(guān)鍵技術(shù),包括文本表示、文本預(yù)處理、特征選擇、特征詞加權(quán)計(jì)算、文本分類算法、性能評(píng)價(jià)。其中,特征詞加權(quán)算法和KNN分類算法是文本分類過程中兩個(gè)比較重要的問題,本文圍繞這兩個(gè)問題進(jìn)行研究。本文首先闡述了常用的特征詞加權(quán)算法,著重研究了傳統(tǒng)的tf*idf加權(quán)算法,分析該加權(quán)算法存在的不足,即只考慮特征詞頻率tf和反文檔頻率idf兩種因素,而忽視

4、了特征詞本身的特點(diǎn)。在傳統(tǒng)的tf*idf加權(quán)算法的基礎(chǔ)上,本文分析了特征詞的一些特點(diǎn),比如特征詞在文檔中的位置分布情況、特征詞的詞語長(zhǎng)度和所屬的類別,綜合考慮了這幾種因素之后,提出多元權(quán)重特征加權(quán)算法,將原有公式進(jìn)行了擴(kuò)展,使得經(jīng)過加權(quán)算法調(diào)整后的特征詞更具有代表性。另外,本文研究了一些常用的文本分類算法后,重點(diǎn)分析了KNN分類算法。針對(duì)KNN分類算法的分類結(jié)果易受訓(xùn)練文檔集數(shù)據(jù)傾斜的影響,本文引入了算術(shù)平均的思想,提出有針對(duì)性的改進(jìn)算法,并通過實(shí)驗(yàn)來驗(yàn)證該算法的有效性。實(shí)驗(yàn)結(jié)果表明,本文所提出的算法效果令人滿意,在一定程度上提高了分類的準(zhǔn)確率、查全率。關(guān)鍵詞:文本分類,多元權(quán)重,特征

5、選擇,特征詞加權(quán),KNN分類算法····ChineseTextClassificationAlgorithmBasedonMultiple-factorsFeatureWeightingAbstractWiththedevelopmentofcomputernetworks,itispossiblethatnotonlypeoplecanshareresourcesandresultsinrealtime,butalsocreateamassofinformationresources.Tobeabletoobtaineffectiveknowledgeandinformationin

6、theconfusedmassofinformationinatimelyandaccurateaccess,textclassificationhasbeenwidespreadconcern.Textclassificationcanlargelysolvetheinformationclutterphenomenon,userscanlocateinformationaccuratelyandconveniently.Thispaperanalyzessomekeytechniquesoftextclassification,includingtextrepresentation

7、,textsegmentation,clearstopwords,featureselection,textclassificationalgorithms,andperformanceevaluation.FeatureweightingalgorithmandtheKNNclassificationalgorithmaretwoimportantissuesintheprocessoftextclassification,sothispap

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。