基于多元權(quán)重特征加權(quán)的中文文本分類算法

ID：27254411

大小：1.84 MB

頁數(shù)：116頁

時(shí)間：2018-12-02

資源描述：

《基于多元權(quán)重特征加權(quán)的中文文本分類算法》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、·圖書分類號(hào)TP391密級(jí)非密UDC_______________________________________________________________碩士學(xué)位論文基于多元權(quán)重特征加權(quán)的中文文本分類算法董慧指導(dǎo)教師（姓名、職稱）尹四清申請(qǐng)學(xué)位級(jí)別碩士專業(yè)名稱計(jì)算機(jī)應(yīng)用技術(shù)論文提交日期2011年5月20日論文答辯日期2011年5月28日學(xué)位授予日期年月日論文評(píng)閱人樊永生馬建芬答辯委員會(huì)主席李德玉2011年5月28日····原創(chuàng)性聲明本人鄭重聲明：所呈交的學(xué)位論文，是本人在指導(dǎo)教師的指導(dǎo)下，獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外，本論文不包含其他個(gè)人或集體已經(jīng)發(fā)表或

2、撰寫過的科研成果。對(duì)本文的研究作出重要貢獻(xiàn)的個(gè)人和集體，均已在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。論文作者簽名：日期：關(guān)于學(xué)位論文使用權(quán)的說明本人完全了解中北大學(xué)有關(guān)保管、使用學(xué)位論文的規(guī)定，其中包括：①學(xué)校有權(quán)保管、并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件；②學(xué)?？梢圆捎糜坝?、縮印或其它復(fù)制手段復(fù)制并保存學(xué)位論文；③學(xué)?？稍试S學(xué)位論文被查閱或借閱；④學(xué)?？梢詫W(xué)術(shù)交流為目的，復(fù)制贈(zèng)送和交換學(xué)位論文；⑤學(xué)校可以公布學(xué)位論文的全部或部分內(nèi)容（保密學(xué)位論文在解密后遵守此規(guī)定）。簽名：日期：導(dǎo)師簽名：日期：····基于多元權(quán)重特征加權(quán)的中文文本分類算法摘要隨著計(jì)算機(jī)網(wǎng)絡(luò)的不斷發(fā)展，實(shí)

3、時(shí)共享網(wǎng)絡(luò)資源已經(jīng)成為可能，但是同時(shí)也帶來了海量的信息資源。為了能夠從海量紛雜的文本信息中及時(shí)準(zhǔn)確地獲取有效的知識(shí)和信息，人們開始關(guān)注文本分類技術(shù)。文本分類技術(shù)可以在很大程度上解決信息雜亂問題，方便用戶準(zhǔn)確地定位所需要的信息。本文探討了文本分類的一些關(guān)鍵技術(shù)，包括文本表示、文本預(yù)處理、特征選擇、特征詞加權(quán)計(jì)算、文本分類算法、性能評(píng)價(jià)。其中，特征詞加權(quán)算法和KNN分類算法是文本分類過程中兩個(gè)比較重要的問題，本文圍繞這兩個(gè)問題進(jìn)行研究。本文首先闡述了常用的特征詞加權(quán)算法，著重研究了傳統(tǒng)的tf*idf加權(quán)算法，分析該加權(quán)算法存在的不足，即只考慮特征詞頻率tf和反文檔頻率idf兩種因素，而忽視

4、了特征詞本身的特點(diǎn)。在傳統(tǒng)的tf*idf加權(quán)算法的基礎(chǔ)上，本文分析了特征詞的一些特點(diǎn)，比如特征詞在文檔中的位置分布情況、特征詞的詞語長(zhǎng)度和所屬的類別，綜合考慮了這幾種因素之后，提出多元權(quán)重特征加權(quán)算法，將原有公式進(jìn)行了擴(kuò)展，使得經(jīng)過加權(quán)算法調(diào)整后的特征詞更具有代表性。另外，本文研究了一些常用的文本分類算法后，重點(diǎn)分析了KNN分類算法。針對(duì)KNN分類算法的分類結(jié)果易受訓(xùn)練文檔集數(shù)據(jù)傾斜的影響，本文引入了算術(shù)平均的思想，提出有針對(duì)性的改進(jìn)算法，并通過實(shí)驗(yàn)來驗(yàn)證該算法的有效性。實(shí)驗(yàn)結(jié)果表明，本文所提出的算法效果令人滿意，在一定程度上提高了分類的準(zhǔn)確率、查全率。關(guān)鍵詞：文本分類，多元權(quán)重，特征

5、選擇，特征詞加權(quán)，KNN分類算法····ChineseTextClassificationAlgorithmBasedonMultiple-factorsFeatureWeightingAbstractWiththedevelopmentofcomputernetworks,itispossiblethatnotonlypeoplecanshareresourcesandresultsinrealtime,butalsocreateamassofinformationresources.Tobeabletoobtaineffectiveknowledgeandinformationin

6、theconfusedmassofinformationinatimelyandaccurateaccess,textclassificationhasbeenwidespreadconcern.Textclassificationcanlargelysolvetheinformationclutterphenomenon,userscanlocateinformationaccuratelyandconveniently.Thispaperanalyzessomekeytechniquesoftextclassification,includingtextrepresentation

7、,textsegmentation,clearstopwords,featureselection,textclassificationalgorithms,andperformanceevaluation.FeatureweightingalgorithmandtheKNNclassificationalgorithmaretwoimportantissuesintheprocessoftextclassification,sothispap

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 116



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于多元權(quán)重特征加權(quán)的中文文本分類算法

基于多元權(quán)重特征加權(quán)的中文文本分類算法

相關(guān)文章

相關(guān)標(biāo)簽