基于貝葉斯的文本自動分類的研究和實現(xiàn)

基于貝葉斯的文本自動分類的研究和實現(xiàn)

ID:884664

大?。?17.01 KB

頁數(shù):15頁

時間:2017-09-23

基于貝葉斯的文本自動分類的研究和實現(xiàn)_第1頁
基于貝葉斯的文本自動分類的研究和實現(xiàn)_第2頁
基于貝葉斯的文本自動分類的研究和實現(xiàn)_第3頁
基于貝葉斯的文本自動分類的研究和實現(xiàn)_第4頁
基于貝葉斯的文本自動分類的研究和實現(xiàn)_第5頁
資源描述:

《基于貝葉斯的文本自動分類的研究和實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、畢業(yè)設計(論文)畢業(yè)設計(論文)任務書題目基于貝葉斯的文本自動分類的研究和實現(xiàn)專業(yè)學號姓名主要內(nèi)容、基本要求、主要參考資料等:近年來隨著Internet的大規(guī)模普及和企業(yè)信息化程度的提高,有越來越多的信息積累,而需要信息的人還沒有特別方便的工具去從來自異構(gòu)數(shù)據(jù)源的大規(guī)模的文本信息資源中提取符合需要的簡潔、精煉、可理解的知識,文本挖掘正是解決這一問題的一個方法。本課題研究基于貝葉斯的文本分類系統(tǒng),可以用于以下領域和系統(tǒng)中:企業(yè)知識門戶、信息增值服務、智能搜索引擎、數(shù)字圖書館、情報分析、信息安全和過濾、電子商務系統(tǒng)。文

2、本自動分類不需人工干預的自動分類技術(shù),有效提高非結(jié)構(gòu)化信息資源的加工效率。利用樸素貝葉斯分類文法的分類器,分析已經(jīng)手動分類的文本,根據(jù)文本內(nèi)容計算分類條件概率,再利用訓練好的分類器分析未分類的文本,根據(jù)分類器算出的所屬領域概率最大的進行分類。本課題任務要求:1)學習關(guān)于樸素貝葉斯分類文法,查找相關(guān)的資料以供參考;2)實現(xiàn)樸素貝葉斯分類文法的分類器;3)人工對樣本數(shù)據(jù)進行分類和標注;4)利用貝葉斯分類文法的分類器,利用樣本進行訓練,然后對分類數(shù)據(jù)進行自動分類;5)根據(jù)分類結(jié)果,調(diào)整分類閾值,彌補分類器的不足。6)根據(jù)

3、實驗數(shù)據(jù)和結(jié)果,按時完成畢業(yè)設計論文。主要參考資料:貝葉斯分類算法的論文和資料,未分類文本語料。完成期限:指導教師簽章:專業(yè)負責人簽章:年月日11畢業(yè)設計(論文)摘要隨著計算機技術(shù)和通訊技術(shù)的飛速發(fā)展,人們可以獲得越來越多的數(shù)字化信息,但同時也需要投入更多的時間對信息進行組織和管理。為了減輕這種負擔,人們開始研究使用計算機對文本進行自動分類。文本自動分類就是在給定的分類體系下,讓計算機根據(jù)文本的內(nèi)容確定與它相關(guān)聯(lián)的類別。自動文本分類是人工智能技術(shù)和信息獲取技術(shù)相結(jié)合的研究領域。隨著網(wǎng)絡的發(fā)展,大量的文檔數(shù)據(jù)涌現(xiàn)在網(wǎng)

4、上,用于處理海量數(shù)據(jù)的自動文本分類技術(shù)變得越來越重要,已逐漸成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。通過分析kNN(kNearestNeighbor)、樸素貝葉斯(NaiveBayes)、SVM(SupportVectorMachine)三種文本分類方法的優(yōu)點和缺點,發(fā)現(xiàn)樸素貝葉斯分類器速度極快,具有最小的出錯率,可在線化實現(xiàn)等優(yōu)點,并對該分類方法進行了理論分析和實驗對比,實驗結(jié)果表明這種文本分類模型是高效的可行的。本文首先介紹了基于貝葉斯的文本自動分類的研究和實現(xiàn)的背景,并且敘述了相關(guān)問題的概念知識,包括文本分類和

5、中文分詞等;其次,對相關(guān)的理論知識做了講解,包括先驗概率、條件概率、貝葉斯理論、貝葉斯算法等;第三,對如何實現(xiàn)文本分類進行了概述以及整體講解,通過給出流程圖,可以更直觀的了解實現(xiàn)的過程;第四,詳細介紹了實現(xiàn)本課題所用到的重要工具,包括JBuilder2007開發(fā)工具和全文檢索引擎Lucene以及Java平臺;第五,在前期工作基礎上,給出了詳細的實現(xiàn)過程,包括單文本分類和多文本分類以及相關(guān)具體操作;最后,通過多次大量重復試驗,得出了實驗數(shù)據(jù),在此通過表格的形式,直觀的給出了實驗結(jié)果。本課題研究基于貝葉斯的文本分類系統(tǒng)

6、,根據(jù)所討論的算法構(gòu)造了貝葉斯文本自動分離器,并做出詳盡的訓練測試,從最終的試驗結(jié)果可以看出,貝葉斯算法簡單、性能優(yōu)越,即使在不考慮貝葉斯假設的前提下,仍然取得良好的分類性能。關(guān)鍵字:文本自動分類,貝葉斯分類,分類文本語料庫。11畢業(yè)設計(論文)AbstractWiththecomputertechnologyandtherapiddevelopmentofcommunicationtechnology,peoplecangetmoreandmoredigitalinformation,butitalsoneeds

7、todevotemoretimetoorganizeandmanageinformation.Inordertoalleviatethatburden,peoplebegantostudytheuseofcomputersforautomaticclassificationoftext.Automatictextcategorizationistheclassificationofagivensystem,thecomputerdeterminedinaccordancewiththecontentsofthete

8、xtassociatedwithitscategory.Automatictextclassificationistheartificialintelligencetechnologyandaccesstoinformationtechnologyresearchfield.Withthedevelopmentofnetwork,dataontheemerg

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。