基于機器學(xué)習(xí)的web文本分類技術(shù)及算法

基于機器學(xué)習(xí)的web文本分類技術(shù)及算法

ID:33489940

大小:122.95 KB

頁數(shù):5頁

時間:2019-02-26

基于機器學(xué)習(xí)的web文本分類技術(shù)及算法_第1頁
基于機器學(xué)習(xí)的web文本分類技術(shù)及算法_第2頁
基于機器學(xué)習(xí)的web文本分類技術(shù)及算法_第3頁
基于機器學(xué)習(xí)的web文本分類技術(shù)及算法_第4頁
基于機器學(xué)習(xí)的web文本分類技術(shù)及算法_第5頁
資源描述:

《基于機器學(xué)習(xí)的web文本分類技術(shù)及算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第30卷第3期長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版)Vol130No.32009年06月JournalofChangchunUniversityofTechonology(NaturalScienceEdition)Jun12009基于機器學(xué)習(xí)的Web文本分類技術(shù)及算法3金春霞,周海巖(淮陰工學(xué)院計算機工程系,江蘇淮安223003)摘要:提出了一種基于機器學(xué)習(xí)的Web文本自動分類的信息檢索解決方案。采用層次約束法完成文本自動抓取功能,文本頻度與詞條頻度相結(jié)合的文本特征選擇算法實現(xiàn)特征提取,并采用特征加權(quán)

2、技術(shù)進一步提高文本分類性能。該算法不僅實現(xiàn)中文文本的自動分類,有效地提高Web信息檢索的精度,而且能大大降低人工二次瀏覽篩選的工作量,還可用于電子政務(wù)和電子商務(wù)信息的自動分類。關(guān)鍵詞:網(wǎng)絡(luò)蜘蛛;特征選擇;文本分類;特征加權(quán);樸素貝葉斯中圖分類號:TP391.1文獻標(biāo)識碼:A文章編號:167421374(2009)0320347205StudyonWebtextcategorizationandalgorithmbasedonmachinelearning3JINChun2xia,ZHOUHai2

3、yan(DepartmentofComputerEngineering,HuaiyinInstituteofTechnology,Huai’an223003,China)Abstract:Asolutionforwebtextcategorizationinformationretrievalbasedonmachinelearningisputforward.Weadoptlevelconstrainttorealizetext2crawledfunction,andapplythefeatu

4、reselectionsfromthecombinationofdocumentfrequencyandtermfrequencytofulfillthefeatureextraction.Thefeaturesareweightedtoimprovetheperformanceoftextcategorization.ThealgorithmcanrealizeautomaticChinesetextcategorization,improvetheprecisionofwebinformat

5、ionretrievalandgreatlydecreasetheamountofworkforbrowsingandfiltering.ItcanalsobeusedfortheautomaticcategorizationofE2governmentandE2commerceinformation.Keywords:networkspider;featureselection;textcategorization;featureweight;NaiveBayes.信息檢索領(lǐng)域急需解決的關(guān)鍵問

6、題。而搜索引擎0引言是實現(xiàn)網(wǎng)絡(luò)信息檢索的有效工具,因此,提高搜索隨著因特網(wǎng)的快速發(fā)展,網(wǎng)上信息浩如煙海,引擎的智能化程度和搜索效率,降低人工二次搜互聯(lián)網(wǎng)上的中文網(wǎng)頁信息數(shù)以億計,如何利用計索的工作量,就成為當(dāng)前智能檢索的研究熱點。算機技術(shù)快速有效地獲取有價值的信息已是中文中文文本分類技術(shù)為此類問題提供了一個切實可收稿日期:2009202210基金項目:江蘇省科技攻關(guān)項目(BE2006357)作者簡介:金春霞(1973-),女,漢族,陜西興平人,淮陰工學(xué)院講師,碩士,主要從事計算機應(yīng)用、信息處理、

7、數(shù)據(jù)挖掘方向研究,E2mail:jcxbzn@163.com.3聯(lián)系人:周海巖(1957-),男,漢族,河南虞城人,淮陰工學(xué)院教授,主要從事信息安全、數(shù)據(jù)挖掘、人工智能、智能決策等方向研究,E2mail:zhy_5703@163.com.?1994-2009ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net348長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版)第30卷行的解決途徑,即通過構(gòu)造文本自動

8、分類器,依據(jù)于Web文本內(nèi)容的分類來講并無價值,而有價值文本的內(nèi)容對待定文本進行分類,以此實現(xiàn)Web的信息僅限

?

之間的文本內(nèi)容。[122]信息的檢索。2.2中文分詞主要問題是中文分詞的準(zhǔn)確性和詞條切分的1Web文本的自動抓取速度。詞條是信息表達的最小單位,中文不同于網(wǎng)絡(luò)蜘蛛是當(dāng)前搜索引擎從互聯(lián)網(wǎng)上抓取西文,中文句子的詞條之間沒有分隔符,而且分詞Web網(wǎng)頁普遍使用的工具。網(wǎng)絡(luò)蜘蛛遍歷Web時還要考慮漢語的詞法、句法以及語義,因此中文空間,抓取Web文本,對抓取的Web文本進行解分詞比

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。