資源描述:
《基于機器學(xué)習(xí)的web文本分類技術(shù)及算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第30卷第3期長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版)Vol130No.32009年06月JournalofChangchunUniversityofTechonology(NaturalScienceEdition)Jun12009基于機器學(xué)習(xí)的Web文本分類技術(shù)及算法3金春霞,周海巖(淮陰工學(xué)院計算機工程系,江蘇淮安223003)摘要:提出了一種基于機器學(xué)習(xí)的Web文本自動分類的信息檢索解決方案。采用層次約束法完成文本自動抓取功能,文本頻度與詞條頻度相結(jié)合的文本特征選擇算法實現(xiàn)特征提取,并采用特征加權(quán)
2、技術(shù)進一步提高文本分類性能。該算法不僅實現(xiàn)中文文本的自動分類,有效地提高Web信息檢索的精度,而且能大大降低人工二次瀏覽篩選的工作量,還可用于電子政務(wù)和電子商務(wù)信息的自動分類。關(guān)鍵詞:網(wǎng)絡(luò)蜘蛛;特征選擇;文本分類;特征加權(quán);樸素貝葉斯中圖分類號:TP391.1文獻標(biāo)識碼:A文章編號:167421374(2009)0320347205StudyonWebtextcategorizationandalgorithmbasedonmachinelearning3JINChun2xia,ZHOUHai2
3、yan(DepartmentofComputerEngineering,HuaiyinInstituteofTechnology,Huai’an223003,China)Abstract:Asolutionforwebtextcategorizationinformationretrievalbasedonmachinelearningisputforward.Weadoptlevelconstrainttorealizetext2crawledfunction,andapplythefeatu
4、reselectionsfromthecombinationofdocumentfrequencyandtermfrequencytofulfillthefeatureextraction.Thefeaturesareweightedtoimprovetheperformanceoftextcategorization.ThealgorithmcanrealizeautomaticChinesetextcategorization,improvetheprecisionofwebinformat
5、ionretrievalandgreatlydecreasetheamountofworkforbrowsingandfiltering.ItcanalsobeusedfortheautomaticcategorizationofE2governmentandE2commerceinformation.Keywords:networkspider;featureselection;textcategorization;featureweight;NaiveBayes.信息檢索領(lǐng)域急需解決的關(guān)鍵問
6、題。而搜索引擎0引言是實現(xiàn)網(wǎng)絡(luò)信息檢索的有效工具,因此,提高搜索隨著因特網(wǎng)的快速發(fā)展,網(wǎng)上信息浩如煙海,引擎的智能化程度和搜索效率,降低人工二次搜互聯(lián)網(wǎng)上的中文網(wǎng)頁信息數(shù)以億計,如何利用計索的工作量,就成為當(dāng)前智能檢索的研究熱點。算機技術(shù)快速有效地獲取有價值的信息已是中文中文文本分類技術(shù)為此類問題提供了一個切實可收稿日期:2009202210基金項目:江蘇省科技攻關(guān)項目(BE2006357)作者簡介:金春霞(1973-),女,漢族,陜西興平人,淮陰工學(xué)院講師,碩士,主要從事計算機應(yīng)用、信息處理、
7、數(shù)據(jù)挖掘方向研究,E2mail:jcxbzn@163.com.3聯(lián)系人:周海巖(1957-),男,漢族,河南虞城人,淮陰工學(xué)院教授,主要從事信息安全、數(shù)據(jù)挖掘、人工智能、智能決策等方向研究,E2mail:zhy_5703@163.com.?1994-2009ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net348長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版)第30卷行的解決途徑,即通過構(gòu)造文本自動
8、分類器,依據(jù)于Web文本內(nèi)容的分類來講并無價值,而有價值文本的內(nèi)容對待定文本進行分類,以此實現(xiàn)Web的信息僅限
?
之間的文本內(nèi)容。[122]信息的檢索。2.2中文分詞主要問題是中文分詞的準(zhǔn)確性和詞條切分的1Web文本的自動抓取速度。詞條是信息表達的最小單位,中文不同于網(wǎng)絡(luò)蜘蛛是當(dāng)前搜索引擎從互聯(lián)網(wǎng)上抓取西文,中文句子的詞條之間沒有分隔符,而且分詞Web網(wǎng)頁普遍使用的工具。網(wǎng)絡(luò)蜘蛛遍歷Web時還要考慮漢語的詞法、句法以及語義,因此中文空間,抓取Web文本,對抓取的Web文本進行解分詞比