資源描述:
《基于主題詞頻數(shù)特征的文本主題劃分.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、第26卷第8期計算機應(yīng)用VoI.26No.82006年8月ComputerAppIicationsAug.2006文章編號:1001-9081(2006)08-1993-03基于主題詞頻數(shù)特征的文本主題劃分112康愷,林坤輝,周昌樂(1.廈門大學(xué)軟件學(xué)院,福建廈門361005;2.廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,福建廈門361005)(3847051@gmaiI.com)摘要:目前文本分類所采用的文本—詞頻矩陣具有詞頻維數(shù)過大和過于稀疏兩個特點,給計算造成了一定困難。為解決這一問題,從用戶使用搜索引擎時選擇所需文本的心理出發(fā),提出了一種基于主題詞頻數(shù)特征的文本主題劃分
2、方法。該方法首先根據(jù)統(tǒng)計方法篩選各文本類的主題詞,然后以主題詞類替代單個詞作為特征采用模糊C-均值(FCM)算法施行文本聚類。實驗獲得了較好的主題劃分效果,并與一種基于詞聚類的文本聚類方法進行了過程及結(jié)果中多個方面的比較,得出了一些在實施要點和應(yīng)用背景上較有意義的結(jié)論。關(guān)鍵詞:搜索引擎;文本聚類;模糊C-均值;主題詞篩選中圖分類號:TP391文獻標(biāo)識碼:ANewtextcategorizationmethodbasedonthefreguencyoftopicwords112KANGKai,LINKun-hui,ZHOUChang-Ie(1.SchoolofSof
3、tware,XiamenUniuersity,FujianXiamen361005,China;2.SchoolofInformationScienceandTechnology,XiamenUniuersity,FujianXiamen361005,China)Abstract:ThewordfreguencymatrixcurrentIyusedintextcategorizationischaracterizedwithhighdimensionaIityandexcessivesparsity.Thesetwofeaturescausedsomediffi
4、cuItiestocomputing.TosoIvethisprobIem,accordingtothesearchengineusersseIections,anewtextcategorizationmethodbaseduponthefeatureoftopicwordsfreguencywasproposed.ThisapproachwasdesignedtofiIternewconcepttopicwordsbystatisticaImethod,andthentheFCMcIusteringaIgorismwasappIiedtothedocument
5、s,usingthefreguencyoftopicwordsratherthanthefreguencyofsingIewordasthefeature.ThismethodperformsweIIintheexperiment.Furthermore,thismethodwascomparedinmanyaspectswithatextcategorizationmethodbasedonkeywordcIusters,andsomeusefuIconcIusionsaboutimpIementationandappIicationwerereached.Ke
6、ywords:searchengine;documentcIustering;FuzzyC-Means(FCM);topicwordfiItering目前在文本主題劃分的研究過程中,多采用詞頻向量對行衡量。而主題信息量最為顯著的體現(xiàn),即在于文本中含有文本進行表示。由所有文本的詞頻向量構(gòu)成的文本—詞頻矩的主題相關(guān)詞匯的多少。例如某用戶在查詢“當(dāng)歸”的相關(guān)陣具有詞頻維數(shù)過大和矩陣過于稀疏的特點,對計算造成了頁面時,獲得以下兩段頁面摘要:很大的負擔(dān)和困難。詞頻維數(shù)過大,使得分類或聚類算法的1)當(dāng)歸味辛甘、微苦,性溫,是治療血分病最常用的藥,計算復(fù)雜度相當(dāng)高,即使去除大量
7、停用詞,情況仍然不能得到能使血各歸其所,故名當(dāng)歸。改善。而矩陣過于稀疏,造成大量特征值間差別較小,空間中2)《當(dāng)歸》這首歌專為中秋節(jié)而創(chuàng)作,旋律優(yōu)美,洋溢著存在大量孤立點,使得各種分類或聚類算法的效果不理想。濃濃的中國傳統(tǒng)風(fēng)格,寄托著作者濃濃的思鄉(xiāng)之情。當(dāng)訓(xùn)練語料的規(guī)模達到應(yīng)用所需求的相當(dāng)規(guī)模時,這兩個問如果該用戶想要獲取作為一種中草藥的當(dāng)歸的藥理知題就顯得更加嚴重。針對這些問題,研究者采取了一系列方識,他能夠很快地選擇第一個摘要所對應(yīng)的頁面,而在很大程法對詞空間進行降維。常用的降維技術(shù)有信息增益度上決定其判斷的因素,就在于摘要中有一系列中草藥主題(Informa
8、tionG