基于語義相關(guān)度的中文文本聚類方法研究

ID：33327060

大?。?90.50 KB

頁數(shù)：10頁

時(shí)間：2019-02-24

資源描述：

《基于語義相關(guān)度的中文文本聚類方法研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、杜坤，劉懷亮，王幫金（西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院，陜西西安710126）基于語義相關(guān)度的中文文本聚類方法研究*本文為國家自然科學(xué)基金項(xiàng)目“基于復(fù)雜網(wǎng)絡(luò)的中文文本語義相似度研究”的研究成果，項(xiàng)目編號(hào)：71373200The?Research?on?Chinese?Text?Clustering?Method?Based?on?Semantic?Relevancy摘要：[目的/意義]基于向量空間模型的文本聚類中，文本相似度計(jì)算忽略特征項(xiàng)間語義關(guān)聯(lián)，針對(duì)此問題，提出一種改進(jìn)的語義文本相似度計(jì)算方法。[方法/過程]新方法利用維基百科知識(shí)庫計(jì)算語義相關(guān)度，結(jié)合特征項(xiàng)在文本中的表示權(quán)重

2、，構(gòu)造文本相似度語義加權(quán)因子，并進(jìn)行K-means文本聚類實(shí)驗(yàn)。[結(jié)果/結(jié)論]與傳統(tǒng)的余弦相似度相比，改進(jìn)后的語義文本相似度應(yīng)用在文本聚類上，能有效提高聚類的準(zhǔn)確度。[局限]語義相關(guān)度的計(jì)算沒有對(duì)詞語進(jìn)行消歧處理。關(guān)鍵詞：維基百科語義相關(guān)度文本相似度文本聚類Abstract:[Objective/significance]Thispaperproposesanimprovedsemantictextsimilaritycomputationmethodtosolvetheproblemoffeaturetermssemanticassociationdeficiencyinte

3、xtsimilaritycomputationfortextclusteringbasedonVectorSpaceModel.[Methods/process]Firstly,thefeaturetermssemanticrelevancyiscomputedwithWikipedia.Secondly,combiningtheweightoffeatureiteminthetext,atextsimilaritysemanticweightingfactorisconstructed.Finally,K-meansclusteringmethodisusedfortextc

4、lusteringexperiment.[Results/conclusion]Bycomparingwiththetraditionalcosinesimilarity,experimentalresultsshowthattheimprovedsemantictextsimilarityusedinthetextclusteringcaneffectivelyimprovetheaccuracyofclustering.[Limitations]Wordsensedisambiguationisignoredintheprocessofthefeaturetermssema

5、nticrelevancycomputation.Keywords:Wikipediasemanticrelevancytextsimilaritytextclustering1引言隨著網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展以及計(jì)算機(jī)的普及應(yīng)用，網(wǎng)絡(luò)社會(huì)產(chǎn)生了海量的數(shù)據(jù)信息。作為國內(nèi)互聯(lián)網(wǎng)文檔信息的主要內(nèi)容形式，中文文本的信息處理能夠幫助用戶快速、準(zhǔn)確獲得所需信息。通過聚類可以有效地管理文本數(shù)據(jù)，而文本間相似性度量是文本聚類的重要基礎(chǔ)。文本相似度通過計(jì)算來量化兩個(gè)文本間的相似程度，相似度數(shù)值越大，說明文本相似程度越高，反之文本相似程度越低，其在信息檢索[1]、文本分類[2]、輿情分析[3]等領(lǐng)

6、域中有著廣泛應(yīng)用。目前大部分的文本相似性度量都是基于向量空間的文本表示模型，把文本表示成對(duì)應(yīng)高維空間中的向量，利用向量之間的夾角余弦計(jì)算文本間相似度。實(shí)踐證明這種模型簡單高效并且得到了廣泛的應(yīng)用，但向量空間模型沒能充分考慮不同特征項(xiàng)之間的語義關(guān)聯(lián)，余弦相似度只能對(duì)文本間相同的特征項(xiàng)進(jìn)行計(jì)算分析，影響了文本相似度計(jì)算的準(zhǔn)確性。尤其是在文本聚類中，即使文本的特征項(xiàng)之間具有極強(qiáng)的相關(guān)性，但若兩個(gè)文本之間沒有相同的特征項(xiàng)，則余弦相似度仍會(huì)判定這兩個(gè)文本相似度為0，不會(huì)劃歸一類。許多學(xué)者10為解決文本相似度計(jì)算語義缺失的問題，提出了不同的改善方法。如文獻(xiàn)[4]在計(jì)算特征權(quán)重時(shí)引入語義信息

7、，把文本表示成語義向量空間模型，但仍使用余弦相似度度量文本相似程度；文獻(xiàn)[5]根據(jù)知網(wǎng)計(jì)算詞匯語義相似度，利用二部圖最大權(quán)匹配算法計(jì)算文本相似度，但沒有考慮特征項(xiàng)在文本中的表示權(quán)重；文獻(xiàn)[6]提出一種從句子、段落到文本分階段進(jìn)行的文本相似度計(jì)算方法，計(jì)算過程較為繁瑣。本文針對(duì)中文文本聚類特性，利用維基百科知識(shí)庫計(jì)算特征項(xiàng)間的語義相關(guān)度，同時(shí)結(jié)合特征項(xiàng)的權(quán)重指數(shù)，在余弦相似度基礎(chǔ)上提出一種基于語義的文本相似度計(jì)算方法，以提高文本聚類的準(zhǔn)確度。2相關(guān)理論基礎(chǔ)2.1向量空間模型向量空間模型[7]是

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 10



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于語義相關(guān)度的中文文本聚類方法研究

基于語義相關(guān)度的中文文本聚類方法研究

相關(guān)文章

相關(guān)標(biāo)簽