基于語(yǔ)義相關(guān)度的中文文本聚類方法研究

基于語(yǔ)義相關(guān)度的中文文本聚類方法研究

ID:33327060

大小:190.50 KB

頁(yè)數(shù):10頁(yè)

時(shí)間:2019-02-24

基于語(yǔ)義相關(guān)度的中文文本聚類方法研究_第1頁(yè)
基于語(yǔ)義相關(guān)度的中文文本聚類方法研究_第2頁(yè)
基于語(yǔ)義相關(guān)度的中文文本聚類方法研究_第3頁(yè)
基于語(yǔ)義相關(guān)度的中文文本聚類方法研究_第4頁(yè)
基于語(yǔ)義相關(guān)度的中文文本聚類方法研究_第5頁(yè)
資源描述:

《基于語(yǔ)義相關(guān)度的中文文本聚類方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、杜坤,劉懷亮,王幫金(西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,陜西西安710126)基于語(yǔ)義相關(guān)度的中文文本聚類方法研究*本文為國(guó)家自然科學(xué)基金項(xiàng)目“基于復(fù)雜網(wǎng)絡(luò)的中文文本語(yǔ)義相似度研究”的研究成果,項(xiàng)目編號(hào):71373200The?Research?on?Chinese?Text?Clustering?Method?Based?on?Semantic?Relevancy摘要:[目的/意義]基于向量空間模型的文本聚類中,文本相似度計(jì)算忽略特征項(xiàng)間語(yǔ)義關(guān)聯(lián),針對(duì)此問(wèn)題,提出一種改進(jìn)的語(yǔ)義文本相似度計(jì)算方法。[方法/過(guò)程]新方法利用維基百科知識(shí)庫(kù)計(jì)算語(yǔ)義相關(guān)度,結(jié)合特征項(xiàng)在文本中的表示權(quán)重

2、,構(gòu)造文本相似度語(yǔ)義加權(quán)因子,并進(jìn)行K-means文本聚類實(shí)驗(yàn)。[結(jié)果/結(jié)論]與傳統(tǒng)的余弦相似度相比,改進(jìn)后的語(yǔ)義文本相似度應(yīng)用在文本聚類上,能有效提高聚類的準(zhǔn)確度。[局限]語(yǔ)義相關(guān)度的計(jì)算沒(méi)有對(duì)詞語(yǔ)進(jìn)行消歧處理。關(guān)鍵詞:維基百科語(yǔ)義相關(guān)度文本相似度文本聚類Abstract:[Objective/significance]Thispaperproposesanimprovedsemantictextsimilaritycomputationmethodtosolvetheproblemoffeaturetermssemanticassociationdeficiencyinte

3、xtsimilaritycomputationfortextclusteringbasedonVectorSpaceModel.[Methods/process]Firstly,thefeaturetermssemanticrelevancyiscomputedwithWikipedia.Secondly,combiningtheweightoffeatureiteminthetext,atextsimilaritysemanticweightingfactorisconstructed.Finally,K-meansclusteringmethodisusedfortextc

4、lusteringexperiment.[Results/conclusion]Bycomparingwiththetraditionalcosinesimilarity,experimentalresultsshowthattheimprovedsemantictextsimilarityusedinthetextclusteringcaneffectivelyimprovetheaccuracyofclustering.[Limitations]Wordsensedisambiguationisignoredintheprocessofthefeaturetermssema

5、nticrelevancycomputation.Keywords:Wikipediasemanticrelevancytextsimilaritytextclustering1引言隨著網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展以及計(jì)算機(jī)的普及應(yīng)用,網(wǎng)絡(luò)社會(huì)產(chǎn)生了海量的數(shù)據(jù)信息。作為國(guó)內(nèi)互聯(lián)網(wǎng)文檔信息的主要內(nèi)容形式,中文文本的信息處理能夠幫助用戶快速、準(zhǔn)確獲得所需信息。通過(guò)聚類可以有效地管理文本數(shù)據(jù),而文本間相似性度量是文本聚類的重要基礎(chǔ)。文本相似度通過(guò)計(jì)算來(lái)量化兩個(gè)文本間的相似程度,相似度數(shù)值越大,說(shuō)明文本相似程度越高,反之文本相似程度越低,其在信息檢索[1]、文本分類[2]、輿情分析[3]等領(lǐng)

6、域中有著廣泛應(yīng)用。目前大部分的文本相似性度量都是基于向量空間的文本表示模型,把文本表示成對(duì)應(yīng)高維空間中的向量,利用向量之間的夾角余弦計(jì)算文本間相似度。實(shí)踐證明這種模型簡(jiǎn)單高效并且得到了廣泛的應(yīng)用,但向量空間模型沒(méi)能充分考慮不同特征項(xiàng)之間的語(yǔ)義關(guān)聯(lián),余弦相似度只能對(duì)文本間相同的特征項(xiàng)進(jìn)行計(jì)算分析,影響了文本相似度計(jì)算的準(zhǔn)確性。尤其是在文本聚類中,即使文本的特征項(xiàng)之間具有極強(qiáng)的相關(guān)性,但若兩個(gè)文本之間沒(méi)有相同的特征項(xiàng),則余弦相似度仍會(huì)判定這兩個(gè)文本相似度為0,不會(huì)劃歸一類。許多學(xué)者10為解決文本相似度計(jì)算語(yǔ)義缺失的問(wèn)題,提出了不同的改善方法。如文獻(xiàn)[4]在計(jì)算特征權(quán)重時(shí)引入語(yǔ)義信息

7、,把文本表示成語(yǔ)義向量空間模型,但仍使用余弦相似度度量文本相似程度;文獻(xiàn)[5]根據(jù)知網(wǎng)計(jì)算詞匯語(yǔ)義相似度,利用二部圖最大權(quán)匹配算法計(jì)算文本相似度,但沒(méi)有考慮特征項(xiàng)在文本中的表示權(quán)重;文獻(xiàn)[6]提出一種從句子、段落到文本分階段進(jìn)行的文本相似度計(jì)算方法,計(jì)算過(guò)程較為繁瑣。本文針對(duì)中文文本聚類特性,利用維基百科知識(shí)庫(kù)計(jì)算特征項(xiàng)間的語(yǔ)義相關(guān)度,同時(shí)結(jié)合特征項(xiàng)的權(quán)重指數(shù),在余弦相似度基礎(chǔ)上提出一種基于語(yǔ)義的文本相似度計(jì)算方法,以提高文本聚類的準(zhǔn)確度。2相關(guān)理論基礎(chǔ)2.1向量空間模型向量空間模型[7]是

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。