資源描述:
《基于語義相關(guān)度的中文文本聚類方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、杜坤,劉懷亮,王幫金(西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,陜西西安710126)基于語義相關(guān)度的中文文本聚類方法研究*本文為國家自然科學(xué)基金項(xiàng)目“基于復(fù)雜網(wǎng)絡(luò)的中文文本語義相似度研究”的研究成果,項(xiàng)目編號(hào):71373200The?Research?on?Chinese?Text?Clustering?Method?Based?on?Semantic?Relevancy摘要:[目的/意義]基于向量空間模型的文本聚類中,文本相似度計(jì)算忽略特征項(xiàng)間語義關(guān)聯(lián),針對(duì)此問題,提出一種改進(jìn)的語義文本相似度計(jì)算方法。[方法/過程]新方法利用維基百科知識(shí)庫計(jì)算語義相關(guān)度,結(jié)合特征項(xiàng)在文本中的表示權(quán)重
2、,構(gòu)造文本相似度語義加權(quán)因子,并進(jìn)行K-means文本聚類實(shí)驗(yàn)。[結(jié)果/結(jié)論]與傳統(tǒng)的余弦相似度相比,改進(jìn)后的語義文本相似度應(yīng)用在文本聚類上,能有效提高聚類的準(zhǔn)確度。[局限]語義相關(guān)度的計(jì)算沒有對(duì)詞語進(jìn)行消歧處理。關(guān)鍵詞:維基百科語義相關(guān)度文本相似度文本聚類Abstract:[Objective/significance]Thispaperproposesanimprovedsemantictextsimilaritycomputationmethodtosolvetheproblemoffeaturetermssemanticassociationdeficiencyinte
3、xtsimilaritycomputationfortextclusteringbasedonVectorSpaceModel.[Methods/process]Firstly,thefeaturetermssemanticrelevancyiscomputedwithWikipedia.Secondly,combiningtheweightoffeatureiteminthetext,atextsimilaritysemanticweightingfactorisconstructed.Finally,K-meansclusteringmethodisusedfortextc
4、lusteringexperiment.[Results/conclusion]Bycomparingwiththetraditionalcosinesimilarity,experimentalresultsshowthattheimprovedsemantictextsimilarityusedinthetextclusteringcaneffectivelyimprovetheaccuracyofclustering.[Limitations]Wordsensedisambiguationisignoredintheprocessofthefeaturetermssema
5、nticrelevancycomputation.Keywords:Wikipediasemanticrelevancytextsimilaritytextclustering1引言隨著網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展以及計(jì)算機(jī)的普及應(yīng)用,網(wǎng)絡(luò)社會(huì)產(chǎn)生了海量的數(shù)據(jù)信息。作為國內(nèi)互聯(lián)網(wǎng)文檔信息的主要內(nèi)容形式,中文文本的信息處理能夠幫助用戶快速、準(zhǔn)確獲得所需信息。通過聚類可以有效地管理文本數(shù)據(jù),而文本間相似性度量是文本聚類的重要基礎(chǔ)。文本相似度通過計(jì)算來量化兩個(gè)文本間的相似程度,相似度數(shù)值越大,說明文本相似程度越高,反之文本相似程度越低,其在信息檢索[1]、文本分類[2]、輿情分析[3]等領(lǐng)
6、域中有著廣泛應(yīng)用。目前大部分的文本相似性度量都是基于向量空間的文本表示模型,把文本表示成對(duì)應(yīng)高維空間中的向量,利用向量之間的夾角余弦計(jì)算文本間相似度。實(shí)踐證明這種模型簡單高效并且得到了廣泛的應(yīng)用,但向量空間模型沒能充分考慮不同特征項(xiàng)之間的語義關(guān)聯(lián),余弦相似度只能對(duì)文本間相同的特征項(xiàng)進(jìn)行計(jì)算分析,影響了文本相似度計(jì)算的準(zhǔn)確性。尤其是在文本聚類中,即使文本的特征項(xiàng)之間具有極強(qiáng)的相關(guān)性,但若兩個(gè)文本之間沒有相同的特征項(xiàng),則余弦相似度仍會(huì)判定這兩個(gè)文本相似度為0,不會(huì)劃歸一類。許多學(xué)者10為解決文本相似度計(jì)算語義缺失的問題,提出了不同的改善方法。如文獻(xiàn)[4]在計(jì)算特征權(quán)重時(shí)引入語義信息
7、,把文本表示成語義向量空間模型,但仍使用余弦相似度度量文本相似程度;文獻(xiàn)[5]根據(jù)知網(wǎng)計(jì)算詞匯語義相似度,利用二部圖最大權(quán)匹配算法計(jì)算文本相似度,但沒有考慮特征項(xiàng)在文本中的表示權(quán)重;文獻(xiàn)[6]提出一種從句子、段落到文本分階段進(jìn)行的文本相似度計(jì)算方法,計(jì)算過程較為繁瑣。本文針對(duì)中文文本聚類特性,利用維基百科知識(shí)庫計(jì)算特征項(xiàng)間的語義相關(guān)度,同時(shí)結(jié)合特征項(xiàng)的權(quán)重指數(shù),在余弦相似度基礎(chǔ)上提出一種基于語義的文本相似度計(jì)算方法,以提高文本聚類的準(zhǔn)確度。2相關(guān)理論基礎(chǔ)2.1向量空間模型向量空間模型[7]是