資源描述:
《基于顯式語(yǔ)義研究本體概念匹配算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于顯式語(yǔ)義研究本體概念匹配算法 摘要本體相似度計(jì)算是本體領(lǐng)域的研究熱點(diǎn)。本體相似度計(jì)算可以利用本體概念匹配算法進(jìn)行衡量。本文針對(duì)本體合并工具prompt中本體概念匹配算法在計(jì)算本體概念相似度方面的不足,將基于維基百科的顯式語(yǔ)義分析方法應(yīng)用于本體概念相似度計(jì)算中,有效提升本體相似度計(jì)算的準(zhǔn)確性和效率。【關(guān)鍵詞】本體概念匹配Prompt顯式語(yǔ)義分析維基百科近年來(lái),本體已經(jīng)被廣泛的應(yīng)用到知識(shí)工程、語(yǔ)義Web、人工智能、數(shù)據(jù)集成、信息檢索等研究領(lǐng)域。關(guān)于本體相似度計(jì)算也隨之成為了研究熱點(diǎn)。為了計(jì)算本體之間
2、的相似度,可以利用本體概念匹配算法進(jìn)行衡量。通過(guò)本體概念的相似度描述本體之間的相似度,進(jìn)而完成本體映射和本體其他相關(guān)計(jì)算。本文首先分析了當(dāng)前主要的本體合并工具中的本體概念匹配算法,針對(duì)本體概念匹配算法在計(jì)算本體概念相似度方面的不足,將基于維基百科的顯式語(yǔ)義分析方法應(yīng)用于本體概念相似度計(jì)算中,以此來(lái)有效的提升本體相似度計(jì)算的準(zhǔn)確性和效率。1顯式語(yǔ)義分析7為了克服本體合并工具prompt在本體概念匹配中忽略了概念的語(yǔ)義信息這個(gè)缺陷,采用顯式語(yǔ)義分析取代字符匹配來(lái)提高本體概念匹配的準(zhǔn)確性和效率。顯式語(yǔ)義分析
3、(ExplicitSemanticAnalysis,簡(jiǎn)稱(chēng)ESA)是一種類(lèi)似于廣泛應(yīng)用與信息獲取領(lǐng)域的向量空間模型的方法。EvgeniyGabrilovich和ShaulMarkovitch提出了基于維基百科的ESA算法,它不是通過(guò)比較詞的權(quán)重向量來(lái)比較查詢(xún)的詞和文檔之間的相關(guān)性,而是通過(guò)比較與詞相關(guān)的維基文檔的權(quán)重向量來(lái)計(jì)算相似度。每個(gè)維基概念都是由出現(xiàn)在這個(gè)文章中的詞向量來(lái)表示,向量的矢量是通過(guò)TFIDF模型得出的權(quán)值,這些權(quán)值表明了詞和概念之間聯(lián)系的緊密度。由于這個(gè)方法使用的維基概念都是人們所認(rèn)識(shí)
4、的、所熟知的概念,而不是像LSA方法中通過(guò)純粹的統(tǒng)計(jì)方法得出來(lái)的潛在概念,所以被稱(chēng)為顯示語(yǔ)義分析?;诰S基百科的ESA算法相對(duì)于其它語(yǔ)義分析方法取得了更好的性能表現(xiàn),表3給出了不同計(jì)算方法間的性能比較?;诰S基百科的ESA算法將維基百科數(shù)據(jù)集中每篇文檔對(duì)應(yīng)于一個(gè)詞條,利用文檔中的詞語(yǔ)解釋詞條的語(yǔ)義內(nèi)涵,詞語(yǔ)的權(quán)值通過(guò)TFIDF計(jì)算,每個(gè)詞條就表示為一個(gè)帶權(quán)向量。然后按照詞語(yǔ)建立倒排索引,每個(gè)詞語(yǔ)可以表示為詞條集對(duì)應(yīng)多維空間中的向量,詞語(yǔ)之間的語(yǔ)義相關(guān)性就可以通過(guò)向量距離進(jìn)行計(jì)算,見(jiàn)表3。7文檔T={w
5、i}表示輸入文檔,表示與{wi}相對(duì)應(yīng)的TF》IDF向量;用表示詞語(yǔ)wi的倒排索引向量,其中kj為詞語(yǔ)wi相對(duì)于詞條cj(cj∈{c1,c2,…,cN})的倒排權(quán)值,N為維基百科中所有詞條的數(shù)目;文檔T對(duì)應(yīng)為長(zhǎng)度為N的語(yǔ)義解釋向量V,其第i緯度詞條cj對(duì)應(yīng)的詞條權(quán)重為∑wi∈Tvi·kj;文檔Ti和Tj之間的語(yǔ)義相似度可以用其對(duì)應(yīng)向量Vi和Vj夾角的余弦值表示,詞語(yǔ)wi和wj之間的語(yǔ)義相似度可以用對(duì)應(yīng)向量Ki和Kj夾角的余弦值表示:EvgeniyGabrilovich和ShaulMarkovitch提
6、出的基于維基百科的ESA算法是針對(duì)西文文本的,中文文本與西文文本相比,詞與詞之間并非用空格分開(kāi),需要借助相關(guān)技術(shù)將詞從詞條的正文中抽取出來(lái),這一過(guò)程稱(chēng)為分詞。本文使用的是中科院的ictclas分詞工具,在此向作者表示感謝。由于中科院的分詞工具分詞粒度過(guò)細(xì),造成中文詞語(yǔ)間相似度沒(méi)有預(yù)期理想,對(duì)基于維基百科的ESA算法進(jìn)行了改進(jìn),在分詞的基礎(chǔ)上加入了維基百科詞條的正文中詞條鏈接信息,以提高中文詞語(yǔ)間相似度的準(zhǔn)確性。2實(shí)驗(yàn)研究7基于維基百科的ESA算法的編程實(shí)現(xiàn)分為兩部分:預(yù)處理中文維基百科數(shù)據(jù)生成詞向量和
7、根據(jù)詞向量對(duì)兩個(gè)中文詞語(yǔ)語(yǔ)義相似度進(jìn)行計(jì)算。預(yù)處理的具體步驟為:先解析2.9G的中文維基百科的XML文件,對(duì)解析后的內(nèi)容進(jìn)行繁體轉(zhuǎn)簡(jiǎn)體處理、分詞處理和鏈接信息提取,然后建立每個(gè)條目的屬性向量,共有800751個(gè)詞條,接下來(lái)對(duì)屬性向量進(jìn)行倒排索引建立詞向量,共2239226個(gè)詞向量,最后進(jìn)行壓縮詞向量和標(biāo)準(zhǔn)化詞向量。改進(jìn)后的基于維基百科的ESA算法在中文詞語(yǔ)語(yǔ)義相似度計(jì)算上準(zhǔn)確性接近了ESA算法在西文詞語(yǔ)語(yǔ)義相似度計(jì)算上的準(zhǔn)確率,計(jì)算效率4ms左右,相比傳統(tǒng)的潛在語(yǔ)義分析方法在準(zhǔn)確性和效率上都有顯著提高
8、。將改進(jìn)后的基于維基百科的ESA算法替代Prompt的原有本體概念匹配算法,即用基于維基百科的ESA算法的計(jì)算部分代碼替換Prompt中進(jìn)行概念匹配的源代碼?;诰S基百科的ESA算法的計(jì)算部分代碼如下:protectedstaticdoubleComputeSemanticRelatedness(stringFirstText,stringSecondText,CompressedTVectorListTVList){CompressedTVectorF