資源描述:
《基于醫(yī)學(xué)本體的語義相似度算法研究.pdf》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、2014年第12期文章編號:1009—2552(2014)12—0207—04中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A基于醫(yī)學(xué)本體的語義相似度算法研究劉如意,楊鶴標(biāo)(江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇鎮(zhèn)江212013)摘要:基于本體的信息檢索技術(shù)能夠提高在復(fù)雜環(huán)境中的信息檢索效率,而語義相似度計(jì)算是基于本體的信息檢索技術(shù)的關(guān)鍵技術(shù)。在醫(yī)療領(lǐng)域本體的基礎(chǔ)上,通過分析討論了概念間的語義相似度與相關(guān)度,并對概念間的語義相似度與相關(guān)度的影響因素進(jìn)行研究,提出了一種計(jì)算醫(yī)療概念問的語義相似度及相關(guān)度的數(shù)值,并得到兩者綜合值的計(jì)算模型。實(shí)驗(yàn)結(jié)果表明,該模型能夠提高相似度數(shù)值的有效性,并通過對相似度數(shù)值
2、的計(jì)算體現(xiàn)出醫(yī)療領(lǐng)域概念間的復(fù)雜關(guān)系。關(guān)鍵詞:語義相似度;語義相關(guān)度;醫(yī)療領(lǐng)域;本體ResearchonsemanticsimilarityalgorithmbasedonmedicalontologyLIURu.yi.YANGHe.biao(SchoolofComputerScienceandCommunicationEngineering,JiangsuUniversity,Zhenjiang212013,JiangsuProvince,China)Abstract:Informationretrievaltechnologybasedonontologycanimpmveeficie
3、ncyincomplexenvironment.SemanticsimilaritycalculationisthekeytechnologyofInformationretrievalbasedonontology.Thispaperanalyzessemanticsimilarityandcorrelationbetweenconcepts,anddoresearchonfactorsonbasisofmedicalontology.Similarityvaluesofsemanticsimilarityandcorrelationbetweenconceptsareproposed,
4、aswellasamodelofvalues’combination.Theexperimentshowsthatthemodelcanimproveeficiencyofthesimilarityvaluesandreflectcomplexrelationbetweenconceptsinmedicaldomain.Keywords:semanticsimilarity;semanticrelevancy;medicaldomain;ontology0引言醫(yī)療保險(xiǎn)領(lǐng)域欺詐行為檢測具有重要意義。在醫(yī)學(xué)領(lǐng)域,語義相似度計(jì)算可以提高對醫(yī)療醫(yī)療欺詐行為檢測旨在從海量醫(yī)療保險(xiǎn)數(shù)據(jù)中資源的信息檢索
5、的性能,并且可以有效地促進(jìn)對異檢測出具有異常狀態(tài)的數(shù)據(jù)并加以驗(yàn)證其是否具有構(gòu)臨床數(shù)據(jù)的集成。傳統(tǒng)的基于本體的語義相似度欺詐性。然而醫(yī)學(xué)數(shù)字信息資源的特殊性為醫(yī)療檢計(jì)算的方法主要分為2種。其中一種是基于信息論測增加了難度,需要不斷創(chuàng)新檢測工具,提高檢測效的方法,利用信息論來計(jì)算兩個(gè)概念之間共享信息率。領(lǐng)域本體(DomainOntology)主要解決領(lǐng)域知識的程度,其具有較高的理論嚴(yán)謹(jǐn)性,但只能粗略地量的抽象問題,是用于描述某個(gè)特定領(lǐng)域的本體,其定化出概念之間的語義相似度,卻并不能實(shí)現(xiàn)對概念義了該領(lǐng)域的概念與概念之間的關(guān)系,并且描述了間語義相似度的細(xì)致區(qū)分;另一種是基于語義距離該領(lǐng)域的基本原理
6、、主要實(shí)體及活動(dòng)關(guān)系,提供領(lǐng)域的計(jì)算方法,該方法以兩個(gè)概念之間路徑長短作為內(nèi)部知識的共享及知識重用的公共理解基礎(chǔ)。因此,領(lǐng)域本體可以幫助人們和計(jì)算機(jī)實(shí)現(xiàn)準(zhǔn)確的語收稿日期:2014—02—25義交流,并且大大提高信息檢索系統(tǒng)的效率和準(zhǔn)確作者簡介:劉如意(1989一),男,碩士研究生,研究方向?yàn)檐浖こ蹋畔z索,本體論。率。利用醫(yī)學(xué)領(lǐng)域本體的高效信息檢索能力對提升·.——207.-——測量語義距離的大小,通過計(jì)算兩個(gè)概念間的語義距般取值范圍也在0到1之間。離大小來實(shí)現(xiàn)概念間語義相似度的計(jì)算,此方法雖簡1.1基于本體的語義相似度計(jì)算單、直觀,但它忽略了影響語義距離的很多其他因素。1.1.1相似
7、度定義針對以上研究情況,本文提出了一種基于本體的語義對于相似度,首先給出一個(gè)基本的形式化定義,相似度及相關(guān)度的綜合語義相似度計(jì)算方法。并相應(yīng)的給出一些基本的性質(zhì)。l語義的相似度及相關(guān)度定義l:當(dāng)兩個(gè)概念a,b在某些方面具有共同劉群的文獻(xiàn)認(rèn)為詞語的語義相似度是一個(gè)主觀的特征時(shí),則定義它們是相似的,用sim(a,b)表示性相當(dāng)強(qiáng)的概念,脫離了具體的應(yīng)用去研究詞語相概念a,b之間的相似度。該定義應(yīng)當(dāng)滿足以下性質(zhì):似度是很難得到