資源描述:
《基于本體知識庫的自動語義標注_戚欣》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、第28卷第5期計算機應(yīng)用研究Vol.28No.52011年5月ApplicationResearchofComputersMay2011*基于本體知識庫的自動語義標注戚欣,肖敏,孫建鵬(武漢理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院,武漢430063)摘要:為了產(chǎn)生語義Web中的元數(shù)據(jù),需要提取Web文檔中的語義信息;面對海量的Web文檔,自動語義標注相對人工和半自動的語義標注是可行的方法。提出的基于本體知識庫的自動語義標注方法,旨在提高標注的質(zhì)量。為識別出文檔中的候選命名實體,設(shè)計了語義詞典的邏輯結(jié)構(gòu),論述了以實體之間語義關(guān)聯(lián)路徑計算語義距離的方法;
2、語義標注中的復(fù)雜問題是語義消歧,提出了基于最短路徑的語義消歧方法和基于N-gram的語義消歧方法。針對構(gòu)建的測試數(shù)據(jù)集,進行的標注實驗表明該方法能夠依據(jù)本體知識庫,有效地對Web文檔進行自動語義標注。關(guān)鍵詞:語義標注;N-gram;語義消歧;有向圖;知識庫中圖分類號:TP301文獻標志碼:A文章編號:1001-3695(2011)05-1742-03doi:10.3969/j.issn.1001-3695.2011.05.042Automaticsemanticannotationbasedonontologyandknowledgeba
3、seQIXin,XIAOMin,SUNJian-peng(CollegeofComputerScience&Technology,WuhanUniversityofTechnology,Wuhan430063,China)Abstract:Torecognizecandidatenamedentities,designedthesemanticdictionaryandcalculatedsemanticdistancebetweenentitiesbysemanticrelevancepath.Themostcomplexproblem
4、insemanticannotationwassemanticdisambiguation.ThispaperproposedasemanticdisambiguationmethodbasedontheshortestpathandN-gram.Experimentswasmadeonanewscorpus.Theresultshowsthatthemethodiseffectiveforthetaskofautomaticsemanticannotation.Keywords:semanticannotation;N-gram;sem
5、anticdisambiguation;directedacyclicgraph;knowledgebase為了更高效地管理和訪問Web內(nèi)容,語義Web向Web內(nèi)如組織(organization)、人(person)、地點(location)、日期[1]容中增加了形式化結(jié)構(gòu)和語義(元數(shù)據(jù)和知識)。語義Web(date)、錢數(shù)量(money)等。雖然這些類型已經(jīng)覆蓋了最重要遠景的實現(xiàn)依賴于海量的元數(shù)據(jù),而如何獲得這種元數(shù)據(jù)是一的、領(lǐng)域無關(guān)的命名實體類型,然而針對具體的應(yīng)用領(lǐng)域,相同個必須面對的重要挑戰(zhàn)。將數(shù)以億計的現(xiàn)存網(wǎng)頁進行人工的的命名實
6、體類型還可以進一步細化,如大學(xué)、學(xué)院、系都是or-語義標注顯然不是一個可行的方法,所以完全自動地進行語義ganization。標注正逐漸成為引人關(guān)注的研究問題。本文討論的語義標注本文中的自動語義標注是基于本體知識庫的,故命名實體實際上是產(chǎn)生語義Web中的元數(shù)據(jù)層。只有基于元數(shù)據(jù)層,應(yīng)該識別為更細致的類型,即本體知識庫中的語義對象。如果所有的語義Web應(yīng)用才可能變?yōu)楝F(xiàn)實??紤]到將語義標注的結(jié)果用于語義信息檢索,則需要將識別出語義標注是指從知識庫和文檔庫到標注結(jié)果的映射,記為的命名實體標注為知識庫中的實體。entmδds×kb→{}。其中,
7、ds={doc1,doc2,…,doci,…,docm}1命名實體識別doci表示文檔庫,doci表示文檔庫中第i個文檔,m表示文檔數(shù)量,命名實體(namedentity,NE)是指人、組織、地點和其他通且0<i<m;kb={ent1,ent2,…,entm,…,entk}表示用于標注文過名稱引用的事物。更寬泛的解釋包括任何引用世界中特定[2]檔的實體,k表示實體數(shù)量,且0<m<k。事物的符號:數(shù)字、地點、錢數(shù)量、日期等。目前研究自動語義標注主要利用的技術(shù)包括預(yù)定義規(guī)則、命名實體識別就是要判斷一個字符串是否代表一個命名機器學(xué)習(xí)、分類模型、
8、序列模型、主謂賓語法成分、本體等。利實體,并確定它的類別。在信息抽取研究中,命名實體識別是[3]用本體中信息的自動語義標注的典型系統(tǒng)是SemTag,其依目前最有實用價值的一項技術(shù)。根據(jù)MUC評