基于本體知識庫的自動語義標注_戚欣

ID：19308999

大小：313.78 KB

頁數(shù)：4頁

時間：2018-09-20

資源描述：

《基于本體知識庫的自動語義標注_戚欣》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、第28卷第5期計算機應(yīng)用研究Vol．28No．52011年5月ApplicationResearchofComputersMay2011*基于本體知識庫的自動語義標注戚欣，肖敏，孫建鵬(武漢理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院，武漢430063)摘要:為了產(chǎn)生語義Web中的元數(shù)據(jù)，需要提取Web文檔中的語義信息;面對海量的Web文檔，自動語義標注相對人工和半自動的語義標注是可行的方法。提出的基于本體知識庫的自動語義標注方法，旨在提高標注的質(zhì)量。為識別出文檔中的候選命名實體，設(shè)計了語義詞典的邏輯結(jié)構(gòu)，論述了以實體之間語義關(guān)聯(lián)路徑計算語義距離的方法;

2、語義標注中的復(fù)雜問題是語義消歧，提出了基于最短路徑的語義消歧方法和基于N-gram的語義消歧方法。針對構(gòu)建的測試數(shù)據(jù)集，進行的標注實驗表明該方法能夠依據(jù)本體知識庫，有效地對Web文檔進行自動語義標注。關(guān)鍵詞:語義標注;N-gram;語義消歧;有向圖;知識庫中圖分類號:TP301文獻標志碼:A文章編號:1001-3695(2011)05-1742-03doi:10．3969/j．issn．1001-3695．2011．05．042Automaticsemanticannotationbasedonontologyandknowledgeba

3、seQIXin，XIAOMin，SUNJian-peng(CollegeofComputerScience＆Technology，WuhanUniversityofTechnology，Wuhan430063，China)Abstract:Torecognizecandidatenamedentities，designedthesemanticdictionaryandcalculatedsemanticdistancebetweenentitiesbysemanticrelevancepath．Themostcomplexproblem

4、insemanticannotationwassemanticdisambiguation．ThispaperproposedasemanticdisambiguationmethodbasedontheshortestpathandN-gram．Experimentswasmadeonanewscorpus．Theresultshowsthatthemethodiseffectiveforthetaskofautomaticsemanticannotation．Keywords:semanticannotation;N-gram;sem

5、anticdisambiguation;directedacyclicgraph;knowledgebase為了更高效地管理和訪問Web內(nèi)容，語義Web向Web內(nèi)如組織(organization)、人(person)、地點(location)、日期［1］容中增加了形式化結(jié)構(gòu)和語義(元數(shù)據(jù)和知識)。語義Web(date)、錢數(shù)量(money)等。雖然這些類型已經(jīng)覆蓋了最重要遠景的實現(xiàn)依賴于海量的元數(shù)據(jù)，而如何獲得這種元數(shù)據(jù)是一的、領(lǐng)域無關(guān)的命名實體類型，然而針對具體的應(yīng)用領(lǐng)域，相同個必須面對的重要挑戰(zhàn)。將數(shù)以億計的現(xiàn)存網(wǎng)頁進行人工的的命名實

6、體類型還可以進一步細化，如大學(xué)、學(xué)院、系都是or-語義標注顯然不是一個可行的方法，所以完全自動地進行語義ganization。標注正逐漸成為引人關(guān)注的研究問題。本文討論的語義標注本文中的自動語義標注是基于本體知識庫的，故命名實體實際上是產(chǎn)生語義Web中的元數(shù)據(jù)層。只有基于元數(shù)據(jù)層，應(yīng)該識別為更細致的類型，即本體知識庫中的語義對象。如果所有的語義Web應(yīng)用才可能變?yōu)楝F(xiàn)實?？紤]到將語義標注的結(jié)果用于語義信息檢索，則需要將識別出語義標注是指從知識庫和文檔庫到標注結(jié)果的映射，記為的命名實體標注為知識庫中的實體。entmδds×kb→{}。其中，

7、ds={doc1，doc2，…，doci，…，docm}1命名實體識別doci表示文檔庫，doci表示文檔庫中第i個文檔，m表示文檔數(shù)量，命名實體(namedentity，NE)是指人、組織、地點和其他通且0＜i＜m;kb={ent1，ent2，…，entm，…，entk}表示用于標注文過名稱引用的事物。更寬泛的解釋包括任何引用世界中特定［2］檔的實體，k表示實體數(shù)量，且0＜m＜k。事物的符號:數(shù)字、地點、錢數(shù)量、日期等。目前研究自動語義標注主要利用的技術(shù)包括預(yù)定義規(guī)則、命名實體識別就是要判斷一個字符串是否代表一個命名機器學(xué)習(xí)、分類模型、

8、序列模型、主謂賓語法成分、本體等。利實體，并確定它的類別。在信息抽取研究中，命名實體識別是［3］用本體中信息的自動語義標注的典型系統(tǒng)是SemTag，其依目前最有實用價值的一項技術(shù)。根據(jù)MUC評

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于本體知識庫的自動語義標注_戚欣

基于本體知識庫的自動語義標注_戚欣

相關(guān)文章

相關(guān)標簽