基于課程本體的語義檢索研究及應用

基于課程本體的語義檢索研究及應用

ID:34851205

大小:1.29 MB

頁數(shù):60頁

時間:2019-03-12

基于課程本體的語義檢索研究及應用_第1頁
基于課程本體的語義檢索研究及應用_第2頁
基于課程本體的語義檢索研究及應用_第3頁
基于課程本體的語義檢索研究及應用_第4頁
基于課程本體的語義檢索研究及應用_第5頁
資源描述:

《基于課程本體的語義檢索研究及應用》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、重慶大學碩士學位論文語義檢索又稱概念檢索、知識檢索,是一種基于知識的、語義上的分析檢索,是在自然語言理解、計算語言學發(fā)展的基礎上產(chǎn)生,以知識庫為基礎的在查全率[5]和查準率都能較好滿足用戶檢索的檢索方式,是當前信息檢索發(fā)展趨勢。現(xiàn)階段用于支持語義檢索的知識庫一般以詞典的形式為主,如國外的Wordnet、[6]國內的Hownet等。Wordnet是基于心理語言規(guī)則的英文詞典,它以synsets為單位組織信息,synsets是在特定的上下文環(huán)境中可互換的同義詞集合,Wordnet可以獲得兩方面的信息:詞形和詞義;Hownet也稱為知網(wǎng),是一個以漢

2、語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。這種詞典形式的組織方式內容比較全面,有很好的指導參考作用,但是詞典形式也使詞條之間關系的復雜性在使用過程中存在效率問題。因此詞典形式的知識庫在知識組織上需要進一步的改變。同時基于良好概念層次結構并對邏輯推理提供支持的本體發(fā)展為語義檢索研究的熱點。本體是一種能夠在語義和知識層次上描述信息的概念模型建模工具,自提出來就引起了國內外眾多科研機構及人員的關注,并在計算機許多領域得到了廣泛應用,從而使得信息檢索從基于關鍵詞的層面提高到基于知識

3、層面成為可能。在傳統(tǒng)信息檢索技術中引入本體,不僅可以對用戶的檢索請求進行自然語言的處理和理解,還可以對文檔中的信息內容進行語義層次上的處理,從而在檢索過程中得到符合用戶需求的檢索結果。1.2國內外研究現(xiàn)狀近年來,美國、歐盟等大學實驗室和研究機構相繼提出了很多具有代表性的基[7]于本體的信息檢索系統(tǒng),如基于頂層本體設計的WebKB;基于XML表示的Quest、Elixir、XIRQL等。由于研究學者在這些系統(tǒng)研究開發(fā)過程中所側重的理念不盡相同,故本體在系統(tǒng)中扮演著不同的角色。文獻[7]依據(jù)文檔處理方式的不同,將基于本體的信息檢索系統(tǒng)分類基于知識

4、庫的語義檢索和基于語義網(wǎng)文檔的信息檢索?;谥R庫的語義檢索系統(tǒng)主要利用自然語言處理技術根據(jù)領域本體描述將網(wǎng)頁或自然語言文本轉換為大量信息實體。這種信息實體以某種知識表示語言描述存儲在知識庫中,搜索引擎可以對知識庫進行推理和檢索。早期的SHOE項目、歐洲科研信息系統(tǒng)AURIS-MM以及OntoText語義研究實驗室開發(fā)的KIM平臺都是基于知識庫的語義檢索系統(tǒng)?;谡Z義網(wǎng)文檔的信息檢索系統(tǒng)的處理對象主要包含語義標注語言的網(wǎng)頁,由語義網(wǎng)語言書寫的語義網(wǎng)文檔能夠被軟件代理直接訪問。它將語義網(wǎng)文檔中的語義信息轉換為搜索引擎能夠處理的統(tǒng)一格式存儲在一個

5、RDF文件或者OWL文件21緒論中,這類系統(tǒng)包括Ontobroker、馬里蘭大學設計和研發(fā)的基于語義網(wǎng)搜索引擎原型系統(tǒng)Swoogle以及UMBC大學eBiquity實驗室開發(fā)的語義網(wǎng)信息檢索、推理引擎OWLIR等。[8]目前國內研究基于本體的知識檢索文獻主要分為4類:一是分析本體檢索的特點,從理論上論證本體適用于檢索的優(yōu)點;二是提出基于本體檢索的原型或設計框架,但還沒有系統(tǒng)的實現(xiàn);三是從系統(tǒng)實現(xiàn)的角度探討本體檢索系統(tǒng),但對本體的理解各有千秋。四是重點研究基于本體信息檢索機制,主要分為三類:一類是研究基于本體的語義相似度計算;第二類是對知識的描

6、述邏輯研究實現(xiàn)對本體查詢機制的探索;第三類是基于本體技術,同時結合語義分析技術探索本體檢索模型?;诒倔w的知識檢索研究之所以具有如此多的研究熱點,主要原因在于研究者希望通過引入本體解決目前檢索中存在的檢索效率無法很好滿足檢索需求的現(xiàn)狀。基于本體的檢索在知識層面上進行檢索匹配,刻畫了知識概念間的內在關系,因此挖掘出隱含的、不明確的信息和概念,除了在檢索效率方面能夠更好滿足用[9]戶要求,還具有其他明顯優(yōu)勢:①語義理解由于用戶的職業(yè)、地域或學歷層次的差異,對同一個事物的描述可以用不同的語言文字進行表達。因此對同一概念的表達,不同的用戶可能使用不同

7、關鍵字。本體中可以對同一個概念映射到不同的詞條,理解用戶檢索需求,從而解決表達差異的問題。②檢索范圍準確由于本體以語義分析為基礎,相對于采用關鍵字全文檢索而言,本體采用基于概念的檢索。通過知識概念檢索技術,明確和縮小了檢索范圍,從而減少對無用信息的檢索,提高檢索效率。③檢索結果綜合本體實現(xiàn)在人和Agent間對共享信息結構的認識,由于本體包含概念之間的關系,因此檢索的結果還可以將檢索需求相關的一些信息返回給用戶。如查詢“計算機網(wǎng)絡總線拓撲”,返回信息可能不僅包含該拓撲結構的知識,還可能包含“星型拓撲”,“環(huán)形拓撲”等其它網(wǎng)絡拓撲信息。④具有文本

8、挖掘功能比如對數(shù)字的理解,新詞學習等。如“跳轉尋址”,可以根據(jù)文檔中對它的描述,如指令格式、操作碼和地址碼等內容,這些在本體中都有相應的概念名,并且這些概念同時修飾

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。