資源描述:
《基于課程本體的語(yǔ)義檢索研究及應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、重慶大學(xué)碩士學(xué)位論文語(yǔ)義檢索又稱概念檢索、知識(shí)檢索,是一種基于知識(shí)的、語(yǔ)義上的分析檢索,是在自然語(yǔ)言理解、計(jì)算語(yǔ)言學(xué)發(fā)展的基礎(chǔ)上產(chǎn)生,以知識(shí)庫(kù)為基礎(chǔ)的在查全率[5]和查準(zhǔn)率都能較好滿足用戶檢索的檢索方式,是當(dāng)前信息檢索發(fā)展趨勢(shì)?,F(xiàn)階段用于支持語(yǔ)義檢索的知識(shí)庫(kù)一般以詞典的形式為主,如國(guó)外的Wordnet、[6]國(guó)內(nèi)的Hownet等。Wordnet是基于心理語(yǔ)言規(guī)則的英文詞典,它以synsets為單位組織信息,synsets是在特定的上下文環(huán)境中可互換的同義詞集合,Wordnet可以獲得兩方面的信息:詞形和詞義;Hownet也稱為知網(wǎng),是一個(gè)以漢
2、語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。這種詞典形式的組織方式內(nèi)容比較全面,有很好的指導(dǎo)參考作用,但是詞典形式也使詞條之間關(guān)系的復(fù)雜性在使用過(guò)程中存在效率問(wèn)題。因此詞典形式的知識(shí)庫(kù)在知識(shí)組織上需要進(jìn)一步的改變。同時(shí)基于良好概念層次結(jié)構(gòu)并對(duì)邏輯推理提供支持的本體發(fā)展為語(yǔ)義檢索研究的熱點(diǎn)。本體是一種能夠在語(yǔ)義和知識(shí)層次上描述信息的概念模型建模工具,自提出來(lái)就引起了國(guó)內(nèi)外眾多科研機(jī)構(gòu)及人員的關(guān)注,并在計(jì)算機(jī)許多領(lǐng)域得到了廣泛應(yīng)用,從而使得信息檢索從基于關(guān)鍵詞的層面提高到基于知識(shí)
3、層面成為可能。在傳統(tǒng)信息檢索技術(shù)中引入本體,不僅可以對(duì)用戶的檢索請(qǐng)求進(jìn)行自然語(yǔ)言的處理和理解,還可以對(duì)文檔中的信息內(nèi)容進(jìn)行語(yǔ)義層次上的處理,從而在檢索過(guò)程中得到符合用戶需求的檢索結(jié)果。1.2國(guó)內(nèi)外研究現(xiàn)狀近年來(lái),美國(guó)、歐盟等大學(xué)實(shí)驗(yàn)室和研究機(jī)構(gòu)相繼提出了很多具有代表性的基[7]于本體的信息檢索系統(tǒng),如基于頂層本體設(shè)計(jì)的WebKB;基于XML表示的Quest、Elixir、XIRQL等。由于研究學(xué)者在這些系統(tǒng)研究開(kāi)發(fā)過(guò)程中所側(cè)重的理念不盡相同,故本體在系統(tǒng)中扮演著不同的角色。文獻(xiàn)[7]依據(jù)文檔處理方式的不同,將基于本體的信息檢索系統(tǒng)分類基于知識(shí)
4、庫(kù)的語(yǔ)義檢索和基于語(yǔ)義網(wǎng)文檔的信息檢索?;谥R(shí)庫(kù)的語(yǔ)義檢索系統(tǒng)主要利用自然語(yǔ)言處理技術(shù)根據(jù)領(lǐng)域本體描述將網(wǎng)頁(yè)或自然語(yǔ)言文本轉(zhuǎn)換為大量信息實(shí)體。這種信息實(shí)體以某種知識(shí)表示語(yǔ)言描述存儲(chǔ)在知識(shí)庫(kù)中,搜索引擎可以對(duì)知識(shí)庫(kù)進(jìn)行推理和檢索。早期的SHOE項(xiàng)目、歐洲科研信息系統(tǒng)AURIS-MM以及OntoText語(yǔ)義研究實(shí)驗(yàn)室開(kāi)發(fā)的KIM平臺(tái)都是基于知識(shí)庫(kù)的語(yǔ)義檢索系統(tǒng)?;谡Z(yǔ)義網(wǎng)文檔的信息檢索系統(tǒng)的處理對(duì)象主要包含語(yǔ)義標(biāo)注語(yǔ)言的網(wǎng)頁(yè),由語(yǔ)義網(wǎng)語(yǔ)言書寫的語(yǔ)義網(wǎng)文檔能夠被軟件代理直接訪問(wèn)。它將語(yǔ)義網(wǎng)文檔中的語(yǔ)義信息轉(zhuǎn)換為搜索引擎能夠處理的統(tǒng)一格式存儲(chǔ)在一個(gè)
5、RDF文件或者OWL文件21緒論中,這類系統(tǒng)包括Ontobroker、馬里蘭大學(xué)設(shè)計(jì)和研發(fā)的基于語(yǔ)義網(wǎng)搜索引擎原型系統(tǒng)Swoogle以及UMBC大學(xué)eBiquity實(shí)驗(yàn)室開(kāi)發(fā)的語(yǔ)義網(wǎng)信息檢索、推理引擎OWLIR等。[8]目前國(guó)內(nèi)研究基于本體的知識(shí)檢索文獻(xiàn)主要分為4類:一是分析本體檢索的特點(diǎn),從理論上論證本體適用于檢索的優(yōu)點(diǎn);二是提出基于本體檢索的原型或設(shè)計(jì)框架,但還沒(méi)有系統(tǒng)的實(shí)現(xiàn);三是從系統(tǒng)實(shí)現(xiàn)的角度探討本體檢索系統(tǒng),但對(duì)本體的理解各有千秋。四是重點(diǎn)研究基于本體信息檢索機(jī)制,主要分為三類:一類是研究基于本體的語(yǔ)義相似度計(jì)算;第二類是對(duì)知識(shí)的描
6、述邏輯研究實(shí)現(xiàn)對(duì)本體查詢機(jī)制的探索;第三類是基于本體技術(shù),同時(shí)結(jié)合語(yǔ)義分析技術(shù)探索本體檢索模型?;诒倔w的知識(shí)檢索研究之所以具有如此多的研究熱點(diǎn),主要原因在于研究者希望通過(guò)引入本體解決目前檢索中存在的檢索效率無(wú)法很好滿足檢索需求的現(xiàn)狀?;诒倔w的檢索在知識(shí)層面上進(jìn)行檢索匹配,刻畫了知識(shí)概念間的內(nèi)在關(guān)系,因此挖掘出隱含的、不明確的信息和概念,除了在檢索效率方面能夠更好滿足用[9]戶要求,還具有其他明顯優(yōu)勢(shì):①語(yǔ)義理解由于用戶的職業(yè)、地域或?qū)W歷層次的差異,對(duì)同一個(gè)事物的描述可以用不同的語(yǔ)言文字進(jìn)行表達(dá)。因此對(duì)同一概念的表達(dá),不同的用戶可能使用不同
7、關(guān)鍵字。本體中可以對(duì)同一個(gè)概念映射到不同的詞條,理解用戶檢索需求,從而解決表達(dá)差異的問(wèn)題。②檢索范圍準(zhǔn)確由于本體以語(yǔ)義分析為基礎(chǔ),相對(duì)于采用關(guān)鍵字全文檢索而言,本體采用基于概念的檢索。通過(guò)知識(shí)概念檢索技術(shù),明確和縮小了檢索范圍,從而減少對(duì)無(wú)用信息的檢索,提高檢索效率。③檢索結(jié)果綜合本體實(shí)現(xiàn)在人和Agent間對(duì)共享信息結(jié)構(gòu)的認(rèn)識(shí),由于本體包含概念之間的關(guān)系,因此檢索的結(jié)果還可以將檢索需求相關(guān)的一些信息返回給用戶。如查詢“計(jì)算機(jī)網(wǎng)絡(luò)總線拓?fù)洹?,返回信息可能不僅包含該拓?fù)浣Y(jié)構(gòu)的知識(shí),還可能包含“星型拓?fù)洹?,“環(huán)形拓?fù)洹钡绕渌W(wǎng)絡(luò)拓?fù)湫畔ⅰ"芫哂形谋?/p>
8、挖掘功能比如對(duì)數(shù)字的理解,新詞學(xué)習(xí)等。如“跳轉(zhuǎn)尋址”,可以根據(jù)文檔中對(duì)它的描述,如指令格式、操作碼和地址碼等內(nèi)容,這些在本體中都有相應(yīng)的概念名,并且這些概念同時(shí)修飾