基于本體deep web語(yǔ)義搜索引擎

ID：32348269

大?。?.40 MB

頁(yè)數(shù)：71頁(yè)

時(shí)間：2019-02-03

資源描述：

《基于本體deep web語(yǔ)義搜索引擎》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、廣西師范大學(xué)碩士研究生學(xué)位論文基于本體的DeepWeb語(yǔ)義搜索引擎研究生：譚春亮導(dǎo)師：蔣運(yùn)承教授年級(jí)：2005專業(yè)：計(jì)算機(jī)軟件與理論研究方向：語(yǔ)義Web摘要隨著WWW的迅速發(fā)展和普及，WWW成為一個(gè)巨大的信息資源庫(kù)，對(duì)這個(gè)信息資源庫(kù)的搜索出現(xiàn)了“信息過(guò)載”和“信息迷航”的問(wèn)題。由于WWW的自治性、開(kāi)放性、異構(gòu)性、動(dòng)態(tài)性和指數(shù)增長(zhǎng)等特點(diǎn)，目錄式搜索引擎、全文搜索引擎都暴露出了根本的缺點(diǎn)?；陉P(guān)鍵字查詢，只檢索靜態(tài)頁(yè)面，只能進(jìn)行“導(dǎo)航式”的檢索，導(dǎo)致了索引容量指數(shù)增長(zhǎng)、查全率和查準(zhǔn)率不斷降低等問(wèn)題。提高搜索引擎的查全率和查準(zhǔn)率，滿足用戶“知識(shí)粒度”檢

2、索的要求，同時(shí)能夠進(jìn)行語(yǔ)義層面的搜索，成為用戶對(duì)新一代搜索引擎提出的要求。為了從根本上解決這些問(wèn)題，新一代的搜索引擎要求必須對(duì)WWW進(jìn)行新的知識(shí)表示。萬(wàn)維網(wǎng)的創(chuàng)始人TimBerners-lee為此提出了新一代萬(wàn)維網(wǎng)的架構(gòu)—SemanticWeb，其上的信息具有良好的定義，使得人與機(jī)器、機(jī)器間能夠更好的實(shí)現(xiàn)信息的共享與協(xié)作。SemanticWeb能夠從根本上解決傳統(tǒng)搜索引擎所暴露出來(lái)的問(wèn)題。由于WWW的自治性特點(diǎn)，SemanticWeb的接受需要一個(gè)相當(dāng)長(zhǎng)的時(shí)間，并且由于SemanticWeb的研究大都停留在理論研究階段，所以新一代搜索引擎難以實(shí)現(xiàn)

3、。本文在新一代搜索引擎和WWW之間找到了一個(gè)結(jié)合點(diǎn)，將SemanticWeb的架構(gòu)應(yīng)用到DeepWeb的搜索，提出了基于本體的DeepWeb語(yǔ)義搜索引擎?；诒倔w的DeepWeb語(yǔ)義搜索引擎可以解決傳統(tǒng)搜索引擎只能搜索靜態(tài)頁(yè)面，無(wú)法進(jìn)行語(yǔ)義搜索，無(wú)法為用戶提供“知識(shí)粒度”檢索的缺點(diǎn)。本文的創(chuàng)新點(diǎn)如下：1、本文基于SemanticWeb架構(gòu)對(duì)DeepWeb進(jìn)行語(yǔ)義搜索，解決了傳統(tǒng)搜索引擎只能搜索靜態(tài)頁(yè)面，無(wú)法對(duì)DeepWeb進(jìn)行搜索，只能基于關(guān)鍵字搜索，無(wú)法進(jìn)行語(yǔ)義搜索，只對(duì)靜態(tài)頁(yè)面的內(nèi)容進(jìn)行索引，而不能進(jìn)行元數(shù)據(jù)索引的缺點(diǎn)，提高了搜索引擎的查全率

4、和查準(zhǔn)率，避免了搜索引擎索引容量的瓶頸問(wèn)題。2、本文通過(guò)對(duì)DeepWeb查詢接口進(jìn)行元數(shù)據(jù)提取，將查詢接口看作后臺(tái)數(shù)據(jù)庫(kù)的元模式，利用元數(shù)據(jù)描述語(yǔ)言RDF對(duì)查詢接口進(jìn)行RDF描述，然后結(jié)合領(lǐng)域本體對(duì)查詢接口的RDF元數(shù)據(jù)進(jìn)行RDF檢索，從而實(shí)現(xiàn)查詢接口的語(yǔ)義搜索，提高了查詢接口檢索的準(zhǔn)確率，由于查詢接口具有高度的領(lǐng)域相關(guān)性，所以提高了搜索引擎的查準(zhǔn)率。3、本文提出了基于領(lǐng)域本體的DeepWeb語(yǔ)義搜索引擎的框架，由DeepWeb爬蟲(chóng)、DeepWeb分類器、DeepWeb表單提取、自然語(yǔ)言查詢接口、語(yǔ)義推理、表單檢索器、Web檢索器、統(tǒng)一接口查詢和

5、結(jié)果集成模塊組成。在本文中重點(diǎn)分析了DeepWeb的發(fā)現(xiàn)、分類和查詢接口RDF的語(yǔ)義檢索，整個(gè)RDF檢索系統(tǒng)以Jena平臺(tái)為開(kāi)發(fā)平臺(tái)，以汽車領(lǐng)域本體和查詢接口RDF模型為例進(jìn)行了驗(yàn)證。4、基于知網(wǎng)的詞匯語(yǔ)義關(guān)系判斷算法以知網(wǎng)做為本體，采用基于結(jié)構(gòu)的模式匹配算I廣西師范大學(xué)碩士研究生學(xué)位論文法進(jìn)行詞匯邏輯關(guān)系的判斷；DeepWeb特征選擇算法采用詞匯頻度作為類內(nèi)、類間可分性判據(jù)以Tabu搜索策略進(jìn)行特征選擇；DeepWeb查詢接口RDF提取算法根據(jù)查詢接口Html代碼的特征進(jìn)行查詢接口Html代碼和查詢接口RDF模型的映射；DeepWeb查詢接口R

6、DF查詢算法以用戶輸入的關(guān)鍵詞序列為檢索條件，進(jìn)行關(guān)鍵詞序列的分類操作，概念推理算子操作，得到概念關(guān)鍵詞對(duì)序列和實(shí)例關(guān)鍵詞對(duì)序列，根據(jù)概念關(guān)鍵詞對(duì)序列采用RDQL語(yǔ)言對(duì)RDF進(jìn)行檢索，然后根據(jù)檢索結(jié)果和實(shí)例關(guān)鍵詞對(duì)序列以Http協(xié)議格式對(duì)Web進(jìn)行數(shù)據(jù)檢索。本文對(duì)上述算法進(jìn)行了實(shí)例驗(yàn)證。本文從理論上對(duì)基于SemanticWeb架構(gòu)的DeepWeb搜索引擎進(jìn)行了研究，提出了搜索引擎的大致框架和各關(guān)鍵部分的算法思想，完善了基于SemanticWeb架構(gòu)的DeepWeb搜索引擎的檢索流程，具有理論可行性，同時(shí)結(jié)合領(lǐng)域?qū)z索流程和各關(guān)鍵部分的算法進(jìn)行了實(shí)

7、例驗(yàn)證，整個(gè)系統(tǒng)可以在Jena平臺(tái)上開(kāi)發(fā)實(shí)現(xiàn)。關(guān)鍵詞：語(yǔ)義Web；語(yǔ)義搜索；DeepWeb；本體；分類II廣西師范大學(xué)碩士研究生學(xué)位論文Ontology-basedSemanticSearchEngineforDeepWebAuthor:TanChunliangSupervisor:ProfessorJiangYunchengGrade:2005Major:ComputerSoftwareandTheoryResearchArea:SemanticWebAbstractWWWhasbeenatremendousinformationdeposit

8、oryalongwithitsrapidevolutionandpopularization.SearchonWWWbecomemore

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 71



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于本體deep web語(yǔ)義搜索引擎

基于本體deep web語(yǔ)義搜索引擎

相關(guān)文章

相關(guān)標(biāo)簽