資源描述:
《基于本體deep web語(yǔ)義搜索引擎》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、廣西師范大學(xué)碩士研究生學(xué)位論文基于本體的DeepWeb語(yǔ)義搜索引擎研究生:譚春亮導(dǎo)師:蔣運(yùn)承教授年級(jí):2005專業(yè):計(jì)算機(jī)軟件與理論研究方向:語(yǔ)義Web摘要隨著WWW的迅速發(fā)展和普及,WWW成為一個(gè)巨大的信息資源庫(kù),對(duì)這個(gè)信息資源庫(kù)的搜索出現(xiàn)了“信息過(guò)載”和“信息迷航”的問(wèn)題。由于WWW的自治性、開(kāi)放性、異構(gòu)性、動(dòng)態(tài)性和指數(shù)增長(zhǎng)等特點(diǎn),目錄式搜索引擎、全文搜索引擎都暴露出了根本的缺點(diǎn)?;陉P(guān)鍵字查詢,只檢索靜態(tài)頁(yè)面,只能進(jìn)行“導(dǎo)航式”的檢索,導(dǎo)致了索引容量指數(shù)增長(zhǎng)、查全率和查準(zhǔn)率不斷降低等問(wèn)題。提高搜索引擎的查全率和查準(zhǔn)率,滿足用戶“知識(shí)粒度”檢
2、索的要求,同時(shí)能夠進(jìn)行語(yǔ)義層面的搜索,成為用戶對(duì)新一代搜索引擎提出的要求。為了從根本上解決這些問(wèn)題,新一代的搜索引擎要求必須對(duì)WWW進(jìn)行新的知識(shí)表示。萬(wàn)維網(wǎng)的創(chuàng)始人TimBerners-lee為此提出了新一代萬(wàn)維網(wǎng)的架構(gòu)—SemanticWeb,其上的信息具有良好的定義,使得人與機(jī)器、機(jī)器間能夠更好的實(shí)現(xiàn)信息的共享與協(xié)作。SemanticWeb能夠從根本上解決傳統(tǒng)搜索引擎所暴露出來(lái)的問(wèn)題。由于WWW的自治性特點(diǎn),SemanticWeb的接受需要一個(gè)相當(dāng)長(zhǎng)的時(shí)間,并且由于SemanticWeb的研究大都停留在理論研究階段,所以新一代搜索引擎難以實(shí)現(xiàn)
3、。本文在新一代搜索引擎和WWW之間找到了一個(gè)結(jié)合點(diǎn),將SemanticWeb的架構(gòu)應(yīng)用到DeepWeb的搜索,提出了基于本體的DeepWeb語(yǔ)義搜索引擎?;诒倔w的DeepWeb語(yǔ)義搜索引擎可以解決傳統(tǒng)搜索引擎只能搜索靜態(tài)頁(yè)面,無(wú)法進(jìn)行語(yǔ)義搜索,無(wú)法為用戶提供“知識(shí)粒度”檢索的缺點(diǎn)。本文的創(chuàng)新點(diǎn)如下:1、本文基于SemanticWeb架構(gòu)對(duì)DeepWeb進(jìn)行語(yǔ)義搜索,解決了傳統(tǒng)搜索引擎只能搜索靜態(tài)頁(yè)面,無(wú)法對(duì)DeepWeb進(jìn)行搜索,只能基于關(guān)鍵字搜索,無(wú)法進(jìn)行語(yǔ)義搜索,只對(duì)靜態(tài)頁(yè)面的內(nèi)容進(jìn)行索引,而不能進(jìn)行元數(shù)據(jù)索引的缺點(diǎn),提高了搜索引擎的查全率
4、和查準(zhǔn)率,避免了搜索引擎索引容量的瓶頸問(wèn)題。2、本文通過(guò)對(duì)DeepWeb查詢接口進(jìn)行元數(shù)據(jù)提取,將查詢接口看作后臺(tái)數(shù)據(jù)庫(kù)的元模式,利用元數(shù)據(jù)描述語(yǔ)言RDF對(duì)查詢接口進(jìn)行RDF描述,然后結(jié)合領(lǐng)域本體對(duì)查詢接口的RDF元數(shù)據(jù)進(jìn)行RDF檢索,從而實(shí)現(xiàn)查詢接口的語(yǔ)義搜索,提高了查詢接口檢索的準(zhǔn)確率,由于查詢接口具有高度的領(lǐng)域相關(guān)性,所以提高了搜索引擎的查準(zhǔn)率。3、本文提出了基于領(lǐng)域本體的DeepWeb語(yǔ)義搜索引擎的框架,由DeepWeb爬蟲(chóng)、DeepWeb分類器、DeepWeb表單提取、自然語(yǔ)言查詢接口、語(yǔ)義推理、表單檢索器、Web檢索器、統(tǒng)一接口查詢和
5、結(jié)果集成模塊組成。在本文中重點(diǎn)分析了DeepWeb的發(fā)現(xiàn)、分類和查詢接口RDF的語(yǔ)義檢索,整個(gè)RDF檢索系統(tǒng)以Jena平臺(tái)為開(kāi)發(fā)平臺(tái),以汽車領(lǐng)域本體和查詢接口RDF模型為例進(jìn)行了驗(yàn)證。4、基于知網(wǎng)的詞匯語(yǔ)義關(guān)系判斷算法以知網(wǎng)做為本體,采用基于結(jié)構(gòu)的模式匹配算I廣西師范大學(xué)碩士研究生學(xué)位論文法進(jìn)行詞匯邏輯關(guān)系的判斷;DeepWeb特征選擇算法采用詞匯頻度作為類內(nèi)、類間可分性判據(jù)以Tabu搜索策略進(jìn)行特征選擇;DeepWeb查詢接口RDF提取算法根據(jù)查詢接口Html代碼的特征進(jìn)行查詢接口Html代碼和查詢接口RDF模型的映射;DeepWeb查詢接口R
6、DF查詢算法以用戶輸入的關(guān)鍵詞序列為檢索條件,進(jìn)行關(guān)鍵詞序列的分類操作,概念推理算子操作,得到概念關(guān)鍵詞對(duì)序列和實(shí)例關(guān)鍵詞對(duì)序列,根據(jù)概念關(guān)鍵詞對(duì)序列采用RDQL語(yǔ)言對(duì)RDF進(jìn)行檢索,然后根據(jù)檢索結(jié)果和實(shí)例關(guān)鍵詞對(duì)序列以Http協(xié)議格式對(duì)Web進(jìn)行數(shù)據(jù)檢索。本文對(duì)上述算法進(jìn)行了實(shí)例驗(yàn)證。本文從理論上對(duì)基于SemanticWeb架構(gòu)的DeepWeb搜索引擎進(jìn)行了研究,提出了搜索引擎的大致框架和各關(guān)鍵部分的算法思想,完善了基于SemanticWeb架構(gòu)的DeepWeb搜索引擎的檢索流程,具有理論可行性,同時(shí)結(jié)合領(lǐng)域?qū)z索流程和各關(guān)鍵部分的算法進(jìn)行了實(shí)
7、例驗(yàn)證,整個(gè)系統(tǒng)可以在Jena平臺(tái)上開(kāi)發(fā)實(shí)現(xiàn)。關(guān)鍵詞:語(yǔ)義Web;語(yǔ)義搜索;DeepWeb;本體;分類II廣西師范大學(xué)碩士研究生學(xué)位論文Ontology-basedSemanticSearchEngineforDeepWebAuthor:TanChunliangSupervisor:ProfessorJiangYunchengGrade:2005Major:ComputerSoftwareandTheoryResearchArea:SemanticWebAbstractWWWhasbeenatremendousinformationdeposit
8、oryalongwithitsrapidevolutionandpopularization.SearchonWWWbecomemore