基于本體的Web 信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究

基于本體的Web 信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究

ID:39402469

大?。?8.00 KB

頁(yè)數(shù):8頁(yè)

時(shí)間:2019-07-02

基于本體的Web 信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究_第1頁(yè)
基于本體的Web 信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究_第2頁(yè)
基于本體的Web 信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究_第3頁(yè)
基于本體的Web 信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究_第4頁(yè)
基于本體的Web 信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究_第5頁(yè)
資源描述:

《基于本體的Web 信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、基于本體的web信息抽取及本體的構(gòu)建實(shí)現(xiàn)研究賈賽1,喬鴻2(1.山東師范大學(xué)管理與經(jīng)濟(jì)學(xué)院管理科學(xué)與工程系,山東濟(jì)南250014;2.山東師范大學(xué)管理與經(jīng)濟(jì)學(xué)院管理科學(xué)與工程系,山東濟(jì)南250014)摘要:本文對(duì)當(dāng)前熱門(mén)的基于本體的web信息抽取技術(shù)進(jìn)行了分析,對(duì)比兩種基于本體的web信息抽取模型,為用戶和應(yīng)用程序服務(wù);之后從本體構(gòu)建的角度對(duì)他們進(jìn)行微博人物信息實(shí)例分析,本體的設(shè)計(jì)與實(shí)現(xiàn)都是對(duì)他們的權(quán)衡指標(biāo),指導(dǎo)信息抽取行為。關(guān)鍵字:web信息抽取;本體;抽取模型;微博中圖分類(lèi)號(hào):TP393Ontology-BasedInformationExtractionfromWebSour

2、cesandRealizationofOntologyConstructionJIASai1,QIAOHong2(1.SchoolofManagementandEconomics,ShandongNormalUniversity,JinanShandong250014,China;2.SchoolofManagementandEconomics,ShandongNormalUniversity,JinanShandong250014,China)Abstract:Thispaperanalysesthecurrentpopulartechnologyofontology-based

3、informationextraction,andcontraststhetwomodelsofontology-basedinformationextractionfortheuserandapplicationservice.Thenfromtheangleofontologyconstructionwecanusetheinstanceanalysisofmicroblogpersonalinformationtobalancethedesignandrealizationofontologymethod,directactivityofinformationextracti

4、on.Keywords:WebInformationExtraction;Ontology;ExtractionModel;MicroBlog可以看到,在信息時(shí)代的今天,信息的增長(zhǎng)速度已經(jīng)是讓我們瞠目結(jié)舌,隨著web的發(fā)展,在web上的各種各樣的信息也以不同的形式分布,我們?cè)撊绾卧谶@些繁多的,無(wú)結(jié)構(gòu)的web信息中找到我們真正需要的,就成了我們現(xiàn)在急需要解決的問(wèn)題;web信息抽取就是為了這個(gè)目的而存在,把web中的信息變成結(jié)構(gòu)化的,更有語(yǔ)義的模式結(jié)構(gòu)。而在web信息抽取技術(shù)中,基于本體的web信息抽取是其中一個(gè)比較重要的方向,它的實(shí)現(xiàn)可以幫助用戶更方便地在信息海洋中找到自己需要的信息

5、,減少應(yīng)用程序的資源浪費(fèi),適合人們的需求。1相關(guān)概念1.1本體本體(Ontology)的概念最初起源于哲學(xué)領(lǐng)域,20世紀(jì)70年代末JohnMcCarthy將這個(gè)哲學(xué)術(shù)語(yǔ)引入到計(jì)算機(jī)領(lǐng)域,在人工智能界,最早給Ontology定義的是Neches等人。他們將Ontology定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則定義”。1993年,Gruber給出了Ontology的一個(gè)最為流行的定義[1-2],即“Ontology是概念模型的明確規(guī)范說(shuō)明”。Ontology的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提出供該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同

6、認(rèn)可的詞匯,并從不同的層次的形式化模式上給出這些詞匯(術(shù)語(yǔ))和詞匯間相互關(guān)系的明確定義。1.2領(lǐng)域本體領(lǐng)域本體(DomainOntology),是專(zhuān)業(yè)性的本體,描述的是特定領(lǐng)域中的概念和概念之間的關(guān)系,提供了某個(gè)專(zhuān)業(yè)學(xué)科領(lǐng)域中概念的詞表以及概念間的關(guān)系,或在該領(lǐng)域里占主導(dǎo)地位的理論,能夠獨(dú)立的存在和被使用。1.3web信息抽取web信息抽取(WebInformationExtraction)是將web作為信息源的一類(lèi)信息抽取。簡(jiǎn)單的說(shuō),web信息抽取是指從web頁(yè)面中抽取用戶感興趣的信息而過(guò)濾掉不相關(guān)的信息,具體的是指研究如何將分散在半結(jié)構(gòu)化web頁(yè)面中的信息提取出來(lái),并以結(jié)構(gòu)化、

7、語(yǔ)義更為清晰的模式表示,它為用戶在web中查詢數(shù)據(jù)、應(yīng)用程序直接利用web數(shù)據(jù)提供了便利[3]。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn)。其主要功能就是把信息點(diǎn)從各種各樣的文檔中抽取出來(lái),然后以統(tǒng)一的形式集成在一起。2基于領(lǐng)域本體的web信息抽取這里我們研究的是基于領(lǐng)域本體的web信息抽取,這也是現(xiàn)在應(yīng)用比較廣泛,相對(duì)比較成熟的一種技術(shù)實(shí)現(xiàn);基于領(lǐng)域本體的web信息抽取的一個(gè)重要特點(diǎn)是具有較強(qiáng)的針對(duì)性,被抽取的通常是某個(gè)特定的類(lèi)型的文檔,即包含了一些較為

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。