基于wrapper的信息抽取技術(shù)

基于wrapper的信息抽取技術(shù)

ID:38711518

大?。?66.00 KB

頁(yè)數(shù):7頁(yè)

時(shí)間:2019-06-18

基于wrapper的信息抽取技術(shù)_第1頁(yè)
基于wrapper的信息抽取技術(shù)_第2頁(yè)
基于wrapper的信息抽取技術(shù)_第3頁(yè)
基于wrapper的信息抽取技術(shù)_第4頁(yè)
基于wrapper的信息抽取技術(shù)_第5頁(yè)
資源描述:

《基于wrapper的信息抽取技術(shù)》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、基于wrapper的信息抽取技術(shù)摘要web資源含有大量的有用信息,但由于它們欠結(jié)構(gòu)化,不能為傳統(tǒng)的數(shù)據(jù)庫(kù)型查詢(xún)系統(tǒng)所利用。如何將這些信息抽取出來(lái),轉(zhuǎn)化成結(jié)構(gòu)化信息,供其它信息集成系統(tǒng)所利用,成為該頂域的研究熱點(diǎn)。本文介紹了一個(gè)簡(jiǎn)單的web信息抽取模型,對(duì)基于該模型的wrapper歸納技術(shù)進(jìn)行了探討,并描述了一個(gè)wrapper自動(dòng)生成系統(tǒng)的原型。關(guān)鍵詞信息抽取wrapper歸納技術(shù)自動(dòng)生成原型系統(tǒng)WrapperBasedTechnologyofInformationExtractionAbstract

2、Thereisplentyofusefulinformationinwebresource.Itcan'tbeusedbythetraditionaldatabasequerysystembecauseitisnotwell-structured.Recentlyconsiderableattentionhasbeenreceivedonhowtoextractitfromwebresourceandtransferittostructuredinformationthatcanbeusedbyot

3、herinformationintegrationsystems.Thispaperpresentsasimplewebinformationextractionmodel,discussesthetechnologyofwrapperinductionbasedonthemodelanddescribesautomaticgenerationprototypesystemofwrapper.Keywordsinformationextractionwrapperinductionautomatic

4、generationprototypesystem 1:引言目前,隨著Internet網(wǎng)上信息的劇增,出現(xiàn)了所謂的“信息過(guò)載”和“信息迷向”問(wèn)題,即信息浩如瀚海,卻不知如何尋找到自己感興趣的信息,即使找到了一些有用的信息,也經(jīng)?;煊泻芏嗟摹霸胍簟?。所有這些web資源信息都有兩個(gè)共同的特征:(1)文本內(nèi)容以html形式發(fā)布。(2)通過(guò)瀏覽方式或基于格式的查詢(xún)方式來(lái)實(shí)現(xiàn)對(duì)其內(nèi)容的存取?;ヂ?lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)用戶(hù)很難想找到所需的資料,促使了搜索網(wǎng)站的誕生。但是搜索引擎為了避免“spidertrap”,不會(huì)

5、深層次地搜索每個(gè)網(wǎng)站,如果一個(gè)網(wǎng)站內(nèi)的網(wǎng)頁(yè)是自動(dòng)生成的,結(jié)構(gòu)類(lèi)似的,并且每個(gè)網(wǎng)頁(yè)內(nèi)的記錄是集中出現(xiàn)的,各個(gè)記錄的展現(xiàn)格式是類(lèi)似的,網(wǎng)站內(nèi)的網(wǎng)頁(yè)將不能被搜索引擎索引,搜索引擎越來(lái)越表現(xiàn)出很多的缺陷。為了能夠搜索到這類(lèi)動(dòng)態(tài)資源,人們提出了包裝器技術(shù),包裝器套用了程序設(shè)計(jì)領(lǐng)域的設(shè)計(jì)模式中的工廠模式的概念,由一系列的抽取規(guī)則以及應(yīng)用這些規(guī)則的程序代碼組成。由于html標(biāo)記更關(guān)注字體大小,顏色,位置等,而文檔的結(jié)構(gòu)卻隱含在這些標(biāo)記中,故html頁(yè)中的大量信息都是半結(jié)構(gòu)化的。而基于這種半結(jié)構(gòu)化信息的查詢(xún),即we

6、b查詢(xún),與傳統(tǒng)的基于結(jié)構(gòu)化信息的數(shù)據(jù)庫(kù)查詢(xún)是不同的,其查詢(xún)結(jié)果往往是互不相關(guān)的html頁(yè)面,而且相同的查詢(xún)往往得到的是不同的結(jié)果。故要直接查詢(xún)頁(yè)面上的精確信息顯得十分困難。為了解決這個(gè)問(wèn)題,需要針對(duì)各種類(lèi)型的web資源集構(gòu)建相應(yīng)的wrapper,利用該wrapper去抽取html頁(yè)中的半結(jié)構(gòu)化信息,并轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),供其它信息集成系統(tǒng)利用。由于網(wǎng)上新資源的頻繁加入,現(xiàn)存的資源格式又經(jīng)常變化,手工構(gòu)建wrapper將極其乏味而且容易出錯(cuò)。因此,開(kāi)發(fā)出自動(dòng)構(gòu)建wrapper的技術(shù)及其系統(tǒng)則是該頂域的發(fā)

7、展趨勢(shì)。2:web信息抽取模型一個(gè)簡(jiǎn)單的web信息抽取模型可概括為:向特定資源庫(kù)發(fā)出一個(gè)查詢(xún)請(qǐng)求,得到相應(yīng)的響應(yīng)頁(yè),然后wrapper從響應(yīng)頁(yè)中抽取出所需要的信息,將其映射成相應(yīng)的標(biāo)記信息,如圖1所示。圖1簡(jiǎn)單的web信息抽取模型圖2標(biāo)識(shí)信息集L圖中Q是以查詢(xún)語(yǔ)言Q.構(gòu)造的查詢(xún)表達(dá)式,表達(dá)了用戶(hù)所需要的信息。它可能是SQL或KQML語(yǔ)句,也有可能是CGI腳本參數(shù)所組成的語(yǔ)句。P為查詢(xún)響應(yīng)頁(yè),可以把它看成是ASCII字符集∑中的字符串,含有一個(gè)或多個(gè)所需信息的元組(例如,假設(shè)我們要抽取的信息為各個(gè)國(guó)家

8、所對(duì)應(yīng)的電話(huà)號(hào)碼區(qū)域號(hào),則具體的〈國(guó)家,區(qū)域號(hào)〉即為一個(gè)元組。它有兩個(gè)屬性:國(guó)家,區(qū)域號(hào)。形式地講,一個(gè)元組可表達(dá)為一個(gè)具有k個(gè)字符串屬性的向量)S為特定的信息資源庫(kù),可以看成是一個(gè)將查詢(xún)表達(dá)式轉(zhuǎn)化成響應(yīng)頁(yè)P(yáng)的函數(shù)。L為標(biāo)記信息集,一個(gè)標(biāo)記信息集L就是一個(gè)響應(yīng)頁(yè)中所要抽取的所有信息元組集合。其形式化表示如下所示:即該響應(yīng)頁(yè)中含有│L│>0個(gè)元組,每個(gè)元組具有K>0個(gè)屬性。整數(shù)1≤k≤K是屬性索引號(hào),而整數(shù)1≤m≤∣L∣則是該響應(yīng)頁(yè)中的元組索引號(hào)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。