基于wrapper的信息抽取技術(shù)

ID：38711518

大?。?66.00 KB

頁(yè)數(shù)：7頁(yè)

時(shí)間：2019-06-18

資源描述：

《基于wrapper的信息抽取技術(shù)》由會(huì)員上傳分享，免費(fèi)在線(xiàn)閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、基于wrapper的信息抽取技術(shù)摘要web資源含有大量的有用信息，但由于它們欠結(jié)構(gòu)化，不能為傳統(tǒng)的數(shù)據(jù)庫(kù)型查詢(xún)系統(tǒng)所利用。如何將這些信息抽取出來(lái)，轉(zhuǎn)化成結(jié)構(gòu)化信息，供其它信息集成系統(tǒng)所利用，成為該頂域的研究熱點(diǎn)。本文介紹了一個(gè)簡(jiǎn)單的web信息抽取模型，對(duì)基于該模型的wrapper歸納技術(shù)進(jìn)行了探討，并描述了一個(gè)wrapper自動(dòng)生成系統(tǒng)的原型。關(guān)鍵詞信息抽取wrapper歸納技術(shù)自動(dòng)生成原型系統(tǒng)WrapperBasedTechnologyofInformationExtractionAbstract

2、Thereisplentyofusefulinformationinwebresource.Itcan'tbeusedbythetraditionaldatabasequerysystembecauseitisnotwell-structured.Recentlyconsiderableattentionhasbeenreceivedonhowtoextractitfromwebresourceandtransferittostructuredinformationthatcanbeusedbyot

3、herinformationintegrationsystems.Thispaperpresentsasimplewebinformationextractionmodel,discussesthetechnologyofwrapperinductionbasedonthemodelanddescribesautomaticgenerationprototypesystemofwrapper.Keywordsinformationextractionwrapperinductionautomatic

4、generationprototypesystem　1:引言目前，隨著Internet網(wǎng)上信息的劇增，出現(xiàn)了所謂的“信息過(guò)載”和“信息迷向”問(wèn)題，即信息浩如瀚海，卻不知如何尋找到自己感興趣的信息，即使找到了一些有用的信息，也經(jīng)?；煊泻芏嗟摹霸胍簟?。所有這些web資源信息都有兩個(gè)共同的特征：(1)文本內(nèi)容以html形式發(fā)布。(2)通過(guò)瀏覽方式或基于格式的查詢(xún)方式來(lái)實(shí)現(xiàn)對(duì)其內(nèi)容的存取?；ヂ?lián)網(wǎng)的迅速發(fā)展，網(wǎng)絡(luò)用戶(hù)很難想找到所需的資料，促使了搜索網(wǎng)站的誕生。但是搜索引擎為了避免“spidertrap”，不會(huì)

5、深層次地搜索每個(gè)網(wǎng)站，如果一個(gè)網(wǎng)站內(nèi)的網(wǎng)頁(yè)是自動(dòng)生成的，結(jié)構(gòu)類(lèi)似的，并且每個(gè)網(wǎng)頁(yè)內(nèi)的記錄是集中出現(xiàn)的，各個(gè)記錄的展現(xiàn)格式是類(lèi)似的，網(wǎng)站內(nèi)的網(wǎng)頁(yè)將不能被搜索引擎索引，搜索引擎越來(lái)越表現(xiàn)出很多的缺陷。為了能夠搜索到這類(lèi)動(dòng)態(tài)資源，人們提出了包裝器技術(shù)，包裝器套用了程序設(shè)計(jì)領(lǐng)域的設(shè)計(jì)模式中的工廠模式的概念，由一系列的抽取規(guī)則以及應(yīng)用這些規(guī)則的程序代碼組成。由于html標(biāo)記更關(guān)注字體大小，顏色，位置等，而文檔的結(jié)構(gòu)卻隱含在這些標(biāo)記中，故html頁(yè)中的大量信息都是半結(jié)構(gòu)化的。而基于這種半結(jié)構(gòu)化信息的查詢(xún)，即we

6、b查詢(xún)，與傳統(tǒng)的基于結(jié)構(gòu)化信息的數(shù)據(jù)庫(kù)查詢(xún)是不同的，其查詢(xún)結(jié)果往往是互不相關(guān)的html頁(yè)面，而且相同的查詢(xún)往往得到的是不同的結(jié)果。故要直接查詢(xún)頁(yè)面上的精確信息顯得十分困難。為了解決這個(gè)問(wèn)題，需要針對(duì)各種類(lèi)型的web資源集構(gòu)建相應(yīng)的wrapper，利用該wrapper去抽取html頁(yè)中的半結(jié)構(gòu)化信息，并轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)，供其它信息集成系統(tǒng)利用。由于網(wǎng)上新資源的頻繁加入，現(xiàn)存的資源格式又經(jīng)常變化，手工構(gòu)建wrapper將極其乏味而且容易出錯(cuò)。因此，開(kāi)發(fā)出自動(dòng)構(gòu)建wrapper的技術(shù)及其系統(tǒng)則是該頂域的發(fā)

7、展趨勢(shì)。2:web信息抽取模型一個(gè)簡(jiǎn)單的web信息抽取模型可概括為：向特定資源庫(kù)發(fā)出一個(gè)查詢(xún)請(qǐng)求，得到相應(yīng)的響應(yīng)頁(yè)，然后wrapper從響應(yīng)頁(yè)中抽取出所需要的信息，將其映射成相應(yīng)的標(biāo)記信息，如圖1所示。圖1簡(jiǎn)單的web信息抽取模型圖2標(biāo)識(shí)信息集L圖中Q是以查詢(xún)語(yǔ)言Q.構(gòu)造的查詢(xún)表達(dá)式，表達(dá)了用戶(hù)所需要的信息。它可能是SQL或KQML語(yǔ)句，也有可能是CGI腳本參數(shù)所組成的語(yǔ)句。P為查詢(xún)響應(yīng)頁(yè)，可以把它看成是ASCII字符集∑中的字符串，含有一個(gè)或多個(gè)所需信息的元組（例如，假設(shè)我們要抽取的信息為各個(gè)國(guó)家

8、所對(duì)應(yīng)的電話(huà)號(hào)碼區(qū)域號(hào)，則具體的〈國(guó)家，區(qū)域號(hào)〉即為一個(gè)元組。它有兩個(gè)屬性：國(guó)家，區(qū)域號(hào)。形式地講，一個(gè)元組可表達(dá)為一個(gè)具有k個(gè)字符串屬性的向量）S為特定的信息資源庫(kù)，可以看成是一個(gè)將查詢(xún)表達(dá)式轉(zhuǎn)化成響應(yīng)頁(yè)P(yáng)的函數(shù)。L為標(biāo)記信息集，一個(gè)標(biāo)記信息集L就是一個(gè)響應(yīng)頁(yè)中所要抽取的所有信息元組集合。其形式化表示如下所示：即該響應(yīng)頁(yè)中含有│L│>0個(gè)元組，每個(gè)元組具有K>0個(gè)屬性。整數(shù)１≤k≤K是屬性索引號(hào)，而整數(shù)１≤m≤∣L∣則是該響應(yīng)頁(yè)中的元組索引號(hào)

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳，版權(quán)歸屬用戶(hù)，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。

基于wrapper的信息抽取技術(shù)

基于wrapper的信息抽取技術(shù)

相關(guān)文章

相關(guān)標(biāo)簽