資源描述:
《基于wrapper的信息抽取技術(shù)》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、基于wrapper的信息抽取技術(shù)摘要web資源含有大量的有用信息,但由于它們欠結(jié)構(gòu)化,不能為傳統(tǒng)的數(shù)據(jù)庫(kù)型查詢(xún)系統(tǒng)所利用。如何將這些信息抽取出來(lái),轉(zhuǎn)化成結(jié)構(gòu)化信息,供其它信息集成系統(tǒng)所利用,成為該頂域的研究熱點(diǎn)。本文介紹了一個(gè)簡(jiǎn)單的web信息抽取模型,對(duì)基于該模型的wrapper歸納技術(shù)進(jìn)行了探討,并描述了一個(gè)wrapper自動(dòng)生成系統(tǒng)的原型。關(guān)鍵詞信息抽取wrapper歸納技術(shù)自動(dòng)生成原型系統(tǒng)WrapperBasedTechnologyofInformationExtractionAbstract
2、Thereisplentyofusefulinformationinwebresource.Itcan'tbeusedbythetraditionaldatabasequerysystembecauseitisnotwell-structured.Recentlyconsiderableattentionhasbeenreceivedonhowtoextractitfromwebresourceandtransferittostructuredinformationthatcanbeusedbyot
3、herinformationintegrationsystems.Thispaperpresentsasimplewebinformationextractionmodel,discussesthetechnologyofwrapperinductionbasedonthemodelanddescribesautomaticgenerationprototypesystemofwrapper.Keywordsinformationextractionwrapperinductionautomatic
4、generationprototypesystem 1:引言目前,隨著Internet網(wǎng)上信息的劇增,出現(xiàn)了所謂的“信息過(guò)載”和“信息迷向”問(wèn)題,即信息浩如瀚海,卻不知如何尋找到自己感興趣的信息,即使找到了一些有用的信息,也經(jīng)?;煊泻芏嗟摹霸胍簟?。所有這些web資源信息都有兩個(gè)共同的特征:(1)文本內(nèi)容以html形式發(fā)布。(2)通過(guò)瀏覽方式或基于格式的查詢(xún)方式來(lái)實(shí)現(xiàn)對(duì)其內(nèi)容的存取?;ヂ?lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)用戶(hù)很難想找到所需的資料,促使了搜索網(wǎng)站的誕生。但是搜索引擎為了避免“spidertrap”,不會(huì)
5、深層次地搜索每個(gè)網(wǎng)站,如果一個(gè)網(wǎng)站內(nèi)的網(wǎng)頁(yè)是自動(dòng)生成的,結(jié)構(gòu)類(lèi)似的,并且每個(gè)網(wǎng)頁(yè)內(nèi)的記錄是集中出現(xiàn)的,各個(gè)記錄的展現(xiàn)格式是類(lèi)似的,網(wǎng)站內(nèi)的網(wǎng)頁(yè)將不能被搜索引擎索引,搜索引擎越來(lái)越表現(xiàn)出很多的缺陷。為了能夠搜索到這類(lèi)動(dòng)態(tài)資源,人們提出了包裝器技術(shù),包裝器套用了程序設(shè)計(jì)領(lǐng)域的設(shè)計(jì)模式中的工廠模式的概念,由一系列的抽取規(guī)則以及應(yīng)用這些規(guī)則的程序代碼組成。由于html標(biāo)記更關(guān)注字體大小,顏色,位置等,而文檔的結(jié)構(gòu)卻隱含在這些標(biāo)記中,故html頁(yè)中的大量信息都是半結(jié)構(gòu)化的。而基于這種半結(jié)構(gòu)化信息的查詢(xún),即we
6、b查詢(xún),與傳統(tǒng)的基于結(jié)構(gòu)化信息的數(shù)據(jù)庫(kù)查詢(xún)是不同的,其查詢(xún)結(jié)果往往是互不相關(guān)的html頁(yè)面,而且相同的查詢(xún)往往得到的是不同的結(jié)果。故要直接查詢(xún)頁(yè)面上的精確信息顯得十分困難。為了解決這個(gè)問(wèn)題,需要針對(duì)各種類(lèi)型的web資源集構(gòu)建相應(yīng)的wrapper,利用該wrapper去抽取html頁(yè)中的半結(jié)構(gòu)化信息,并轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),供其它信息集成系統(tǒng)利用。由于網(wǎng)上新資源的頻繁加入,現(xiàn)存的資源格式又經(jīng)常變化,手工構(gòu)建wrapper將極其乏味而且容易出錯(cuò)。因此,開(kāi)發(fā)出自動(dòng)構(gòu)建wrapper的技術(shù)及其系統(tǒng)則是該頂域的發(fā)
7、展趨勢(shì)。2:web信息抽取模型一個(gè)簡(jiǎn)單的web信息抽取模型可概括為:向特定資源庫(kù)發(fā)出一個(gè)查詢(xún)請(qǐng)求,得到相應(yīng)的響應(yīng)頁(yè),然后wrapper從響應(yīng)頁(yè)中抽取出所需要的信息,將其映射成相應(yīng)的標(biāo)記信息,如圖1所示。圖1簡(jiǎn)單的web信息抽取模型圖2標(biāo)識(shí)信息集L圖中Q是以查詢(xún)語(yǔ)言Q.構(gòu)造的查詢(xún)表達(dá)式,表達(dá)了用戶(hù)所需要的信息。它可能是SQL或KQML語(yǔ)句,也有可能是CGI腳本參數(shù)所組成的語(yǔ)句。P為查詢(xún)響應(yīng)頁(yè),可以把它看成是ASCII字符集∑中的字符串,含有一個(gè)或多個(gè)所需信息的元組(例如,假設(shè)我們要抽取的信息為各個(gè)國(guó)家
8、所對(duì)應(yīng)的電話(huà)號(hào)碼區(qū)域號(hào),則具體的〈國(guó)家,區(qū)域號(hào)〉即為一個(gè)元組。它有兩個(gè)屬性:國(guó)家,區(qū)域號(hào)。形式地講,一個(gè)元組可表達(dá)為一個(gè)具有k個(gè)字符串屬性的向量)S為特定的信息資源庫(kù),可以看成是一個(gè)將查詢(xún)表達(dá)式轉(zhuǎn)化成響應(yīng)頁(yè)P(yáng)的函數(shù)。L為標(biāo)記信息集,一個(gè)標(biāo)記信息集L就是一個(gè)響應(yīng)頁(yè)中所要抽取的所有信息元組集合。其形式化表示如下所示:即該響應(yīng)頁(yè)中含有│L│>0個(gè)元組,每個(gè)元組具有K>0個(gè)屬性。整數(shù)1≤k≤K是屬性索引號(hào),而整數(shù)1≤m≤∣L∣則是該響應(yīng)頁(yè)中的元組索引號(hào)