用于信息抽取自動標(biāo)注技術(shù)的研究

用于信息抽取自動標(biāo)注技術(shù)的研究

ID:34604714

大?。?.07 MB

頁數(shù):54頁

時(shí)間:2019-03-08

用于信息抽取自動標(biāo)注技術(shù)的研究_第1頁
用于信息抽取自動標(biāo)注技術(shù)的研究_第2頁
用于信息抽取自動標(biāo)注技術(shù)的研究_第3頁
用于信息抽取自動標(biāo)注技術(shù)的研究_第4頁
用于信息抽取自動標(biāo)注技術(shù)的研究_第5頁
資源描述:

《用于信息抽取自動標(biāo)注技術(shù)的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、中文摘要摘要Web的迅速增長和普及使得互聯(lián)網(wǎng)成為一個(gè)巨大的信息源。由于Web信息源的異構(gòu)性和結(jié)構(gòu)欠缺,早期存取這些信息的手段都局限在瀏覽和搜索上。如今出現(xiàn)了很多諸如檢索、集成、抽取和數(shù)據(jù)挖掘等的智能信息處理技術(shù),幫助人們方便存取所需的Web數(shù)據(jù)。信息抽取(IE)就是這樣一種把輸入網(wǎng)頁自動轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的努力。目前已經(jīng)出現(xiàn)很多m系統(tǒng)及工具,如WINE、SoftMealy和SRV等,它們大多是一種監(jiān)督式的系統(tǒng),需要手工標(biāo)注訓(xùn)練實(shí)例學(xué)習(xí)得到抽取規(guī)則。然而,這樣的標(biāo)注是單調(diào)的,費(fèi)時(shí)費(fèi)力的,還易受到變化的

2、影響,特別是網(wǎng)站升級時(shí)的變化。因此,如何為訓(xùn)練文檔提供語義標(biāo)注變得尤為必要,好的辦法就是自動化這種標(biāo)注工作,使其能夠方便處理各種數(shù)據(jù)源。針對標(biāo)注問題,本文提出一種基于有限狀態(tài)機(jī)的包裝器生成方法實(shí)現(xiàn)自動標(biāo)注,應(yīng)用于Web信息抽取領(lǐng)域。本文的主要思想是通過少量的訓(xùn)練例子集訓(xùn)練生成有限狀態(tài)機(jī),然后利用狀態(tài)機(jī)對其他同類型的網(wǎng)頁進(jìn)行自動標(biāo)注。狀態(tài)機(jī)的狀態(tài)即需要標(biāo)注的數(shù)據(jù),本文利用開源工具GATE進(jìn)行實(shí)體識別形成狀態(tài);狀態(tài)轉(zhuǎn)移條件是兩個(gè)狀態(tài)間的上下文規(guī)則。利用狀態(tài)機(jī)進(jìn)行標(biāo)注可以很好的解決半結(jié)構(gòu)化網(wǎng)頁存在屬性缺

3、失、屬性多值和屬性無序的情況。另外,我們將概率引入狀態(tài)機(jī),通過規(guī)則和概率的結(jié)合來決定狀態(tài)機(jī)的狀態(tài)轉(zhuǎn)移,從而減少狀態(tài)機(jī)的不確定性。我們選擇了真實(shí)在線的網(wǎng)頁進(jìn)行了實(shí)驗(yàn)分析,通過召回率和正確率來評價(jià)算法的性能,結(jié)果表明我們的算法能夠很好的標(biāo)注存在屬性缺失、屬性多值和屬性無序的網(wǎng)頁。關(guān)鍵詞:信息抽?。簶?biāo)注;GATE:有限狀態(tài)機(jī);概率論英文摘要Abstract111eexplosivegrowthandpopularityoftheWorldWideWebhasresultedinahugeamountof

4、informationsourcesontheInternet.DuetotheheterogeneityandthelackofstructureofWebinformationsources,previouslyaccesstosuchinformationsourceshasbeenlimitedtobrowsingandsearching.Nowalotofintelligentinformationprocessingtechniquesofretrieval,integration,e

5、xtractionanddataminingcomeouttohelppeopleaccessWebdataofinterestreadily.Informationextraction(IE)issuchanefforttoautomatethetranslationofinputpagesintostructureddata.CurrentlytherealemanyIEsystemsandtoolslikeWINE,SoftMealyandSIW,mostofthemaresupervise

6、dsystemswhichrequiremanualannotationoftraininginstancesinordertolearnextractionrules.However,suchannotationistedious,time·consumingandsubjecttochanges.inparticularwhenwebsitesupgrade.Sohowtoprovidesemanticannotationfortrainingdocumentsbecomesurgentand

7、mustbe;it’SnicetoautomatesuchannotationworkSOaStodeal、析t11differentdatasourcesreadily.Inthispaper,wepresentafmite--state·-transducer-basedmethodofautomaticannotation,whichCandeal澌thpages麗thmissingattributes,multiple-valuedattributes,multi—orderingattr

8、ibutes.Moreover,wealsoargumentit淅m(xù)probabilitytheorytoreducetheuncertaintyofthestatemachine.11leexperimentalresultsshowthatOuralgorithmCanannotateWebpagesefficientlyandaccuratelyandthusspeed—upextractionruleslearninginWebinformationextractionsy

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。