用于信息抽取自動標(biāo)注技術(shù)的研究

ID：34604714

大?。?.07 MB

頁數(shù)：54頁

時(shí)間：2019-03-08

資源描述：

《用于信息抽取自動標(biāo)注技術(shù)的研究》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、中文摘要摘要Web的迅速增長和普及使得互聯(lián)網(wǎng)成為一個(gè)巨大的信息源。由于Web信息源的異構(gòu)性和結(jié)構(gòu)欠缺，早期存取這些信息的手段都局限在瀏覽和搜索上。如今出現(xiàn)了很多諸如檢索、集成、抽取和數(shù)據(jù)挖掘等的智能信息處理技術(shù)，幫助人們方便存取所需的Web數(shù)據(jù)。信息抽取(IE)就是這樣一種把輸入網(wǎng)頁自動轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的努力。目前已經(jīng)出現(xiàn)很多m系統(tǒng)及工具，如WINE、SoftMealy和SRV等，它們大多是一種監(jiān)督式的系統(tǒng)，需要手工標(biāo)注訓(xùn)練實(shí)例學(xué)習(xí)得到抽取規(guī)則。然而，這樣的標(biāo)注是單調(diào)的，費(fèi)時(shí)費(fèi)力的，還易受到變化的

2、影響，特別是網(wǎng)站升級時(shí)的變化。因此，如何為訓(xùn)練文檔提供語義標(biāo)注變得尤為必要，好的辦法就是自動化這種標(biāo)注工作，使其能夠方便處理各種數(shù)據(jù)源。針對標(biāo)注問題，本文提出一種基于有限狀態(tài)機(jī)的包裝器生成方法實(shí)現(xiàn)自動標(biāo)注，應(yīng)用于Web信息抽取領(lǐng)域。本文的主要思想是通過少量的訓(xùn)練例子集訓(xùn)練生成有限狀態(tài)機(jī)，然后利用狀態(tài)機(jī)對其他同類型的網(wǎng)頁進(jìn)行自動標(biāo)注。狀態(tài)機(jī)的狀態(tài)即需要標(biāo)注的數(shù)據(jù)，本文利用開源工具GATE進(jìn)行實(shí)體識別形成狀態(tài)；狀態(tài)轉(zhuǎn)移條件是兩個(gè)狀態(tài)間的上下文規(guī)則。利用狀態(tài)機(jī)進(jìn)行標(biāo)注可以很好的解決半結(jié)構(gòu)化網(wǎng)頁存在屬性缺

3、失、屬性多值和屬性無序的情況。另外，我們將概率引入狀態(tài)機(jī)，通過規(guī)則和概率的結(jié)合來決定狀態(tài)機(jī)的狀態(tài)轉(zhuǎn)移，從而減少狀態(tài)機(jī)的不確定性。我們選擇了真實(shí)在線的網(wǎng)頁進(jìn)行了實(shí)驗(yàn)分析，通過召回率和正確率來評價(jià)算法的性能，結(jié)果表明我們的算法能夠很好的標(biāo)注存在屬性缺失、屬性多值和屬性無序的網(wǎng)頁。關(guān)鍵詞：信息抽?。簶?biāo)注；GATE：有限狀態(tài)機(jī)；概率論英文摘要Abstract111eexplosivegrowthandpopularityoftheWorldWideWebhasresultedinahugeamountof

4、informationsourcesontheInternet．DuetotheheterogeneityandthelackofstructureofWebinformationsources，previouslyaccesstosuchinformationsourceshasbeenlimitedtobrowsingandsearching．Nowalotofintelligentinformationprocessingtechniquesofretrieval，integration，e

5、xtractionanddataminingcomeouttohelppeopleaccessWebdataofinterestreadily．Informationextraction(IE)issuchanefforttoautomatethetranslationofinputpagesintostructureddata．CurrentlytherealemanyIEsystemsandtoolslikeWINE，SoftMealyandSIW，mostofthemaresupervise

6、dsystemswhichrequiremanualannotationoftraininginstancesinordertolearnextractionrules．However，suchannotationistedious，time·consumingandsubjecttochanges．inparticularwhenwebsitesupgrade．Sohowtoprovidesemanticannotationfortrainingdocumentsbecomesurgentand

7、mustbe；it’SnicetoautomatesuchannotationworkSOaStodeal、析t11differentdatasourcesreadily．Inthispaper,wepresentafmite--state·-transducer-basedmethodofautomaticannotation,whichCandeal澌thpages麗thmissingattributes，multiple-valuedattributes，multi—orderingattr

8、ibutes．Moreover，wealsoargumentit淅m(xù)probabilitytheorytoreducetheuncertaintyofthestatemachine．11leexperimentalresultsshowthatOuralgorithmCanannotateWebpagesefficientlyandaccuratelyandthusspeed—upextractionruleslearninginWebinformationextractionsy

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 54



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時(shí)可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

用于信息抽取自動標(biāo)注技術(shù)的研究

用于信息抽取自動標(biāo)注技術(shù)的研究

相關(guān)文章

相關(guān)標(biāo)簽