資源描述:
《用于信息抽取自動標(biāo)注技術(shù)的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中文摘要摘要Web的迅速增長和普及使得互聯(lián)網(wǎng)成為一個(gè)巨大的信息源。由于Web信息源的異構(gòu)性和結(jié)構(gòu)欠缺,早期存取這些信息的手段都局限在瀏覽和搜索上。如今出現(xiàn)了很多諸如檢索、集成、抽取和數(shù)據(jù)挖掘等的智能信息處理技術(shù),幫助人們方便存取所需的Web數(shù)據(jù)。信息抽取(IE)就是這樣一種把輸入網(wǎng)頁自動轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的努力。目前已經(jīng)出現(xiàn)很多m系統(tǒng)及工具,如WINE、SoftMealy和SRV等,它們大多是一種監(jiān)督式的系統(tǒng),需要手工標(biāo)注訓(xùn)練實(shí)例學(xué)習(xí)得到抽取規(guī)則。然而,這樣的標(biāo)注是單調(diào)的,費(fèi)時(shí)費(fèi)力的,還易受到變化的
2、影響,特別是網(wǎng)站升級時(shí)的變化。因此,如何為訓(xùn)練文檔提供語義標(biāo)注變得尤為必要,好的辦法就是自動化這種標(biāo)注工作,使其能夠方便處理各種數(shù)據(jù)源。針對標(biāo)注問題,本文提出一種基于有限狀態(tài)機(jī)的包裝器生成方法實(shí)現(xiàn)自動標(biāo)注,應(yīng)用于Web信息抽取領(lǐng)域。本文的主要思想是通過少量的訓(xùn)練例子集訓(xùn)練生成有限狀態(tài)機(jī),然后利用狀態(tài)機(jī)對其他同類型的網(wǎng)頁進(jìn)行自動標(biāo)注。狀態(tài)機(jī)的狀態(tài)即需要標(biāo)注的數(shù)據(jù),本文利用開源工具GATE進(jìn)行實(shí)體識別形成狀態(tài);狀態(tài)轉(zhuǎn)移條件是兩個(gè)狀態(tài)間的上下文規(guī)則。利用狀態(tài)機(jī)進(jìn)行標(biāo)注可以很好的解決半結(jié)構(gòu)化網(wǎng)頁存在屬性缺
3、失、屬性多值和屬性無序的情況。另外,我們將概率引入狀態(tài)機(jī),通過規(guī)則和概率的結(jié)合來決定狀態(tài)機(jī)的狀態(tài)轉(zhuǎn)移,從而減少狀態(tài)機(jī)的不確定性。我們選擇了真實(shí)在線的網(wǎng)頁進(jìn)行了實(shí)驗(yàn)分析,通過召回率和正確率來評價(jià)算法的性能,結(jié)果表明我們的算法能夠很好的標(biāo)注存在屬性缺失、屬性多值和屬性無序的網(wǎng)頁。關(guān)鍵詞:信息抽?。簶?biāo)注;GATE:有限狀態(tài)機(jī);概率論英文摘要Abstract111eexplosivegrowthandpopularityoftheWorldWideWebhasresultedinahugeamountof
4、informationsourcesontheInternet.DuetotheheterogeneityandthelackofstructureofWebinformationsources,previouslyaccesstosuchinformationsourceshasbeenlimitedtobrowsingandsearching.Nowalotofintelligentinformationprocessingtechniquesofretrieval,integration,e
5、xtractionanddataminingcomeouttohelppeopleaccessWebdataofinterestreadily.Informationextraction(IE)issuchanefforttoautomatethetranslationofinputpagesintostructureddata.CurrentlytherealemanyIEsystemsandtoolslikeWINE,SoftMealyandSIW,mostofthemaresupervise
6、dsystemswhichrequiremanualannotationoftraininginstancesinordertolearnextractionrules.However,suchannotationistedious,time·consumingandsubjecttochanges.inparticularwhenwebsitesupgrade.Sohowtoprovidesemanticannotationfortrainingdocumentsbecomesurgentand
7、mustbe;it’SnicetoautomatesuchannotationworkSOaStodeal、析t11differentdatasourcesreadily.Inthispaper,wepresentafmite--state·-transducer-basedmethodofautomaticannotation,whichCandeal澌thpages麗thmissingattributes,multiple-valuedattributes,multi—orderingattr
8、ibutes.Moreover,wealsoargumentit淅m(xù)probabilitytheorytoreducetheuncertaintyofthestatemachine.11leexperimentalresultsshowthatOuralgorithmCanannotateWebpagesefficientlyandaccuratelyandthusspeed—upextractionruleslearninginWebinformationextractionsy