資源描述:
《基于dom的web信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、華中科技大學(xué)碩士學(xué)位論文基于DOM的Web信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)姓名:連小剛申請(qǐng)學(xué)位級(jí)別:碩士專(zhuān)業(yè):軟件工程指導(dǎo)教師:劉小峰20090527華中科技大學(xué)碩士學(xué)位論文摘要Internet的快速發(fā)展使Web已經(jīng)成為人們獲取信息的主要途徑,但是隨著網(wǎng)頁(yè)數(shù)量的激增和無(wú)關(guān)信息的充斥,使得人們想快速準(zhǔn)確地獲取自己需要的信息變得十分困難。同時(shí)隨著“模板+數(shù)據(jù)庫(kù)”型網(wǎng)頁(yè)的大量出現(xiàn),Internet上出現(xiàn)了被稱(chēng)為“暗藏網(wǎng)”(thehiddenweb)的巨大信息資源庫(kù),據(jù)估計(jì)因特網(wǎng)上80%的內(nèi)容存在于這種看不見(jiàn)的因特網(wǎng)中,這些網(wǎng)頁(yè)是搜索引擎的“網(wǎng)絡(luò)爬蟲(chóng)”抓不到的。加之,Internet上的各個(gè)網(wǎng)站的
2、信息相互獨(dú)立,收集起來(lái)十分困難,在這種情況下,通常的搜索引擎發(fā)揮的作用微乎其微,而Web信息抽取技術(shù)顯得十分必要。通過(guò)對(duì)現(xiàn)有信息抽取技術(shù)的總結(jié)和分析,結(jié)合“模板+數(shù)據(jù)庫(kù)”型網(wǎng)頁(yè)的特點(diǎn),提出了基于DOM結(jié)構(gòu),利用XPath表述網(wǎng)頁(yè)待抽取信息點(diǎn)的位置,用XSLT描述抽取規(guī)則的半自動(dòng)化的抽取方案。并在此基礎(chǔ)上,實(shí)現(xiàn)了一個(gè)抽取規(guī)則適用性較強(qiáng),自動(dòng)化程度較高的Web信息抽取系統(tǒng)。系統(tǒng)的實(shí)現(xiàn)分為樣本學(xué)習(xí)、信息抽取和數(shù)據(jù)庫(kù)存儲(chǔ)三個(gè)階段來(lái)完成。其中學(xué)習(xí)階段是系統(tǒng)實(shí)現(xiàn)的關(guān)鍵點(diǎn)和難點(diǎn),在該階段,通過(guò)葉子節(jié)點(diǎn)路徑獲取算法、數(shù)據(jù)區(qū)域獲取算法、語(yǔ)義獲取算法和路徑優(yōu)化算法的設(shè)計(jì)與實(shí)現(xiàn),同時(shí)利用強(qiáng)大而靈活的XS
3、LT,生成健壯、適應(yīng)性強(qiáng)的抽取規(guī)則文件。在信息抽取階段,系統(tǒng)利用URL模式匹配和DOM相似性算法,實(shí)現(xiàn)待抽取網(wǎng)頁(yè)和抽取規(guī)則文件的自動(dòng)匹配。同時(shí)為了解決自動(dòng)化和準(zhǔn)確度的平衡問(wèn)題,系統(tǒng)提供操作簡(jiǎn)單的GUI界面,支持人工的指導(dǎo)訓(xùn)練,經(jīng)過(guò)測(cè)試,系統(tǒng)對(duì)于“模板+數(shù)據(jù)庫(kù)”型網(wǎng)頁(yè)有較好的抽取效果。關(guān)鍵詞:Web信息抽取可擴(kuò)展標(biāo)記語(yǔ)言擴(kuò)展樣式表語(yǔ)言文檔對(duì)象模型I華中科技大學(xué)碩士學(xué)位論文AbstractWithInternet'srapiddevelopment,Webhasbecomethemainwaytoaccessinformation.Itisbecomingmoredifficlu
4、tforpeopletogetinformationtheyneed,justbecausetheexplosiveandfullofirrelevantinformationpages.Atthesametimeasthe"template+database"typewebpagesincreased,Internethasemergedknownasthe"hiddennetwork",thegreatwarehouseofinformationresources.Itisestimatedthat80%ofInternetcontentexistinthisinvisible
5、Internet,thewebcrawlerofthesearchenginecan’tgraspof.Inaddition,varioussitesonInternetareindependentofeachother,itisverydifficulttobeintegrated.Inthiscase,theusualsearchenginesplayanegligibleroleandWebinformationextractiontechnologyisbecomingverynecessary.Basedonthesummaryandanalysisoftheexisti
6、nginformationextractiontechniques,combinedwiththisdissertationforthe"template+Database"page,thedissertationproposedaresolventbasedonthestructureofDOM,usingXPathexpressionstolocateinformationpoints,usingXSLTtodescribeextractionofrules.Onthisbasis,aWebInformationExtractionSystemwithhigherdegree
7、ofautomationandstrongerapplicabilityextractionruleisdesignedanddeveloped.Thesystemisdividedintostagesoflearning,informationextractionanddatabasestoragetocompletetheIEtask.Stagesoflearningwhichisthekeypoint,thedissertationdesignandimplem