web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文

ID:33493055

大?。?.82 MB

頁數(shù):94頁

時(shí)間:2019-02-26

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第1頁
web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第2頁
web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第3頁
web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第4頁
web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第5頁
資源描述:

《web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、碩士學(xué)位論文(工程碩士)Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)THEDESIGNANDIMPLEMENTATIONOFWEBINFORMATIONEXTRACTIONSYSTEM丁喬毅哈爾濱工業(yè)大學(xué)2012年6月國(guó)內(nèi)圖書分類號(hào):TP311學(xué)校代碼:10213國(guó)際圖書分類號(hào):621.3密級(jí):公開工程碩士學(xué)位論文Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)碩士研究生:丁喬毅導(dǎo)師:張宇副教授副導(dǎo)師:孫一鳴高級(jí)工程師申請(qǐng)學(xué)位:工程碩士學(xué)科:軟件工程所在單位:軟件學(xué)院答辯日期:2012年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedInde

2、x:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFWEBINFORMATIONEXTRACTIONSYSTEMCandidate:DingQiaoyiSupervisor:AssociateProfessorZhangYuAssociateSupervisor:SeniorEngineerSunYimingAcademicDegreeAppliedfor:MasterofEngineeri

3、ngSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要當(dāng)前Web上承載的海量信息,使得它變成了人們?nèi)粘I钪蝎@取信息的一個(gè)重要源頭。探索一種方便人們從萬維網(wǎng)的海量信息中挖掘出自己所需要的內(nèi)容的方法變得越來越重要。Web信息抽取就是眾多方法中的一個(gè)有效解決方案。

4、本課題來自于阿里巴巴(中國(guó))網(wǎng)絡(luò)技術(shù)有限公司搜索平臺(tái)部?jī)?nèi)容系統(tǒng)組的實(shí)際需求。本課題所研究的內(nèi)容是,從Web信息抽取應(yīng)用領(lǐng)域出發(fā),通過基于抽取對(duì)象和Web頁面結(jié)構(gòu)的特點(diǎn),分析了系統(tǒng)需要解決的信息抽取問題;并且針對(duì)這些問題,分別提出了有針對(duì)性的抽取解決方案?;谶@些抽取方案,本課題設(shè)計(jì)和實(shí)現(xiàn)一個(gè)能夠從萬維網(wǎng)中抽取用戶需要信息的Web信息抽取系統(tǒng)。在完成本課題的過程中,作者分析了Web信息抽取解決的問題,定義了典型的信息抽取目標(biāo);并以此為基礎(chǔ)闡述了一種表示W(wǎng)eb網(wǎng)頁內(nèi)容中結(jié)構(gòu)化信息的數(shù)據(jù)模型。作者進(jìn)行了系統(tǒng)業(yè)務(wù)場(chǎng)景的應(yīng)用

5、描述,并以此歸納成為系統(tǒng)的基本需求,依據(jù)軟件開發(fā)生命周期,依次從需求分析、系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)以及系統(tǒng)測(cè)試這幾個(gè)方面,詳細(xì)介紹了課題系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。在此過程中,本文使用用例模型分析和總結(jié)了系統(tǒng)的功能性需求。然后,以此模型為基礎(chǔ)設(shè)計(jì)了整個(gè)系統(tǒng)的功能模塊和系統(tǒng)體系結(jié)構(gòu)。作為這一部分的核心,針對(duì)系統(tǒng)抽取任務(wù)工作引擎和Http服務(wù)器框架這兩個(gè)組件的設(shè)計(jì)和實(shí)現(xiàn),本文借助類圖、時(shí)序圖、流程圖模型對(duì)它們進(jìn)行了重點(diǎn)的介紹。另外,本文也對(duì)系統(tǒng)中使用的幾種Web信息抽取算法,如基于模板信息抽取算法、列表信息抽取算法的思想和實(shí)現(xiàn)做了詳細(xì)介紹

6、,并且進(jìn)行了一定的算法分析和評(píng)價(jià)。最后,通過系統(tǒng)測(cè)試和算法測(cè)評(píng)證明了系統(tǒng)可以滿足預(yù)先定義的需求。關(guān)鍵字:Web信息挖掘;Web信息抽取;基于模板信息抽??;列表信息抽取-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractNowadays,theWebwhichisbasedontheInternet,isplayingamoreandmoreimportantroleinpeople’sdailylife.ThereislotsofinformationconveyedbytheWeb,whichmakesitasi

7、gnificantinformationsourceinpeople’slife.FindingaconvenientwayofdiggingthedesiredinformationfromthevastamountofthedataontheWebisveryimportant.Webinformationextractionisoneoftheusefulsolutions.ThisprogramcomesfromsearchplatformdepartmentatAlibaba.Thethesisismai

8、nlyabouttheanalysisofWebextactionproblem,accordingtoitsapplicationfields.Thethesisdefinedtheextactionproblems,fromtheviewoftheextractiontragets’andWebpages’features,andalsoputforwa

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。