web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文

ID：33493055

大?。?.82 MB

頁數(shù)：94頁

時(shí)間：2019-02-26

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第1頁

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第2頁

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第3頁

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第4頁

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文_第5頁

資源描述：

《web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、碩士學(xué)位論文（工程碩士）Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)THEDESIGNANDIMPLEMENTATIONOFWEBINFORMATIONEXTRACTIONSYSTEM丁喬毅哈爾濱工業(yè)大學(xué)2012年6月國(guó)內(nèi)圖書分類號(hào)：TP311學(xué)校代碼：10213國(guó)際圖書分類號(hào)：621.3密級(jí)：公開工程碩士學(xué)位論文Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)碩士研究生：丁喬毅導(dǎo)師：張宇副教授副導(dǎo)師：孫一鳴高級(jí)工程師申請(qǐng)學(xué)位：工程碩士學(xué)科：軟件工程所在單位：軟件學(xué)院答辯日期：2012年6月授予學(xué)位單位：哈爾濱工業(yè)大學(xué)ClassifiedInde

2、x:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFWEBINFORMATIONEXTRACTIONSYSTEMCandidate:DingQiaoyiSupervisor:AssociateProfessorZhangYuAssociateSupervisor:SeniorEngineerSunYimingAcademicDegreeAppliedfor:MasterofEngineeri

3、ngSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要當(dāng)前Web上承載的海量信息，使得它變成了人們?nèi)粘Ｉ钪蝎@取信息的一個(gè)重要源頭。探索一種方便人們從萬維網(wǎng)的海量信息中挖掘出自己所需要的內(nèi)容的方法變得越來越重要。Web信息抽取就是眾多方法中的一個(gè)有效解決方案。

4、本課題來自于阿里巴巴（中國(guó)）網(wǎng)絡(luò)技術(shù)有限公司搜索平臺(tái)部?jī)?nèi)容系統(tǒng)組的實(shí)際需求。本課題所研究的內(nèi)容是，從Web信息抽取應(yīng)用領(lǐng)域出發(fā)，通過基于抽取對(duì)象和Web頁面結(jié)構(gòu)的特點(diǎn)，分析了系統(tǒng)需要解決的信息抽取問題；并且針對(duì)這些問題，分別提出了有針對(duì)性的抽取解決方案?；谶@些抽取方案，本課題設(shè)計(jì)和實(shí)現(xiàn)一個(gè)能夠從萬維網(wǎng)中抽取用戶需要信息的Web信息抽取系統(tǒng)。在完成本課題的過程中，作者分析了Web信息抽取解決的問題，定義了典型的信息抽取目標(biāo)；并以此為基礎(chǔ)闡述了一種表示W(wǎng)eb網(wǎng)頁內(nèi)容中結(jié)構(gòu)化信息的數(shù)據(jù)模型。作者進(jìn)行了系統(tǒng)業(yè)務(wù)場(chǎng)景的應(yīng)用

5、描述，并以此歸納成為系統(tǒng)的基本需求，依據(jù)軟件開發(fā)生命周期，依次從需求分析、系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)以及系統(tǒng)測(cè)試這幾個(gè)方面，詳細(xì)介紹了課題系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。在此過程中，本文使用用例模型分析和總結(jié)了系統(tǒng)的功能性需求。然后，以此模型為基礎(chǔ)設(shè)計(jì)了整個(gè)系統(tǒng)的功能模塊和系統(tǒng)體系結(jié)構(gòu)。作為這一部分的核心，針對(duì)系統(tǒng)抽取任務(wù)工作引擎和Http服務(wù)器框架這兩個(gè)組件的設(shè)計(jì)和實(shí)現(xiàn)，本文借助類圖、時(shí)序圖、流程圖模型對(duì)它們進(jìn)行了重點(diǎn)的介紹。另外，本文也對(duì)系統(tǒng)中使用的幾種Web信息抽取算法，如基于模板信息抽取算法、列表信息抽取算法的思想和實(shí)現(xiàn)做了詳細(xì)介紹

6、，并且進(jìn)行了一定的算法分析和評(píng)價(jià)。最后，通過系統(tǒng)測(cè)試和算法測(cè)評(píng)證明了系統(tǒng)可以滿足預(yù)先定義的需求。關(guān)鍵字：Web信息挖掘；Web信息抽取；基于模板信息抽??；列表信息抽取-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractNowadays,theWebwhichisbasedontheInternet,isplayingamoreandmoreimportantroleinpeople’sdailylife.ThereislotsofinformationconveyedbytheWeb,whichmakesitasi

7、gnificantinformationsourceinpeople’slife.FindingaconvenientwayofdiggingthedesiredinformationfromthevastamountofthedataontheWebisveryimportant.Webinformationextractionisoneoftheusefulsolutions.ThisprogramcomesfromsearchplatformdepartmentatAlibaba.Thethesisismai

8、nlyabouttheanalysisofWebextactionproblem,accordingtoitsapplicationfields.Thethesisdefinedtheextactionproblems,fromtheviewoftheextractiontragets’andWebpages’features,andalsoputforwa

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 94



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文

web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文

相關(guān)文章

相關(guān)標(biāo)簽