基于領(lǐng)域知識(shí)的web信息抽取方法研究

ID：35106539

大?。?.40 MB

頁(yè)數(shù)：80頁(yè)

時(shí)間：2019-03-18

預(yù)覽圖正在加載中，預(yù)計(jì)需要20秒，請(qǐng)耐心等待

資源描述：

《基于領(lǐng)域知識(shí)的web信息抽取方法研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、ＴＰ３９學(xué)校代碼：１０３６３分類(lèi)號(hào)：：２１３０７１０１０２密級(jí)：公開(kāi)學(xué)號(hào)ＡｎｈｕｉＰｏｌｙｔｅｃｈ打ｉｃＵｎｉｖｅｒｓｉｔｙ碩±學(xué)位論文題目基于領(lǐng)域知識(shí)的Ｗｅｂ信息抽取方法研究論文作者金佳指導(dǎo)教師陶瞭副教授學(xué)科（專(zhuān)業(yè)）計(jì)算機(jī)應(yīng)用技術(shù)研究方向軟件工程與數(shù)據(jù)庫(kù)技術(shù)論文提交日期：２０１６年６月８日分類(lèi)號(hào)：１：ＴＰ巧單位代碼０３的密級(jí)：公開(kāi)學(xué)號(hào)：２１３０７１０１０２霞目基于領(lǐng)域知巧的Ｗ沈信息抽取方巧研巧英文并列題巨Ｒｅｓｅａｒｃｈ

2、ｏｎＷｅｂＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎＢａｓｅｄｏｎＤｏｍａｉｎＫｎｏｗｌｅｄｇｅ學(xué)生姓名：余偉指導(dǎo)教師：陶曉專(zhuān)業(yè)：計(jì)算機(jī)應(yīng)用巧術(shù)硏究方向：軟件工程與數(shù)據(jù)庫(kù)技術(shù)論文答辯日期：２０１６年６月２日安巧工程大學(xué)學(xué)位論文原創(chuàng)性聲明。本人鄭重聲明：我恪守學(xué)術(shù)道德，崇尚嚴(yán)謹(jǐn)學(xué)風(fēng)所呈交的學(xué)位論文，是本人在導(dǎo)師的指導(dǎo)下。，獨(dú)立進(jìn)行研究工作所取得的成果除文中已明確注明和引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品及成果的內(nèi)容。論文為

3、本人親自撰寫(xiě)，我對(duì)所寫(xiě)的內(nèi)容負(fù)責(zé)，并完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名：「曰期：件＾月曰／ｙ安後工程大學(xué)學(xué)位論文版權(quán)使用授權(quán)書(shū)學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定，同意學(xué)校保留。并向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版，允許論文被查閱或借閱本人授權(quán)安徽工程大學(xué)可Ｗ將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索，可采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□，在解密后適用本版權(quán)書(shū)。＿＿年本學(xué)位論文屬于不保密學(xué)位論文

4、作者簽名；指導(dǎo)教師簽名：＾》。＇曰期年《月》曰曰期；居年《月＾曰安徽工程大學(xué)碩±學(xué)位論文基于領(lǐng)域知識(shí)的Ｗｅｂ信息抽取方法研究搪要在互聯(lián)網(wǎng)高速發(fā)展的背景下，Ｗ沈已經(jīng)成為全球信息化的主要來(lái)源，擁有海量數(shù)據(jù)并且在不斷增長(zhǎng)。但是，由于Ｗ沈頁(yè)面的動(dòng)態(tài)性、內(nèi)容的多樣性和結(jié)構(gòu)的復(fù)雜性，使得人們從Ｗｅｂ上獲得想要的信息很困難。Ｗｅｂ信息抽取技術(shù)的產(chǎn)生可Ｗ將頁(yè)面中的無(wú)結(jié)構(gòu)或半結(jié)構(gòu)化一的信息準(zhǔn)確提取出來(lái)，Ｗ結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)，為人們提供種獲得有效信息的途徑。但是傳統(tǒng)的Ｗｅｂ信息抽取技術(shù)無(wú)法形式

5、化描述頁(yè)面中包含的語(yǔ)義信息，抽取出的結(jié)果語(yǔ)義模糊，準(zhǔn)確率差。本體能夠?qū)μ囟I(lǐng)域的知識(shí)有很好的形式化描述，對(duì)Ｗ沈信息抽取的性能有促進(jìn)作用。因此ｅｂ，基于領(lǐng)域本體的Ｗ信息抽取技術(shù)隨么誕生一?；陬I(lǐng)域知識(shí)的Ｗ沈信息抽取是種將領(lǐng)域本體和信息抽取技術(shù)相結(jié)合的技術(shù)一。對(duì)某特定領(lǐng)域信息利用本體知識(shí)對(duì)其進(jìn)行描述，使得Ｗｅｂ信息抽取技術(shù)針對(duì)該特定領(lǐng)域的抽取結(jié)果更為顯著。本文研究了Ｗ沈信息抽取、語(yǔ)義網(wǎng)及本體的相關(guān)理論，分析總一結(jié)了構(gòu)建領(lǐng)域本體的主要方法，選擇了種基于知識(shí)工程的本體構(gòu)建方法，并Ｗ新浪微博為

6、例闡述本文構(gòu)建領(lǐng)域本體的方法和規(guī)則。在此基礎(chǔ)上，分別Ｗ新浪微博和ＤｅｅｐＷ沈?yàn)楸尘?，?duì)基于領(lǐng)域知識(shí)的Ｗ純信息抽取方法展開(kāi)相關(guān)研究，做了主要工作如下；１分析當(dāng)前構(gòu)建領(lǐng)域本體的走種主要方法（），比較各種方法優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)合。針對(duì)本文的應(yīng)用場(chǎng)景，選擇了基于知識(shí)工程的構(gòu)建方Ｉ安銜工程大學(xué)碩±學(xué)位論文法。新浪微博為例，詳細(xì)描述本文領(lǐng)域本體內(nèi)概念、關(guān)系、類(lèi)屬性和常用基本原理的收集，闡述了構(gòu)建工具、構(gòu)建規(guī)則和構(gòu)建過(guò)程，并一致性的檢測(cè)對(duì)本體進(jìn)行形式化描述和。口）針對(duì)傳統(tǒng)基于本體的Ｗｅｂ頁(yè)面信

7、息抽取Ｗ單個(gè)信息項(xiàng)為抽?。崳妴挝?，抽取出的信息項(xiàng)語(yǔ)義關(guān)聯(lián)度較差且抽取準(zhǔn)確率不理想的問(wèn)題，提出一種基于本體的微博用戶信息抽取方法。該方法采用兩層次匹配機(jī)制，將頁(yè)面中具有語(yǔ)義關(guān)聯(lián)的不同層次信息劃分成對(duì)應(yīng)信息塊，Ｗ信息塊作為最小抽取單位進(jìn)行信息的抽取。實(shí)驗(yàn)采用新浪微博的頁(yè)面為例，對(duì)所提方法性能進(jìn)行檢驗(yàn)。（３）ＤｅｅｐＷｅｂ頁(yè)面中實(shí)體區(qū)域的確定。首先，利用廣度優(yōu)先算法去除頁(yè)面ＤＯＭ樹(shù)中包含的噪音信息；然后，根據(jù)ＤＯＭ樹(shù)節(jié)點(diǎn)相似性原理更精確地定位確定頁(yè)面中的數(shù)據(jù)區(qū)域；最后采用ＶＳＭ（ｖｅｃｔｏｒｓ

8、ｐａｃｅｍｏｄｅｌ的余弦值方法確定實(shí)體區(qū)域。）４目前大多數(shù)針對(duì)ＤｅｅＷｅｂ頁(yè)面的抽取方法都較為依賴(lài)ｍｂ（）ｐ頁(yè)面結(jié)構(gòu)，忽略了頁(yè)面信息間包含的語(yǔ)義關(guān)系，導(dǎo)致抽取結(jié)果不理想。提出一種基于領(lǐng)域本體的ＤｅｅＷｅｂ實(shí)體信息后處理方法ｐ。該方法對(duì)實(shí)體區(qū)域中實(shí)體信息進(jìn)行標(biāo)注，將量化的標(biāo)注結(jié)果添加到實(shí)體與本體

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于領(lǐng)域知識(shí)的web信息抽取方法研究

基于領(lǐng)域知識(shí)的web信息抽取方法研究

相關(guān)文章

相關(guān)標(biāo)簽