基于視覺(jué)信息的deep+web信息自動(dòng)抽取技術(shù)的研究

基于視覺(jué)信息的deep+web信息自動(dòng)抽取技術(shù)的研究

ID:27127518

大?。?.97 MB

頁(yè)數(shù):69頁(yè)

時(shí)間:2018-12-01

基于視覺(jué)信息的deep+web信息自動(dòng)抽取技術(shù)的研究_第1頁(yè)
基于視覺(jué)信息的deep+web信息自動(dòng)抽取技術(shù)的研究_第2頁(yè)
基于視覺(jué)信息的deep+web信息自動(dòng)抽取技術(shù)的研究_第3頁(yè)
基于視覺(jué)信息的deep+web信息自動(dòng)抽取技術(shù)的研究_第4頁(yè)
基于視覺(jué)信息的deep+web信息自動(dòng)抽取技術(shù)的研究_第5頁(yè)
資源描述:

《基于視覺(jué)信息的deep+web信息自動(dòng)抽取技術(shù)的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、謹(jǐn)以此文獻(xiàn)給尊敬的張巍副教授以及我親愛(ài)的朋 友和同學(xué)們!--------------談鳳真萬(wàn)方數(shù)據(jù)萬(wàn)方數(shù)據(jù)基于視覺(jué)信息的DeepWeb信息自動(dòng)抽取技術(shù)的研究學(xué)位論文答辯日期:指導(dǎo)教師簽字:答辯委員會(huì)成員簽字:萬(wàn)方數(shù)據(jù)萬(wàn)方數(shù)據(jù)萬(wàn)方數(shù)據(jù)萬(wàn)方數(shù)據(jù)本論文得到山東省自然科學(xué)基金(No.ZR2012FM016)的資助。萬(wàn)方數(shù)據(jù)獨(dú)創(chuàng)聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果,也不包含未獲得(注:如沒(méi)有其他需要特別聲明的,本欄可空

2、)或其他教育機(jī)構(gòu)的學(xué)位或證書(shū)使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。學(xué)位論文作者簽名:簽字日期:年月日------------------------------------------------------------------------------------------------------學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán),允許論文被查閱和借閱。本人授權(quán)學(xué)??梢詫W(xué)位論文的全部

3、或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。同時(shí)授權(quán)中國(guó)科學(xué)技術(shù)信息研究所將本學(xué)位論文收錄到《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》,并通過(guò)網(wǎng)絡(luò)向社會(huì)公眾提供信息服務(wù)。(保密的學(xué)位論文在解密后適用本授權(quán)書(shū))學(xué)位論文作者簽名:導(dǎo)師簽字:簽字日期:年月日簽字日期:年月萬(wàn)方數(shù)據(jù)萬(wàn)方數(shù)據(jù)萬(wàn)方數(shù)據(jù)基于視覺(jué)信息的DeepWeb信息自動(dòng)抽取技術(shù)的研究摘要隨著互聯(lián)網(wǎng)技術(shù)日新月異的發(fā)展,web已經(jīng)成為一個(gè)巨大的信息源,擁有著海量的重要數(shù)據(jù)。目前數(shù)據(jù)挖掘在許多領(lǐng)域應(yīng)用廣泛,如:金融、醫(yī)療保險(xiǎn)、市場(chǎng)分析等。通過(guò)分析挖掘得到的數(shù)據(jù),

4、可以獲得許多有用知識(shí),最大程度的進(jìn)行輔助決策。然而,Web數(shù)據(jù)的特點(diǎn)是數(shù)量多,形式異構(gòu),自治的,分布存儲(chǔ),這使得Web數(shù)據(jù)挖掘的分析工作變得尤為困難,所以當(dāng)務(wù)之急是對(duì)數(shù)據(jù)進(jìn)行集成,為高質(zhì)量數(shù)據(jù)分析奠定基礎(chǔ)。根據(jù)web中所蘊(yùn)含信息的“深度”,可以將web分為SurfaceWeb和DeepWeb。在數(shù)量和質(zhì)量上,DeepWeb遠(yuǎn)遠(yuǎn)超過(guò)了SurfaceWeb,具有較高的應(yīng)用價(jià)值。因此,如何進(jìn)行抽取DeepWeb中的數(shù)據(jù),以便于更有效的分析,具有重要的現(xiàn)實(shí)意義和廣闊的應(yīng)用前景。Internet上的各個(gè)網(wǎng)站的信息相互獨(dú)立,DeepWeb數(shù)據(jù)收集起來(lái)

5、十分困難,在這種情況下,通常的搜索引擎發(fā)揮的作用微乎其微。雖然手工編寫(xiě)信息的抽取規(guī)則準(zhǔn)確率較高,但技術(shù)門(mén)檻低,而且由于信息源的多元性和改版的潛在風(fēng)險(xiǎn),手工方法無(wú)法滿足人們對(duì)信息獲取的需求。在這樣的背景下,可以發(fā)現(xiàn)DeepWeb信息自動(dòng)提取技術(shù)的實(shí)現(xiàn)與研究是一個(gè)非常重要的問(wèn)題。針對(duì)這一問(wèn)題,本文在DeepWeb信息自動(dòng)抽取技術(shù)方面,包括基于網(wǎng)頁(yè)視覺(jué)信息、機(jī)器學(xué)習(xí)訓(xùn)練模型、DeepWeb數(shù)據(jù)區(qū)域定位、數(shù)據(jù)項(xiàng)的對(duì)齊等方面,進(jìn)行了深入而系統(tǒng)的研究,同時(shí)開(kāi)發(fā)了Web信息自動(dòng)抽取系統(tǒng)。本文具體的研究工作和研究成果如下:(1)基于頁(yè)面中的視覺(jué)信息,分割

6、網(wǎng)頁(yè)得到視覺(jué)塊樹(shù),然后在視覺(jué)塊樹(shù)上,整合數(shù)據(jù)區(qū)域判定所需的視覺(jué)屬性,得到進(jìn)行實(shí)驗(yàn)的訓(xùn)練集。(2)使用機(jī)器學(xué)習(xí)的有效工具進(jìn)行訓(xùn)練,結(jié)合人工編寫(xiě)的規(guī)則進(jìn)行去重去噪,準(zhǔn)確地完成了DeepWeb數(shù)據(jù)區(qū)域的查找和定位。(3)提出了有效的對(duì)齊規(guī)則,大大提高了數(shù)據(jù)項(xiàng)的對(duì)齊準(zhǔn)確率。(4)在以上研究?jī)?nèi)容的基礎(chǔ)上,設(shè)計(jì)開(kāi)發(fā)了DeepWeb信息自動(dòng)抽取系統(tǒng),系統(tǒng)實(shí)現(xiàn)功能包括:1)網(wǎng)頁(yè)視覺(jué)塊樹(shù)的轉(zhuǎn)換;2)數(shù)據(jù)區(qū)域的自動(dòng)定位;3)數(shù)據(jù)項(xiàng)的完整抽取與對(duì)齊;4)生成Wrapper;5)實(shí)現(xiàn)了自動(dòng)翻頁(yè)功能實(shí)現(xiàn)表明,本文提出的技術(shù)方法可以在基本無(wú)人工干預(yù)下快速、自動(dòng)地抽取

7、I萬(wàn)方數(shù)據(jù)列表頁(yè)面的豐富數(shù)據(jù)。關(guān)鍵字:deepweb;信息抽?。灰曈X(jué)信息;機(jī)器學(xué)習(xí)II萬(wàn)方數(shù)據(jù)ApproachonVisonbasedDeepWebDataExtractionAbstractRecently,Networktechnologyhasbecomemoreandmorepopular.Withit’s development,thewebhasbecameahugeresourceswithmassivevaluabledata.Now manyapplications,suchasmarketintelligenceana

8、lysis,areinanurgentneedtomine thesedataforobtainingusefulinformation,andthenthegreatestdegreeofa

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。