資源描述:
《基于視覺的數(shù)據(jù)密集型網(wǎng)頁信息抽取》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、南京大學申請碩士學位論文基于視覺的數(shù)據(jù)密集型網(wǎng)頁信息抽取作者:張文東研究方向:信息檢索指導教師:袁春風教授2010年5月㈣Vision-basedData.intensiveWbbInformationExtractionPresentedByZhangWendongSupervisedbyProf.YuanChunfengSUBMITTEDTOTHEDEPARTMENTOFCOMPUTERSCIENCEANDTECHNOLOGYOFNANJINGUNIVERSITYINCANDIDACYFORTHEDEGREEOFMASTERMay2010聲明本人
2、≯i明所呈交的論文是我個人在導師指導下、在南京大學及導!『iIj提供的研究環(huán)境下,作為導帥領導的項目組項目整體的組成部分而完成的研究上作及取得的研究成果。就我所知,除了文cfl特別加以標注和致謝的地方外,論文中4i包含其他人已經(jīng)發(fā)表或撰寫過的研究成果。與我一同工作的同志對本研究所做的任何貢獻均已存論文中作了明確的說明并表示了謝意。南京大學及導師所有權(quán)保留:送交論文的復印件,允許論文被查閱和借閱;公布論文的全部或部分內(nèi)容;可以采用影印、縮印或其它復制手段保存該論文。學生簽名:導師簽名:畚私氦分私氦日期:日期:沙㈦廣.2-0DeclarationImak
3、eadeclarationherethatthethesissubmittediscomposedoftheresearchingworkbymyselfanditscorrespondingresearchingresultsfinishedasaconstituentpartofthewholeprojectintheprojectteamleadedbymyadvisor.Thethesisiscompletedwiththeguidanceofmyadvisor,andundertheresearchingcircIm_lSta】【lceso
4、fferedbyNan]ingUniversityandmyadvisor(includingtheprojectsupportindicatedatthebeginningofthearticle).AsIknow,thethesisdoesnotincludeotherpeople’Sresearchingresultseverpublishedorcomposed,exceptthatarespeciallyannotatedandacknowledgedsomewhereinthearticle.Anycontributionmadetoth
5、eresearchbymyworkingpartnersisdeclaredexplicitlyandacknowledgedinthethesis.NanjingUniversityandtheadvisorretainthecopyrightasfollows:submittingthecopiesofthethesis,allowingthethesistobeconsultedandborrowed;publicizingthewholeorpartofthethesis’content;keepingthethesisbyphotocopy
6、,microcopyorothercopymethods,AuthorSignature:AdvisorSignature:Date:Date摘要隨著Interact的飛速發(fā)展,特別是DeepWeb(暗網(wǎng))的發(fā)展,Web信息資源越來越豐富。網(wǎng)上出現(xiàn)了大量數(shù)據(jù)質(zhì)量較高、領域性較強的信息,但是能夠快速、準確地獲取這些信息的途徑卻比較有限,自動Web信息抽取成為一‘項必要的工作。本文主要對數(shù)據(jù)密集型頁面進行信息抽取工作,并提出一套基于視覺的數(shù)據(jù)區(qū)域檢測和數(shù)據(jù)記錄檢測算法。Web信息抽取由于受到文本抽取的影響,長期以來的做法是利用HTML源碼進行文本分析,或
7、者利用頁面的DOM結(jié)構(gòu)來抽取一些頁面規(guī)則。這類方法往往涉及到文本語義,技術(shù)難點較多。微軟在“基于視覺的頁面分塊”(VIPS)中提出了利用視覺信息進行Web信息抽取,并指出了視覺信息更能夠準確的反映頁面結(jié)構(gòu)信息。VIPS算法的對象是普通Web頁面,算法中使用了大量的啟發(fā)式規(guī)則。本文利用視覺信息對數(shù)據(jù)密集型頁面進行信息抽取工作,解決了基于DOM結(jié)構(gòu)技術(shù)中的兩個難點:(1)一條數(shù)據(jù)記錄中的DOM節(jié)點在DOM樹上是不連續(xù)的。(2)節(jié)點相似度計算方法復雜,通常利用字符串編輯距離,但閾值的選擇會受到不同頁面結(jié)構(gòu)的影響。本文處理的數(shù)據(jù)密集型頁面中含有多條數(shù)據(jù)記錄,
8、利用重復模式檢測算法,可以減少VIPS算法中對啟發(fā)式規(guī)則的依賴。本文的主要工作可以概括為以下幾個方面:(1)