復(fù)雜版面文檔圖像表格與圖的提取與分析

復(fù)雜版面文檔圖像表格與圖的提取與分析

ID:33398314

大小:5.86 MB

頁數(shù):91頁

時間:2019-02-25

復(fù)雜版面文檔圖像表格與圖的提取與分析_第1頁
復(fù)雜版面文檔圖像表格與圖的提取與分析_第2頁
復(fù)雜版面文檔圖像表格與圖的提取與分析_第3頁
復(fù)雜版面文檔圖像表格與圖的提取與分析_第4頁
復(fù)雜版面文檔圖像表格與圖的提取與分析_第5頁
資源描述:

《復(fù)雜版面文檔圖像表格與圖的提取與分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、萬方數(shù)據(jù)西安電子科技大學(xué)學(xué)位論文獨創(chuàng)性(或創(chuàng)新性)聲明秉承學(xué)校嚴謹?shù)膶W(xué)風(fēng)和優(yōu)良的科學(xué)道德,本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得西安電子科技大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同事對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。學(xué)位論文若有不實之處,本人承擔(dān)一切法律責(zé)任。本人簽名:日期:西安電子科技大學(xué)關(guān)于論文使用授權(quán)的說明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀

2、學(xué)位期間論文工作的知識產(chǎn)權(quán)屬于西安電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱、借閱論文;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,允許采用影印、縮印或其它復(fù)制手段保存論文。同時本人保證,結(jié)合學(xué)位論文研究成果完成的論文、發(fā)明專利等成果,署名單位為西安電子科技大學(xué)。保密的學(xué)位論文在年解密后適用本授權(quán)書。本人簽名:導(dǎo)師簽名:日期:日期:萬方數(shù)據(jù)萬方數(shù)據(jù)摘要摘要隨著信息化時代的來臨,紙質(zhì)文檔電子化已成為信息化建設(shè)的重要趨勢。表格是一種信息量高度集中的文本形式,它可以將文本和圖涵蓋其中,具有規(guī)范、簡明和易于處理等特點。圖是對文字的生動化描述,可以將晦澀難懂的文字通過圖的形式表達出來。在復(fù)雜版

3、面文檔圖像中魯棒并精確地進行表格與圖的提取及分析,是紙質(zhì)文檔電子化的關(guān)鍵。本文對此進行了深入的研究,主要內(nèi)容如下:1.從文檔圖像中表格與圖的特點著手,對文檔圖像進行預(yù)處理。本文首先將黃氏模糊算法與OTSU算法結(jié)合,對文檔圖像進行二值化,通過實驗結(jié)果證明該算法抗噪性能良好,且減少了表格線的斷裂。此外針對傾斜的二值文檔圖像,本文采用基于Hough變換與形態(tài)學(xué)運算相結(jié)合的傾斜校正算法進行校正,并且用實驗證明了該算法的有效性。2.表格的分析分為表格框線的提取、單元格的提取與表格重構(gòu)三部分。第一部分,表格線的提取采用了基于形態(tài)學(xué)的算法,能準確地提取出表格框線,并定位出表格區(qū)域。第二部分,為了有

4、效地提取單元格,本文首先對提取出的表格框線做了細化。通過對Hilditch、Rosenfeld、查索引表、并行細化算法結(jié)果作比較,最終采用了并行細化算法,并對其細化不徹底的缺點做了改進。然后,單元格的提取采用了基于表格特征點的算法,并采用Hough變換檢測單元格內(nèi)的斜線。第三部分,對單元格內(nèi)的文字信息進行連通域掃描來定位,并將表格框線與斜線整合完成表格的重構(gòu)。3.圖的提取采用了基于輪廓跟蹤的算法,該算法可以將去除表格的文檔圖像中的圖提取出來。本文針對類似表格的圖提出了一組規(guī)則進行區(qū)分,并對嵌套的復(fù)雜文檔進行分類處理來完成其中表格與圖的提取與分析。在由2038張圖片組成的數(shù)據(jù)庫中進行測

5、試,表格與圖提取及分析的準確率均在82%以上。關(guān)鍵詞:表格分析,傾斜校正,形態(tài)學(xué)算法,圖提取,輪廓跟蹤I萬方數(shù)據(jù)西安電子科技大學(xué)碩士學(xué)位論文II萬方數(shù)據(jù)ABSTRACTABSTRACTWiththeadventoftheinformationage,documentelectronicallyhasbecomeanimportanttrendininformationtechnology.Tableisahighlyconcentratedformoftextinformation,inwhichtextandgraphiscovered,anditisstandard,concis

6、eandeasytohandle.Graphisavividdescriptionofthetext,obscuretextcanbeexpressedthroughtheformofagraph.Extractionandanalysisoftableandgraphrobustlyandprecisely,inthedocumentimagewithcomplexlayout,isthekeytodocumentelectronically.Thispapercarriedoutathoroughstudy,andthemaincontentsareasfollows:1.Doc

7、umentimageispreprocessedbasedonthecharacteristicsoftableandgraph.WiththecombinationofHuangfuzzyalgorithmandOTSUalgorithm,documentimageisbinarized,andexperimentalresultsprovethatthisalgorithmhasgoodantinoiseperformanceandreducesthe

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。