資源描述:
《文檔圖像的版面分析技術(shù)分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、摘要文檔圖像的版面分析是文檔信息處理系統(tǒng)的重要組成部分,以及復雜文檔OCR必不可少的環(huán)節(jié),它是實現(xiàn)紙質(zhì)文檔數(shù)字化的重要環(huán)節(jié)。版面分析技術(shù)廣泛應用于文檔自動檢索、辦公自動化等領域,但由于文檔版面類型多樣,結(jié)構(gòu)復雜,目前的版面分析技術(shù)仍具有較多局限性,因此版面分析具有重要的意義及應用前景。版面分析主要包括版面分割以及區(qū)域類型識別兩大部分。,針對傳統(tǒng)的自項向下方法難以適應復雜版面的問題,本文提出一種基于分割線提取的版面分割算法。該算法首先分別在水平和垂直方向上提取長度及寬度大于一定閾值的初始分割線,并針對固定閾值法適應性不強的問題,提出一種自適應閡值計算方法;然后將初始分割線聚類成線簇,為解決線簇形
2、狀復雜、主軸方向難以確定的問題,采用分層聚類方法,使得線簇形狀得以簡化,并采用一定策略提取出線簇主軸線作為最終分割線;然后對各分割線所形成的交點構(gòu)建關(guān)系模型,并基于該模型采用閉合框搜索算法分割出各版面區(qū)域;最后通過區(qū)域的篩選及合并處理增強分割結(jié)果的有效性。針對現(xiàn)有方法在同一層次考察各項目標屬性識別效率不高的問題,本文提出一種基于特征屬性的層次識別算法。該算法首先通過樣本統(tǒng)計得到各類目標的各項屬性概率分布,并引入屬性區(qū)分力的概念,表達屬性區(qū)分目標的能力,由此構(gòu)建目標屬性表,識別過程中每次提取當前區(qū)分力最大的屬性,并計算目標概率,實現(xiàn)一種逐步提取屬性并確定目標歸屬直至最終確定目標類型的層次識別過程
3、。本文針對版面分割所得到的文檔區(qū)域構(gòu)建了3木5大小的目標屬性表,采用該算法較好地實現(xiàn)了版面區(qū)域的識別。經(jīng)過綜合實驗分析,本文所提出的版面分析方法對于不同的版面類型以及拍攝條件均具有較好的適應性,并且具有較高的分割率與識別率。關(guān)鍵詞文檔圖像,版面分析,版面分割,區(qū)域類型識別ABSTRACTDocumentimagelayoutanalysisisanimportantcomponentofdocumentinformationprocessingsystem,andanessentialpartofcomplexdocumentsOCR.Itisakeystepofthedigitalizati
4、onofp印erdocuments.DocumentlayoutanalysistecluliqueiswidelyusedinautomaticdocumentretrieVal,o佑ceautomationandotherflelds.ButduetodiVerse勺,peandcomplexstmctureofdocumentlayout,currenttechnologyoflayoutanalysisstiUhascertainlimitations.So1ayoutanalysisisofgreatsiglli丘canceand印plication.Layoutanalysisin
5、cludeslayoutsegmentationandregionrecognition.Accordingtomeinad印tabilitytocomplexlayoutoftraditionaltop-downmethods,t11emethodbasedonsegmentation1ineextractionisputfIonⅣardi11thisp印er.Firstly,thealgorithmextractsinitialsegmentationlines、ⅣhoselengthandwidtllgreaterthanacertainthresholdValue.Andanadapt
6、iVenlresh01dmethodisputfo刑ardtos01Vetheproblemofinflexibili夠offixedmresholdmethod;Theninitialsegmentationlinesareclusteredmolineclusters.Ahier2urcmcalclusteralgorimmisusedtoac(1uiret11elmecluster’complexsh印eanddirectionofmainaxis.Thenthemainaxisofmelineclustersareextracte:dasfinalsegmentationlines丘o
7、msimplifiedlineclustersusmgacertaillstrategy;Basedonmerelationalmodelofcrossingpointsfomedbysegmentation1ines,aclosedp01ygonse2urchalgorithmisusedtosegmentthedocument1ayoutintoregions.Finally,theef.fe