圖像文本定位技術(shù)研究

圖像文本定位技術(shù)研究

ID:44063651

大?。?9.05 KB

頁數(shù):4頁

時間:2019-10-18

圖像文本定位技術(shù)研究_第1頁
圖像文本定位技術(shù)研究_第2頁
圖像文本定位技術(shù)研究_第3頁
圖像文本定位技術(shù)研究_第4頁
資源描述:

《圖像文本定位技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、摘要:圖像文本定位是圖像中文本識別的關(guān)鍵步驟。介紹了文本圖像的分類及特征,分析了圖像文木定位常川算法的應(yīng)川范圍及優(yōu)缺點,提出了文木定位算法的評價方法,闡述了文本定位的應(yīng)用領(lǐng)域,并對今后文本定位的研究方向進行了分析。中國論文網(wǎng)關(guān)鍵詞:圖像文本定位;圖像文本識別;圖像檢索中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1007-9599(2013)01-0016-03圖像中的文木通常描述了圖像的有效信息,如路牌、字幕、商店招牌等。如杲將圖片中的文木自動地識別出來,對圖像高層語義的自動理解、索引和檢索是非常有價值

2、的。大多數(shù)圖像中的文本具有相對明顯的特征,對通過計算機圖像處理技術(shù)進行文本定位和分離,再通過較為成熟的文字識別技術(shù),就能將圖像中的文本提取出來。圖像文本識別已成為數(shù)值圖像處理領(lǐng)域的研究熱點。圖像文本的識別主要包括以下部分:(1)獲取圖像;(2)對獲取圖像進行預(yù)處理;(3)檢測圖像屮包含文木的矩形區(qū)域,進行文木定位;(4)將文本從圖像屮分離出來,并通過光學(xué)字符識別系統(tǒng)(OCR)進行文木識別;(5)保存識別結(jié)果。其中第3步圖像文木定位是最為關(guān)鍵的步驟,成為研究的重點和難點。1圖像中文本的分類及特征1.1圖像中

3、文本的分類圖像中的文本分為人工文本(ArtificialText)和場景文本(NaturalSceneText)?AE文木是指使用圖像處理工具對獲取的原始圖像進行后期編輯,人為加在圖像上的文木,如新聞視頻中的字幕。場景文本是指在圖像獲取時就存在于場景中的文本,隨場景一同牛成到圖像中,其本身是場景的一部分,如廣告牌,路標(biāo),海報等。人工文本多為視頻的字幕或圖片的文字說明,為了方便人們閱讀,人工文本與背呆的對比度較強,文字顏色一致,排列整齊,文木內(nèi)容與圖片內(nèi)容的相關(guān)性強。場景文木的規(guī)律性較差,文字的方向、大小、

4、字體沒有限制,顏色變化鮫大,文本與背景的對比度跟環(huán)境有很人的關(guān)系。由于獲取圖像時的投影變換關(guān)系,圖像屮的文字可能會發(fā)生旋轉(zhuǎn)、縮放等變形,加上拍攝角度,光照等因素的影響,其定位難度較人工文本大。1.2圖像中文本的特征(1)文木的顏色特征。大多數(shù)情況下,同一區(qū)域中同一行文字,其顏色、色調(diào)、亮度等屬性相同或相似,與圖片背景有較人的對比度。人工文本尤其如此。但也有不一致的情況,如顏色漸變的藝術(shù)字,廣告中的文字等。(2)字符的大小。同一行文字,字符大小基本-?致。但同一?圖像中的文字大小,可能差別很大,大的可能占到

5、圖像而積的80%以上,而小的則只有兒個像素。山于A小的字符,識別率不高,像索低于10的字符通常被刪除。(3)字符的邊緣。由于字符與圖像背景間具有一定的對比度,因而字符與背景間都有較突出的邊緣,這為通過邊緣檢測進行文本定位提供了依據(jù)。邊緣包含邊緣強度和邊緣方向兩個要素。不同的文字,邊緣的方向不同,如英文和漢字的邊緣方向集中在水平、垂直和45°方向,而拉丁文的邊緣方向集中在垂直方向。(4)其他特征。同一行文字中,字符的間距相等。字符的寬和高在一定的比例范圍內(nèi)。文木區(qū)域具有高填充率、髙頻率等紋理特征。2圖像文木

6、定位的主要方法2.1基于文本邊緣的方法為方便閱讀,文本與圖像背景存在較大的対比度,從而在文本與背呆間形成較強的邊緣。文本邊緣具有邊緣強度和邊緣密度兩個特征。對于簡單背景的圖片,邊緣密度特征明顯;對于復(fù)雜背景的圖片,邊緣強度特征明顯?;谶吘壍奈哪径ㄎ恢饕襟E包括:(1)檢測圖像的邊緣密度和強度;(2)通過平滑濾波、形態(tài)學(xué)膨脹、區(qū)域合并等方法檢測到可能包含文本的矩形區(qū)域,形成候選文木區(qū)域;(3)根據(jù)文木的一些啟發(fā)性規(guī)則(如字符的寬高比,邊緣密度,邊緣方向,填充率等)去除非文本塊,獲得最終的檢測結(jié)果?;谶吘?/p>

7、的文本定位方法,優(yōu)點是速度較快,對于文本邊緣較突出,圖像背景邊緣較少,背景邊緣與文本邊緣的交叉連接不多的圖片,其定位準(zhǔn)確率高,誤判率低。但對于背景邊緣比較復(fù)雜、噪聲較大的圖片,文木定位的結(jié)果不理想,需要與其他方法結(jié)合起來,進行文木的定位。2.2基于連通區(qū)域的方法基于連通區(qū)域的方法主耍利用同一區(qū)域文本顏色相近、邊緣密度高等特性。采用口底向上的方式,使用顏色聚類、閾值、區(qū)域牛長等方法把圖像分成一些小的區(qū)域,然后根據(jù)一定的規(guī)則,將這些小的區(qū)域連接成大的區(qū)域,形成候選文本區(qū)域集合。再利川區(qū)域大小、寬高比、占用率、

8、邊緣強度等啟發(fā)性規(guī)則來濾除非文本區(qū)域,獲得真止的文本區(qū)域。基于連通區(qū)域方法的優(yōu)點是實現(xiàn)比較簡單,對于文木和背景比較單一的圖像,該方法的準(zhǔn)確率高。其缺點是對于文木顏色豐富,分辨率低,噪聲高的圖像,定位準(zhǔn)確性差,甚至將—?個字符分成兒個文本塊。另外,在濾除非文本區(qū)域時,用到的各種閾值(如寬高比,占用率)依賴于經(jīng)驗或?qū)嶒灒€沒有一個確定這些閾值的通用方法,造成文本定位的精確性與圖片數(shù)據(jù)庫有很大的關(guān)系,算法的通用性受到一定的限制。2.

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。