圖像文本定位技術(shù)研究

ID：44063651

大?。?9.05 KB

頁數(shù)：4頁

時間：2019-10-18

資源描述：

《圖像文本定位技術(shù)研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、摘要：圖像文本定位是圖像中文本識別的關(guān)鍵步驟。介紹了文本圖像的分類及特征，分析了圖像文木定位常川算法的應(yīng)川范圍及優(yōu)缺點，提出了文木定位算法的評價方法，闡述了文本定位的應(yīng)用領(lǐng)域，并對今后文本定位的研究方向進行了分析。中國論文網(wǎng)關(guān)鍵詞：圖像文本定位；圖像文本識別；圖像檢索中圖分類號：TP391文獻(xiàn)標(biāo)識碼：A文章編號：1007-9599(2013)01-0016-03圖像中的文木通常描述了圖像的有效信息，如路牌、字幕、商店招牌等。如杲將圖片中的文木自動地識別出來，對圖像高層語義的自動理解、索引和檢索是非常有價值

2、的。大多數(shù)圖像中的文本具有相對明顯的特征，對通過計算機圖像處理技術(shù)進行文本定位和分離，再通過較為成熟的文字識別技術(shù)，就能將圖像中的文本提取出來。圖像文本識別已成為數(shù)值圖像處理領(lǐng)域的研究熱點。圖像文本的識別主要包括以下部分：(1)獲取圖像；(2)對獲取圖像進行預(yù)處理；(3)檢測圖像屮包含文木的矩形區(qū)域，進行文木定位；(4)將文本從圖像屮分離出來，并通過光學(xué)字符識別系統(tǒng)(OCR)進行文木識別；(5)保存識別結(jié)果。其中第3步圖像文木定位是最為關(guān)鍵的步驟，成為研究的重點和難點。1圖像中文本的分類及特征1.1圖像中

3、文本的分類圖像中的文本分為人工文本(ArtificialText)和場景文本(NaturalSceneText)?AE文木是指使用圖像處理工具對獲取的原始圖像進行后期編輯，人為加在圖像上的文木，如新聞視頻中的字幕。場景文本是指在圖像獲取時就存在于場景中的文本，隨場景一同牛成到圖像中，其本身是場景的一部分，如廣告牌，路標(biāo)，海報等。人工文本多為視頻的字幕或圖片的文字說明，為了方便人們閱讀，人工文本與背呆的對比度較強，文字顏色一致，排列整齊，文木內(nèi)容與圖片內(nèi)容的相關(guān)性強。場景文木的規(guī)律性較差，文字的方向、大小、

4、字體沒有限制，顏色變化鮫大，文本與背景的對比度跟環(huán)境有很人的關(guān)系。由于獲取圖像時的投影變換關(guān)系，圖像屮的文字可能會發(fā)生旋轉(zhuǎn)、縮放等變形，加上拍攝角度，光照等因素的影響，其定位難度較人工文本大。1.2圖像中文本的特征(1)文木的顏色特征。大多數(shù)情況下，同一區(qū)域中同一行文字，其顏色、色調(diào)、亮度等屬性相同或相似，與圖片背景有較人的對比度。人工文本尤其如此。但也有不一致的情況，如顏色漸變的藝術(shù)字，廣告中的文字等。(2)字符的大小。同一行文字，字符大小基本-?致。但同一?圖像中的文字大小，可能差別很大，大的可能占到

5、圖像而積的80%以上，而小的則只有兒個像素。山于A小的字符，識別率不高，像索低于10的字符通常被刪除。(3)字符的邊緣。由于字符與圖像背景間具有一定的對比度，因而字符與背景間都有較突出的邊緣，這為通過邊緣檢測進行文本定位提供了依據(jù)。邊緣包含邊緣強度和邊緣方向兩個要素。不同的文字，邊緣的方向不同，如英文和漢字的邊緣方向集中在水平、垂直和45°方向，而拉丁文的邊緣方向集中在垂直方向。(4)其他特征。同一行文字中，字符的間距相等。字符的寬和高在一定的比例范圍內(nèi)。文木區(qū)域具有高填充率、髙頻率等紋理特征。2圖像文木

6、定位的主要方法2.1基于文本邊緣的方法為方便閱讀，文本與圖像背景存在較大的対比度，從而在文本與背呆間形成較強的邊緣。文本邊緣具有邊緣強度和邊緣密度兩個特征。對于簡單背景的圖片，邊緣密度特征明顯；對于復(fù)雜背景的圖片，邊緣強度特征明顯?；谶吘壍奈哪径ㄎ恢饕襟E包括：(1)檢測圖像的邊緣密度和強度；（2）通過平滑濾波、形態(tài)學(xué)膨脹、區(qū)域合并等方法檢測到可能包含文本的矩形區(qū)域，形成候選文木區(qū)域；（3）根據(jù)文木的一些啟發(fā)性規(guī)則（如字符的寬高比，邊緣密度，邊緣方向，填充率等）去除非文本塊，獲得最終的檢測結(jié)果?；谶吘?/p>

7、的文本定位方法，優(yōu)點是速度較快，對于文本邊緣較突出，圖像背景邊緣較少，背景邊緣與文本邊緣的交叉連接不多的圖片，其定位準(zhǔn)確率高，誤判率低。但對于背景邊緣比較復(fù)雜、噪聲較大的圖片，文木定位的結(jié)果不理想，需要與其他方法結(jié)合起來，進行文木的定位。2.2基于連通區(qū)域的方法基于連通區(qū)域的方法主耍利用同一區(qū)域文本顏色相近、邊緣密度高等特性。采用口底向上的方式，使用顏色聚類、閾值、區(qū)域牛長等方法把圖像分成一些小的區(qū)域，然后根據(jù)一定的規(guī)則，將這些小的區(qū)域連接成大的區(qū)域，形成候選文本區(qū)域集合。再利川區(qū)域大小、寬高比、占用率、

8、邊緣強度等啟發(fā)性規(guī)則來濾除非文本區(qū)域，獲得真止的文本區(qū)域。基于連通區(qū)域方法的優(yōu)點是實現(xiàn)比較簡單，對于文木和背景比較單一的圖像，該方法的準(zhǔn)確率高。其缺點是對于文木顏色豐富，分辨率低，噪聲高的圖像，定位準(zhǔn)確性差，甚至將—?個字符分成兒個文本塊。另外，在濾除非文本區(qū)域時，用到的各種閾值（如寬高比，占用率）依賴于經(jīng)驗或?qū)嶒灒€沒有一個確定這些閾值的通用方法，造成文本定位的精確性與圖片數(shù)據(jù)庫有很大的關(guān)系，算法的通用性受到一定的限制。2.

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

圖像文本定位技術(shù)研究

圖像文本定位技術(shù)研究

相關(guān)文章

相關(guān)標(biāo)簽