資源描述:
《視頻圖像中文本檢測和提取技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、視頻圖像中文本檢測和提取技術(shù)研究 摘要:近年來,隨著寬帶網(wǎng)絡(luò)技術(shù)、新型多媒體技術(shù)和信息通信技術(shù)的飛快發(fā)展,我們步入了一個嶄新的互聯(lián)網(wǎng)時代。面對日益增長的視頻和圖像資源數(shù)據(jù),如何有效快速的在海量的數(shù)據(jù)中檢索和訪問到我們所需要的信息變得十分有意義。視頻資源中包含豐富的語義信息和視頻關(guān)鍵內(nèi)容,為此,對視頻圖像中文本檢測和提取成為本文研究主題。 關(guān)鍵詞:數(shù)學(xué)形態(tài)學(xué);文本定位;自適應(yīng)閾值分割;字符識別;模板匹配 一.引言 近些年來,科學(xué)技術(shù)的更新速度不斷加快,科學(xué)方法日益創(chuàng)新。與此同時,多媒體數(shù)據(jù)庫和多媒體信息檢索
2、的發(fā)展使得視頻、音頻和圖像在我們的生活中扮演著越來越重要的角色。面對海量的視頻和圖像資源,有效快速的在海量的數(shù)據(jù)中檢索和訪問[1]到我們所需要的信息變得十分有意義。正在此背景下,解決上述問題產(chǎn)生的視頻圖像文本檢測成為熱點,因此本文開始對此展開研究?! 《?視頻圖像中文本分類 視頻圖像中的文本根據(jù)是否進行過后期制作所嵌入的文本或者根據(jù)圖像的層次和維數(shù)可將其分為場景文本和人工文本(也稱疊加文本或圖形文本)兩大類。6 場景文本是被攝影機或攝像機隨當時場景捕獲到的文本,場景文本存在于場景中,是場景的一部分。如汽車車牌
3、、交通路標、商店名稱、街道指示牌等等。 人工文本是在后期制作嵌入的文本圖形,在編輯階段被整合到視頻圖像中。這類文本主要有新聞視頻中標題綱要和時間,影視作品中的人物對白字幕、旁白字幕、片頭和片尾;廣告宣傳和體育賽事中直播的比分信息等等?! ∪?視頻圖像中文本的特點 通過分析我們得知視頻圖像有如下幾個方面的特性: 1.幾何特性: (1)字體大?。骸 ∫曨l圖像中字體大小不一,但在理想過程中,視頻圖像內(nèi)的文本不會超過屏幕的一半范圍。視頻中的文本,由于背景的動態(tài)干擾和時間的局限,文本大小一般不會太小?! 。?)排列
4、方式: 文本可以出現(xiàn)在視頻幀圖像的各個地方,可以按任意方式排列,但通常都是水平或豎直方向排列,而且還會集中在某一部分,例如像新聞電視的標題等。雖然有些文字方向可能改變,但是為了確保觀看效果,都會連續(xù)幾幀圖像相同,例如像電視廣告等?! 。?)文本間隙(字符間隔) 通常,在一行的文本,文本間隙會保持統(tǒng)一,具有相同的間距。幾乎不會連在一起?! ?.顏色特性6 為了便于觀看,文本的顏色通常會與背景畫面形成較強的對比,同一部分的文本顏色應(yīng)該具有相同或相似的顏色?! ?.運動特性 在視頻場景中的場景文本由于攝像的移動
5、而發(fā)生運動,而且規(guī)律不定;人工文本則考慮到更好的為人們觀看,相同內(nèi)容的人工文本會持續(xù)幾幀?! ∷?視頻圖像處理 (一)視頻載入 MATLAB軟件自帶的圖像視頻處理工具箱VideoReader函數(shù)能方便的獲取視頻的幀數(shù)等屬性信息,也可獲得相應(yīng)的圖像序列。read函數(shù)實現(xiàn)對視頻文件的讀取?! 。ǘ┮曨l幀提取 通過MATLAB中VideoReader函數(shù)獲取視頻文件信息后,在GUI界面進行顯示。其中最為重要的是對視頻進行分幀處理,調(diào)用函數(shù)VideoReader進行if循環(huán),并將視頻幀圖像進行臨時保存到本地。
6、采用while循環(huán)語句,進行幀圖像的讀取,當變量值改變的時候,保存當前幀圖像。該圖像即為所選擇的待處理圖像?! 。ㄈ﹫D像灰度化和二值化 1.圖像灰度化 數(shù)字圖像可以分為灰度圖像和RGB圖像(真彩圖像)。圖像中的每一個像素都是由R、G、B三個分量按不同數(shù)值構(gòu)成。如果三個分量相等,則表示為一種灰度色,即圖像灰度化為使R、G、B三個分量相等的過程?! ?.圖像二值化6 灰度化圖像的二值化處理在圖像處理過程中不僅能使工作量減小,還能夠突出目標圖像的邊界,以便后續(xù)的分析。在圖像進行二值化前需要對圖像進行灰度直方圖分
7、析,以此為基準選取合適閾值,當灰度大于所選閾值像素會被劃為目標,其灰度值為255,否則為0?! 。ㄋ模﹫D像數(shù)學(xué)形態(tài)學(xué) 圖像在經(jīng)過了灰度化和二值化的處理過程中,導(dǎo)致會丟掉一些邊緣像素,為了使其達到更好的效果,對二值化處理的圖像進行數(shù)學(xué)形態(tài)學(xué)的填充或溶解。數(shù)學(xué)形態(tài)學(xué)的應(yīng)用,可以簡化數(shù)據(jù),取消非相關(guān)結(jié)構(gòu),提高了速度。數(shù)學(xué)形態(tài)學(xué)的最基本運算主要有四種:膨脹操作、腐蝕操作、閉運算(開啟)和開運算(閉合)。 五.視頻圖像文本區(qū)域定位 文本定位算法主要有以下幾種: 1.基于區(qū)域的文本定位:此方法也被稱為基于連通區(qū)域的文
8、本定位方法,一般情況下,視頻圖像中的文本的像素點具有相同或相似的顏色,而且文本的顏色和背景的顏色差別很大。因此可以根據(jù)這一特點來分割圖像[2],通過顏色聚類等方法提取連接成分。再通過啟發(fā)式規(guī)則進一步篩選,最終得到文本區(qū)域?! ?.基于邊緣的文本定位:基于邊緣的文本定位主要是利用背景色和文本顏色的對比度或者是根據(jù)文本邊緣找出文本的位置?! ?.基于紋理的文本定位:基于紋理的