資源描述:
《基于邊緣檢測的視頻字幕自動定位方法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、基于邊緣檢測的視頻字幕自動定位方法[摘要]視頻中的字幕蘊含豐富的語義信息,字幕檢測方法對視頻檢索就尤為重要。因此,提出了一種高效率的方法對視頻中的字幕完成自動檢測與定位。對輸入的圖像進行銳化預處理,突出字幕區(qū)域的信息,求取經(jīng)銳化處理后圖像的最佳分割閥值,結(jié)合最佳分割閥值進行邊緣檢測得到二值圖,很好的分離了字幕區(qū)域與背景區(qū)域。運用形態(tài)學處理使文字連接成塊,最后依據(jù)文字的先驗特征去除干擾區(qū)域。實驗證明,該方法復雜程度低,能準確的定位字幕區(qū)域。[關(guān)鍵詞]視頻字幕;字幕檢測;邊緣檢測;數(shù)學形態(tài)學;中圖分類號:TP391.41文獻
2、標識碼:A文章編號:1009-914X(2014)41-0139-01隨著多媒體技術(shù)在互聯(lián)網(wǎng)上的高速發(fā)展,視頻在人們的日常生活中己經(jīng)成為不可或缺的一部分。迫切地需要一種有效的方法對視頻進行管理、索引和檢索。由于這種需求,基于圖像、聲音等各種視頻信息檢索的方法被大量提出,其中,視頻中的字幕信息對于視頻的檢索有著十分重要的意義。本文針對運用邊緣算法提取視頻字幕生成二值圖像時,需要設(shè)定經(jīng)驗閾值,通用性差的缺點,提出一種結(jié)合圖像預處理及最佳閥值分割的視頻字幕檢測算法。1字幕區(qū)域提取方法描述51.1字幕提取流程為了便于人眼識別,視
3、頻中后期制作加入的文字一般具有下述特性:文字顏色與背景有較大差別,具有比較豐富的邊緣信息;文字均具有一定規(guī)格尺寸;文字的分布比較集中且多為水平方向排列;任意一個文字區(qū)域都包含多個文字。正是基于以上特征,本研究設(shè)計了一種方法來檢測視頻中的文本區(qū)域,步驟如下:(1)輸入彩色圖像,做灰度化處理;(2)使用二階拉普拉斯算子做銳化處理;(3)用最小誤差法求圖像的分割閥值T;(4)用sobel算子結(jié)合閥值T做邊緣檢測;(5)將邊緣圖用數(shù)學形態(tài)學連通為區(qū)域;(6)文字區(qū)域進行粗篩選;(7)文字區(qū)域進行細篩選,確定文字區(qū)域;1.2輸入圖
4、像的預處理在處理彩色圖像前先把彩色圖像轉(zhuǎn)化為灰度圖像,一般常用的有R、G、B三色等權(quán)和不等權(quán)兩種變換,本方法采用不等權(quán)策略。由于拉普拉斯算子是微分操作符,對輸入的灰度圖像濾波,可以突出灰度值快速變化的區(qū)域,可以使圖像銳化。對于文字提取來說,邊緣圖像的二值化至關(guān)重要。閥值過大,會減少文字的邊緣信息。閥值過小,會使保留較多的非文字邊緣,使誤檢增多。本文采用最小誤差法求閾值。求得增強后圖像?(x,y)的最佳分割閾值為T。5本文使用sobel邊緣檢測算子。Sobel算子兩個模板組成,分別用來檢測圖像中的垂直邊緣和水平邊緣。將兩個
5、模板與圖像卷積得到的最大值作為該點的邊緣響應(yīng)值輸出。得到圖像的邊緣圖,與圖像的最佳分割閾值T比較,大于T的點賦值邏輯值1輸出,小于T的點賦值0輸出,最后生成二值圖像。1.3形態(tài)學處理形態(tài)學是一種非線性信號處理和分析的工具,應(yīng)用在圖像上,它可將圖像信號與其幾何形狀聯(lián)系起來,利用一定形態(tài)的結(jié)構(gòu)元素度量和提取圖像中的對應(yīng)形狀和結(jié)構(gòu),可以簡化圖像?;靖拍钍歉g、膨脹、開、閉運算。本文中使用五次閉運算,兩次開運算,三次膨脹運算可有效的將邊緣圖像連接成候選的連通區(qū)域。1.4字幕區(qū)域粗篩選在經(jīng)過形態(tài)學處理后,在通過文字區(qū)域的啟發(fā)性規(guī)
6、則就能剔除虛假的文本區(qū)域,得到精確的文本區(qū)域。其中主要用到字幕區(qū)域的寬度、面積、中心、寬高比、飽和度[7]。寬度:為了清晰顯示,提出的高度標準是邊界窗的高度必須高于10個像素。面積:字幕連通域的面積大于一個經(jīng)驗閾值150。中心:連通域最小外接矩形的中心。中心大于二分之一倍寬度。5寬高比:最小外接矩形寬度和高度的比例,寬高比大于1而小于50。飽和度:連通域內(nèi)已填充像素數(shù)占最小外接矩形的比例。設(shè)置飽和度閾值為0.4.1.5字幕區(qū)域細篩選根據(jù)字幕的先驗知識,能排除掉大部分虛假連通域,但仍會有少量的連通域誤檢出來。為進一步提高準
7、確率。設(shè)計如下思路:將檢測出的連通域的位置信息映射回二值圖像,對二值圖相應(yīng)位置進行水平方向投影,因為字幕通常由水平的幾個字符組成,邊緣信息比其他區(qū)域豐富,選取出水平投影均值最大的默認為字幕區(qū)。非字幕區(qū)零散且無規(guī)律,對未達到默認字幕區(qū)的50%的其他區(qū)域予以排除。最后得到滿足條件的連通域的位置信息,映射回到原圖上。2結(jié)束語通過大量的實驗,證明本方法的普適性和魯棒性,為解決一般邊緣檢測方法效率低,提出一種先對圖像做銳化預處理,突出字幕區(qū)域信息的方法。在用sobel算子對圖像做邊緣檢測時,解決了需要人為設(shè)定經(jīng)驗閥值生成二值圖像的
8、問題。以最小誤差法求取的值作為邊緣圖二值化的閾值,可以分離出字幕區(qū)與背景區(qū)域。運用數(shù)學形態(tài)學使文字區(qū)域連通為塊,根據(jù)文字的先驗規(guī)則去排除非字幕區(qū)。參考文獻5[1]蔡波,周洞汝,胡宏斌.數(shù)字視頻中字幕檢測及提取的研究和實現(xiàn)[J].計算機輔助設(shè)計與圖形學學報,2003(7):898-903.[2]萬罡,周洞汝,崔永毅等.