資源描述:
《Robust Tracking via Convolutional Networks without Learning_PPT》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、RobustTrackingviaConvolutionalNetworkswithoutLearningKaihuaZhang,QingshanLiu,YiWu,andMing-HsuanYang(submittedtoTCSVT)學習匯報羅衡2015.4.1BackgroundIntroductionDeepnetworks可以直接從原始圖片中學習其隱含的特征,常被用于圖像分類、目標識別,當將其應(yīng)用于目標跟蹤時通常需要離線訓(xùn)練大量圖片,學習目標的特征信息,然而離線訓(xùn)練通常是非常耗時的,而且學習到的普遍特征對于特定目標的識別能力不夠。當前許
2、多高性能的跟蹤算法普遍利用了人為選擇的一些目標魯棒性特征,比如Haar-like、HOG、LBP等,但這些特征并不普遍適用于所有目標。Fan等人在2010年提出一種基于CNNs的人體跟蹤算法,王乃巖等人在2013年提出一種深度學習跟蹤算法DLT,但兩者都需要海量的圖片來訓(xùn)練特征抽取器,它們都沒有利用目標在視頻序列之間的相似的局部結(jié)構(gòu)性和內(nèi)在的幾何布局信息,而這些信息可以便捷有效地將目標從背景中識別出來。InspirationofRelatedWorkRiesenhuberandPoggio于2007年提出了一種仿人腦、基于特征組合的特征提取分
3、層模型(HMAX模型),作者利用濾波器卷積來抽取目標的高維特征,通過結(jié)合目標的局部特征生成其全局表示,并且沒有破壞目標的結(jié)構(gòu)化信息。最近,心理物理學實驗表明,人腦視覺處理系統(tǒng)的高效性極有可能是由于其使用了簡單的前饋處理方式(feed-forwardprocessing),作者提出的CNT也采用了相似的思想簡化了卷積網(wǎng)絡(luò)的結(jié)構(gòu)。許多跟蹤算法強調(diào)設(shè)計有效的目標表達方法,也有不少判別式算法致力于進一步提高分類器的性能,而不是著重于提取復(fù)雜的目標特征,但是目標的局部結(jié)構(gòu)性信息較少被充分利用,作者提出的算法較好地利用了這一信息。Overviewofth
4、eproposedCNT作者利用卷積網(wǎng)絡(luò)設(shè)計了一個分層的目標表示結(jié)構(gòu)。在第1幀中,將目標框歸一化到32x32大小,從中隨機選取一部分重疊的小box組成一系列Filters,用于同第t幀候選目標框中所有抽取的小box進行卷積,得到一系列局部特征的映射(featuremaps),從而可用于表示此候選目標的魯棒性全局特征。Preprocessing……resizeslidingnormalize將輸入圖片轉(zhuǎn)換成灰度圖,并resize成n*n大小,記作,再用w*w大小的box滑動遍歷整個圖,得到一系列圖像塊,記作,其中l(wèi)=(n-w+1)*(n–w+1
5、),每一個Y均減去本身亮度的均值。SimpleLayer在預(yù)處理之后,在y中隨機選取d個圖像塊,記作,這些塊可能會有部分重疊,其對輸入圖像I的響應(yīng)為。由于這d個濾波器只在第一幀初始化時隨機得到,此后保持不變,故其與目標框的相對位置總是固定不變的,從而可以作為一個特征提取的模板被反復(fù)使用。它對每一個候選目標都抽取了相同位置的局部特征。SimpleCellFeatures從第1幀初始化得到的某個濾波器與隨后各幀卷積的結(jié)果來看,雖然目標的表觀劇烈變化,但是簡單的小區(qū)域特征映射結(jié)果(simplecellfeaturemap)不僅保持了局部結(jié)構(gòu)性(虛線
6、橢圓區(qū)域),而且在一定程度上也保持了全局幾何結(jié)構(gòu)的不變性。從而說明了所選取的filters能夠有效地抽取目標的有用信息,如邊緣和角,雖然目標的整體表觀劇烈變化,但是這些特征信息是保持相對不變的。ComplexLayerlld……為了加強對目標的特征描述,作者將d個SimpleLayer依次堆疊,構(gòu)成ComplexLayer,即一個三階張量,表示complexcellfeaturemap。CNNs和HMAX模型著重于學習目標的平移不變特性,這個特性對于圖像分類和目標識別是有用的,但對跟蹤并不有效。相反地,ComplexLayer平移變化特性上圖
7、黑框中的三個簡單的目標特征映射來自于不同的尺度,由于有歸一化過程它們之間非常相似的結(jié)構(gòu)化特征;藍色虛框?qū)?yīng)的是發(fā)了漂移了的目標框,由于包含了大量背景像素點,其特征映射明顯與其他三者不同。ProposedTrackingAlgorithmCNT利用了粒子濾波框架,設(shè)第t幀時總的的觀測序列為,則跟蹤的目的就是求出后驗概率的最大值,利用貝葉斯理論,可知其中,其中X,Y為目標的位置,St為尺度參數(shù)。tt為運動模型,用于根據(jù)第t-1幀的位置預(yù)測第t幀的位置,假設(shè)目標狀態(tài)參數(shù)是相互獨立的,可以用三個Gaussian分布來描述,從而運動模型即為布朗運動,于
8、是,為對角協(xié)方差矩陣。為觀測模型,用于評估觀測結(jié)果Ot與目標的相似性。于是,整個跟蹤過程可以認為是求:觀測模型可以通過測量樣本通目標之間的相似度來計算:Effici