資源描述:
《深度:自動(dòng)駕駛特斯拉背后核心技術(shù)解析.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、深度:自動(dòng)駕駛特斯拉背后核心技術(shù)解析 如此一來(lái),在離群點(diǎn)劃分中,中的某一項(xiàng)會(huì)接近1,而這樣的圖劃分顯然不能使得是一個(gè)較小的值,故達(dá)到考慮全局信息而摒棄劃分離群點(diǎn)的目的。這樣的操作類(lèi)似于機(jī)器學(xué)習(xí)中特征的規(guī)范化(normalization)操作,故稱(chēng)為normalizedcut。N-cut不僅可以處理二類(lèi)語(yǔ)義分割,而且將二分圖擴(kuò)展為K路(-way)圖劃分即可完成多語(yǔ)義的圖像語(yǔ)義分割,如下圖例?! rabcut是微軟劍橋研究院于2004年提出的著名交互式圖像語(yǔ)義分割方法。與N-cut一樣,grabcut同樣也是基于圖劃分,不過(guò)gr
2、abcut是其改進(jìn)版本,可以看作迭代式的語(yǔ)義分割算法。Grabcut利用了圖像中的紋理(顏色)信息和邊界(反差)信息,只要少量的用戶(hù)交互操作即可得到比較好的前后背景分割結(jié)果?! ≡趃rabcut中,RGB圖像的前景和背景分別用一個(gè)高斯混合模型(gaussianmixturemodel,GMM)來(lái)建模。兩個(gè)GMM分別用以刻畫(huà)某像素屬于前景或背景的概率,每個(gè)GMM高斯部件(gaussiancomponent)個(gè)數(shù)一般設(shè)為?! 〗酉聛?lái),利用吉布斯能量方程(gibbsenergyfunction)對(duì)整張圖像進(jìn)行全局刻畫(huà),而后迭代求取使得能量
3、方程達(dá)到最優(yōu)值的參數(shù)作為兩個(gè)GMM的最優(yōu)參數(shù)。GMM確定后,某像素屬于前景或背景的概率就隨之確定下來(lái)。 在與用戶(hù)交互的過(guò)程中,grabcut提供兩種交互方式:一種以包圍框(boundingbox)為輔助信息;另一種以涂寫(xiě)的線條(scribbledline)作為輔助信息。以下圖為例,用戶(hù)在開(kāi)始時(shí)提供一個(gè)包圍框,grabcut默認(rèn)的認(rèn)為框中像素中包含主要物體/前景,此后經(jīng)過(guò)迭代圖劃分求解,即可返回扣出的前景結(jié)果,可以發(fā)現(xiàn)即使是對(duì)于背景稍微復(fù)雜一些的圖像,grabcut仍有不俗表現(xiàn)?! 〔贿^(guò),在處理下圖時(shí),grabcut的分割效果則
4、不能令人滿(mǎn)意。此時(shí),需要額外人為的提供更強(qiáng)的輔助信息:用紅色線條/點(diǎn)標(biāo)明背景區(qū)域,同時(shí)用白色線條標(biāo)明前景區(qū)域。在此基礎(chǔ)上,再次運(yùn)行g(shù)rabcut算法求取最優(yōu)解即可得到較為滿(mǎn)意的語(yǔ)義分割結(jié)果。grabcut雖效果優(yōu)良,但缺點(diǎn)也非常明顯,一是僅能處理二類(lèi)語(yǔ)義分割問(wèn)題,二是需要人為干預(yù)而不能做到完全自動(dòng)化?! L時(shí)代的語(yǔ)義分割 其實(shí)大家不難看出,前DL時(shí)代的語(yǔ)義分割工作多是根據(jù)圖像像素自身的低階視覺(jué)信息(low-levelvisualcues)來(lái)進(jìn)行圖像分割。由于這樣的方法沒(méi)有算法訓(xùn)練階段,因此往往計(jì)算復(fù)雜度不高,但是在較困難的分
5、割任務(wù)上(如果不提供人為的輔助信息),其分割效果并不能令人滿(mǎn)意?! ≡谟?jì)算機(jī)視覺(jué)步入深度學(xué)習(xí)時(shí)代之后,語(yǔ)義分割同樣也進(jìn)入了全新的發(fā)展階段,以全卷積神經(jīng)網(wǎng)絡(luò)(fullyconvolutionalnetworks,F(xiàn)CN)為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò)「訓(xùn)練」的語(yǔ)義分割方法相繼提出,屢屢刷新圖像語(yǔ)義分割精度。下面就介紹三種在DL時(shí)代語(yǔ)義分割領(lǐng)域的代表性做法?! ∪矸e神經(jīng)網(wǎng)絡(luò) 全卷積神經(jīng)網(wǎng)絡(luò)FCN可以說(shuō)是深度學(xué)習(xí)在圖像語(yǔ)義分割任務(wù)上的開(kāi)創(chuàng)性工作,出自UCBerkeley的TrevorDarrell組,發(fā)表于計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議CVP
6、R2015,并榮獲bestpaperhonorablemention。 FCN的思想很直觀,即直接進(jìn)行像素級(jí)別端到端(end-to-end)的語(yǔ)義分割,它可以基于主流的深度卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)來(lái)實(shí)現(xiàn)。正所謂「全卷積神經(jīng)網(wǎng)絡(luò)」,在FCN中,傳統(tǒng)的全連接層fc6和fc7均是由卷積層實(shí)現(xiàn),而最后的fc8層則被替代為一個(gè)21通道(channel)的1x1卷積層,作為網(wǎng)絡(luò)的最終輸出。之所以有21個(gè)通道是因?yàn)镻ASCALVOC的數(shù)據(jù)中包含21個(gè)類(lèi)別(20個(gè)object類(lèi)別和一個(gè)「background」類(lèi)別)?! ∠聢D為FCN的網(wǎng)絡(luò)結(jié)構(gòu),
7、若原圖為H×W×3,在經(jīng)過(guò)若干堆疊的卷積和池化層操作后可以得到原圖對(duì)應(yīng)的響應(yīng)張量(activationtensor),其中,為第i層的通道數(shù)。可以發(fā)現(xiàn),由于池化層的下采樣作用,使得響應(yīng)張量的長(zhǎng)和寬遠(yuǎn)小于原圖的長(zhǎng)和寬,這便給像素級(jí)別的直接訓(xùn)練帶來(lái)問(wèn)題?! 榱私鉀Q下采樣帶來(lái)的問(wèn)題,F(xiàn)CN利用雙線性插值將響應(yīng)張亮的長(zhǎng)寬上采樣到原圖大小,另外為了更好的預(yù)測(cè)圖像中的細(xì)節(jié)部分,F(xiàn)CN還將網(wǎng)絡(luò)中淺層的響應(yīng)也考慮進(jìn)來(lái)。具體來(lái)說(shuō),就是將Pool4和Pool3的響應(yīng)也拿來(lái),分別作為模型FCN-16s和FCN-8s的輸出,與原來(lái)FCN-32s的輸出
8、結(jié)合在一起做最終的語(yǔ)義分割預(yù)測(cè)(如下圖所示)。 下圖是不同層作為輸出的語(yǔ)義分割結(jié)果,可以明顯看出,由于池化層的下采樣倍數(shù)的不同導(dǎo)致不同的語(yǔ)義分割精細(xì)程度。如FCN-32s,由于是FCN的最后一層卷積和池化的輸出,該模型的下采樣倍