資源描述:
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí).ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、神經(jīng)網(wǎng)絡(luò)&深度學(xué)習(xí)基礎(chǔ)知識圖像的特征計算機(jī)圖像是由一定數(shù)量的點陣像素構(gòu)成的。如上所示,我們看到的是一輛車,但實際上計算機(jī)理解的是一個由各像素點的灰度值組成的矩陣,它并不能直接理解“這是一輛車”。我們需要將“這是一輛車”這個事實用完全邏輯化的語言描述出來,讓計算機(jī)建立一個函數(shù),這個矩陣自變量x所對應(yīng)的結(jié)果因變量y就是“車”。難度可想而知。我們先看一個簡單的例子。一個數(shù)字9,我們?nèi)绾蚊枋鏊男螤??現(xiàn)在有這么一種描述方法:這個數(shù)字的上半部分是一個圓,下半部分是靠右的一撇。用數(shù)學(xué)語言表達(dá)就是,上半部分能夠以方程
2、x12+y12=r12(r1>0)擬合,下半部分能以x22+y22=r22(x2<0,y2<0,r2>0)擬合,那么就能說明這個圖形極有可能是數(shù)字9。特征:用來描述一個對象具體表現(xiàn)形式的邏輯語言。如前頁所述,“上半部分是圓,下半部分是靠右的一撇”就是數(shù)字9的形狀特征。特征是構(gòu)成一個對象的必要但不充分條件,因為一個對象是由無數(shù)個特征組成的,在有限數(shù)量的特征里,我們永遠(yuǎn)只能預(yù)估該對象,而不能100%確定該對象究竟是什么。經(jīng)典的圖像特征之——Haar特征思考:我們一眼就能看出來這幅圖像上有一棟房子。但任何一幅圖
3、像都是由一定數(shù)量的像素點組成的,我們是怎么從這些單純的像素點里發(fā)現(xiàn)了房子的呢?這個問題還可以換一種問法:我們怎么知道一幅圖像中是有前景對象的,對于一張純色畫布,我們?yōu)槭裁礋o法發(fā)現(xiàn)任何對象?這涉及到一個現(xiàn)象:顏色突變。上圖所圈出的區(qū)域中,都是顏色變化較大的區(qū)域。而我們就會自然地認(rèn)為,這是物體的邊緣,而由封閉邊緣構(gòu)成的區(qū)域就是物體。不僅是房子這個整體,房子里的門、窗戶等元素我們都能發(fā)現(xiàn),而原因自然也是顏色突變。思考:人能看見絕對透明(100%透明)的玻璃嗎?我們定義一個形狀的時候,本質(zhì)上就是在定義其產(chǎn)生顏色突
4、變的像素點的大致相對位置。比如圓,在一個直角坐標(biāo)系的圖象上上,存在所有滿足(x-a)2+(y-b)2=r2條件的坐標(biāo)點的某個小鄰域內(nèi)有較大的顏色突變,那么這幅圖像上就有一個圓的形狀。左上方是一幅色盲測試圖,不色盲的朋友都能看到左下角有一個藍(lán)色的圓,而且是一個空心圓。思考:我們該如何用顏色突變的方式定義一輛車?(先不考慮前身后身等復(fù)雜情況,假設(shè)所有的車都是像左下圖這樣固定角度)Haar特征:對大量同類的圖像樣本進(jìn)行學(xué)習(xí),找出這些圖像所有的產(chǎn)生了顏色突變的相對坐標(biāo)位置,將這些同類圖片作為正樣本,同時給出不屬于
5、該類的,遠(yuǎn)多于同類圖片的負(fù)樣本,讓機(jī)器對這些樣本進(jìn)行學(xué)習(xí),并最終生成一個對象識別模型,用來正確尋找一幅圖像中你所需要尋找的元素。因此,Haar特征廣義上來說就是圖像的形狀特征。Haar特征對于鄰域的規(guī)定有三種:邊緣特征、中心特征、對角線特征,其中邊緣特征又分橫向和縱向。通過計算白色區(qū)域像素亮度和與黑色區(qū)域像素亮度和之差來反映圖像的顏色突變區(qū)域,即邊緣區(qū)域。特別地,對于C模型,需要將黑色區(qū)域乘以2作為其像素亮度和。Haar特征實例——人臉檢測我們用OpenCV中的一個訓(xùn)練得較好的人臉檢測Haar模型,對一張
6、照片進(jìn)行人臉檢測。結(jié)果如上。Haar特征的不足之處Haar特征本質(zhì)上是檢測圖像中的顏色突變的,所以對圖像的形狀較為敏感,同時對其他的特征(如顏色等)敏感度較低。而且Haar只適用于剛性運動物體的檢測,而不適用于物體精細(xì)化的識別。人臉檢測和人臉識別難度上完全不是一個數(shù)量級的。事實上,任何一種單一圖像特征都是不全面的,是不能適應(yīng)所有場景的。其實,圖像本身只是由像素點組成的,圖像的特征那是我們?nèi)藶檎沓鰜淼?,?yán)格地說它并不屬于圖像的一部分。那我們能不能從圖像的像素點本身來尋找一些算法呢?最基本的決策模型——感知
7、器生活中我們經(jīng)常要對一些事情做出決策。但不論我們最終選擇了什么,都一定是有原因的,而且原因往往不止一個。現(xiàn)在我們來玩一個情景游戲。假如周末公司組織員工外出旅游,你是去還是不去呢?這是一個最簡單的感知器,最終結(jié)果只有兩種,Yes和No。只是,結(jié)果雖然簡單,但是你會考慮諸多因素,最終決定結(jié)果。假設(shè)你考慮以下三個因素:A.天氣如何;B.可否帶伙伴一起去;C.費用、伙食、旅館等條件是否符合個人預(yù)期。假設(shè)你是這樣想的:和同事一塊出去玩,是很難得的一件事,能帶伙伴一起去那是錦上添花,不能也沒關(guān)系;但天氣是挺重要的,陰
8、雨綿綿玩得不開心;旅館嘛,這么多人一起,不會太好,但也不會太差,最重要的是享受。那么這時候,你的決策就和當(dāng)?shù)靥鞖馕ㄒ幌嚓P(guān),其他兩個因素沒有任何影響。感知器的本質(zhì)就是對各個輸入量的加權(quán)和進(jìn)行分析,做出YesorNo的決策的模型。上述你考慮的三個因素可以作為感知器的三個輸入量x1,x2,x3,并設(shè)積極的結(jié)果為1,消極的結(jié)果為0。三者都有對應(yīng)的權(quán)重量w1,w2,w3?,F(xiàn)計算它們的加權(quán)和w1x1+w2x2+w3x3,同時加上一個偏差值