資源描述:
《深度學(xué)習(xí)DBN深度信念網(wǎng)絡(luò).ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在PPT專區(qū)-天天文庫。
1、BeliefNetsandDeepBeliefNets數(shù)媒學(xué)院-許鵬RBMReview我們知道傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)一般都是單隱層的,最多兩個(gè)隱層,而且一旦神經(jīng)元個(gè)數(shù)太多,模型參數(shù)就是迅速增長,采用隨機(jī)梯度下降的話一般很難找到最優(yōu)解,甚至隨著層數(shù)的增加,如果訓(xùn)練網(wǎng)絡(luò)時(shí)權(quán)值初始化的很小,那么模型會很快的陷入局部最優(yōu)解,而且是一個(gè)poorlocalminima,這是神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題。另外一個(gè)主要的原因就是判別模型,因?yàn)镕NN是判別模型,就是即使神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題可以通過一些手段解決,比如替換神經(jīng)元激活函數(shù),采用ReLU單元,那么還是有
2、問題,就是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候需要很大的標(biāo)簽數(shù)據(jù),因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)的模型參數(shù)很多,所以在訓(xùn)練數(shù)據(jù)少的時(shí)候很難找到最優(yōu)解,也就是深度神經(jīng)網(wǎng)絡(luò)不具備解決小樣本問題的能力,所以受這些限制,深度的神經(jīng)網(wǎng)絡(luò)一度被認(rèn)為是無法訓(xùn)練的,而90年代出現(xiàn)的支持向量機(jī)很好的解決了小樣本和優(yōu)化問題,所以受到人們的推崇。但是Hinton一直沒有放棄對于深層神經(jīng)網(wǎng)絡(luò)的研究,因?yàn)樗X得,支持向量機(jī)其實(shí)只是感知機(jī)引入了一些tricks,比如核方法很好的解決了非線性問題,但是核的選擇卻深深困擾著所有的機(jī)器學(xué)習(xí)的研究者,另外最大化間隔也就是支持向量提高了模型的泛
3、化能力,但是這些并不是提取非線性特征最有效的方法,所以深層神經(jīng)網(wǎng)絡(luò)的研究是很有意義的。以上思想來自于Hinton在coursera的公開課NeuralNetworksforMachineLearningRBMReview在2006以后深度網(wǎng)絡(luò)開始興盛,其實(shí)主要原因是,可以解決深層神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題了,也就是2006年Hinton發(fā)的文章里面采用的訓(xùn)練方法,逐層訓(xùn)練,而在逐層訓(xùn)練的時(shí)候起到最重要作用的受限玻爾茲曼機(jī),這樣的逐層訓(xùn)練有什么優(yōu)點(diǎn)那,它的優(yōu)點(diǎn)就是很好的解決了前面提到的深層神經(jīng)網(wǎng)絡(luò)遇到的兩個(gè)問題,很容易陷入局部最優(yōu)和沒
4、有大量標(biāo)簽樣本。其中的逐層訓(xùn)練解決了優(yōu)化的問題,因?yàn)樵谥饘佑貌柶澛鼨C(jī)預(yù)訓(xùn)練的時(shí)候就為整個(gè)網(wǎng)絡(luò)賦予了較好的初始權(quán)值,使得網(wǎng)絡(luò)只要經(jīng)過微調(diào)就可以達(dá)到最優(yōu)解,而不會陷入poorlocalminima,另外一個(gè)優(yōu)點(diǎn)是由于受限玻爾茲曼機(jī)是一個(gè)生成模型,它可以充分利用大量的非標(biāo)簽數(shù)據(jù),因?yàn)轭A(yù)訓(xùn)練的時(shí)候是對不含標(biāo)簽的數(shù)據(jù)本身進(jìn)行建模,其中RBM的可見單元是非標(biāo)簽訓(xùn)練數(shù)據(jù),隱藏層訓(xùn)練完以后可以看做是數(shù)據(jù)的特征,這樣如果將多個(gè)RBM堆疊起來就會起到提取數(shù)據(jù)非線性特征的效果,所以由此開始了深度學(xué)習(xí)的熱潮。UnsupervisedLearnin
5、gforGenerativeModelSupervisedLearningforDiscriminantModelPretrainingFine-tuneUnlabeledLabeled上面這個(gè)圖其實(shí)是2006年Hinton最開始進(jìn)行深度學(xué)習(xí)時(shí)候的思想,其中堆疊RBM是核心的思想,當(dāng)然最重要的那篇論文中并沒有提到判別模型,但是用生成模型一樣可以做分類,以后會提到。這整個(gè)模型中還有一個(gè)重要的知識就是信念網(wǎng)絡(luò),它和受限玻爾茲曼機(jī)很像,但是它是有向圖,而玻爾茲曼機(jī)是無向圖,它們都是學(xué)習(xí)一個(gè)聯(lián)合概率分布,下面我們講解信念網(wǎng)絡(luò),這對理
6、解DBN很重要。而DBN可以認(rèn)為是深度學(xué)習(xí)復(fù)興的一個(gè)開始。BeliefNetworkRBM和BN都是屬于概率圖模型,而BN是有向圖,它又叫Bayesiannetworks,causalnetworks,在1992年,RadfordNeal提出如果BN使用和RBM相同的sigmoid激活單元,我們可以得到SigmoidBeliefNets。既然兩者都屬于生成模型,都可以對非標(biāo)簽數(shù)據(jù)進(jìn)行建模,解決前面提到的兩個(gè)問題,那么我們該使用RBM還是BN那,亦或是兩者的合體,其實(shí)deepbeliefnets深度信念網(wǎng)絡(luò)就是兩者的合體,我們
7、已經(jīng)學(xué)習(xí)了RBM,但是要理解DBN還必須理解BN,還有很長的路要走。BNandProbabilityGraphicalModelRBM和BN都屬于PGM,PGM是圖論和概率論的結(jié)合,這是人工智能一個(gè)重要的領(lǐng)域,因?yàn)樗鉀Q了很多不確定性的問題,用它們建模得到的都是生成模型,我們回憶一下最開始學(xué)習(xí)BM的時(shí)候最重要的兩個(gè)問題,一個(gè)是學(xué)習(xí)問題,一個(gè)是推斷問題(就是從模型中采樣),對于BN來說也是一樣,如果是稀疏連接的有向無環(huán)BN,人們已經(jīng)發(fā)明了很多精確推斷的方法,但是對于密集連接的BN來說,推斷和學(xué)習(xí)都是問題。stochastich
8、iddencausesvisibleeffects當(dāng)我們有可見變量的時(shí)候,一般指的是訓(xùn)練數(shù)據(jù),我們要解決的問題有兩個(gè):Theinferenceproblem:給定可見變量時(shí)推斷藍(lán)色的不可見變量的狀態(tài)?,F(xiàn)在已經(jīng)有了很多技術(shù)處理這個(gè)問題,對于簡單的貝葉斯網(wǎng)絡(luò),可以用精確推斷,即根據(jù)貝葉斯公式計(jì)