資源描述:
《交叉驗(yàn)證我的總結(jié).doc》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、先說(shuō)下我和邵是云的聊天情況:她的意思其實(shí)一開(kāi)始所有樣本也是先分為了兩個(gè)部分,一個(gè)大的部分是訓(xùn)練集,一個(gè)小的部分是測(cè)試集,然后只是在訓(xùn)練集里面分為常規(guī)訓(xùn)練集和一個(gè)效驗(yàn)集,且是交叉驗(yàn)證的方式,都全部交叉驗(yàn)證搞完了,再最后單獨(dú)測(cè)試那個(gè)小部分的測(cè)試集樣本?就是你說(shuō)的trainingaccuracy(常規(guī)訓(xùn)練集),crossvalidationrate(效驗(yàn)集)andtestaccuracy(測(cè)試集),她說(shuō)這是標(biāo)準(zhǔn)的方式,而如果全體數(shù)據(jù)用來(lái)訓(xùn)練和交叉驗(yàn)證其實(shí)就是把所有的樣本全部分為了訓(xùn)練集和效驗(yàn)集,所以就沒(méi)有testaccuracy一說(shuō)。常用的精度測(cè)試方法有交
2、叉驗(yàn)證,例如10倍交叉驗(yàn)證(10-foldcrossvalidation),將數(shù)據(jù)集分成十分,輪流將其中9份做訓(xùn)練1份做測(cè)試,10次的結(jié)果的均值作為對(duì)算法精度的估計(jì),一般還需要進(jìn)行多次10倍交叉驗(yàn)證求均值,例如10次10倍交叉驗(yàn)證,更精確一點(diǎn)。當(dāng)訓(xùn)練樣本數(shù)目過(guò)少,采用“交叉驗(yàn)證法”(crossvalidation).交叉驗(yàn)證法分兩種1:K重交叉驗(yàn)證法:該方法是最為普遍的計(jì)算推廣誤差的方法之一。其過(guò)程為:將訓(xùn)練樣本集隨機(jī)分為K個(gè)集合,通常分為K等份,對(duì)其中的K-1個(gè)集合進(jìn)行訓(xùn)練,得到一個(gè)決策函數(shù),并用決策函數(shù)對(duì)剩下的一個(gè)集合進(jìn)行樣本測(cè)試。該過(guò)程重復(fù)K次
3、,取K次過(guò)程中的測(cè)試錯(cuò)誤的平均值作為推廣誤差。2:留一法:該方法可以說(shuō)是K重交叉驗(yàn)證法的極端情況,即K=L,L為整個(gè)訓(xùn)練樣本集的大小。該過(guò)程為:對(duì)于第i個(gè)訓(xùn)練樣本,將其取出,對(duì)剩下L-1個(gè)樣本進(jìn)行訓(xùn)練,得到?jīng)Q策函數(shù),并用其測(cè)試第i個(gè)訓(xùn)練樣本,該過(guò)程重復(fù)L次,用此方法求出的誤差對(duì)于實(shí)際中的測(cè)試誤差來(lái)說(shuō)幾乎是無(wú)偏的。(注意當(dāng)樣本過(guò)少,即使交叉驗(yàn)證效果也不會(huì)理想,一般樣本應(yīng)在100以上.)k-fold?validation中文就是"k-折交叉驗(yàn)證(確認(rèn))"其中的k是用戶(hù)自己定的但它必須比原始的訓(xùn)練集中的元素個(gè)數(shù)n要小,即k<=n.著名的loo(leave?
4、one?out,留一法)就是k-fold?validation的一個(gè)特例即loo中的k=n.k-fold?validation經(jīng)常被用來(lái)訓(xùn)練NN,SVM等來(lái)確定一個(gè)最優(yōu)的參數(shù)它的基本思想就是將原始的訓(xùn)練集分成兩部分:訓(xùn)練集2(為了與原始訓(xùn)練集相區(qū)別,本處稱(chēng)之為訓(xùn)練集2)與驗(yàn)證集從原始訓(xùn)練集中選擇n/k個(gè)元素組成驗(yàn)證集剩下的(k-1)*n/k個(gè)元素用來(lái)做訓(xùn)練集2然后用訓(xùn)練集2來(lái)訓(xùn)練NN,SVM等,用驗(yàn)證集來(lái)驗(yàn)證所得分類(lèi)器(此處以分類(lèi)為例,對(duì)回歸應(yīng)該也一樣)的錯(cuò)誤碼率然后再次選擇另外n/k個(gè)元素組成驗(yàn)證集剩下的做為訓(xùn)練集2循環(huán),直到所有元素n/k個(gè)元素全
5、部被選擇一遍為止比較以上每次循環(huán)所得分類(lèi)器的錯(cuò)誤率把所得錯(cuò)誤率最低的那個(gè)參數(shù)認(rèn)為是最優(yōu)的參數(shù)-fold?cross-validation不是什么參數(shù)都可以調(diào)的它可以調(diào)的只是離散的參數(shù),比如網(wǎng)絡(luò)hidden?node的個(gè)數(shù)對(duì)于連續(xù)的參數(shù)沒(méi)法調(diào)網(wǎng)絡(luò)的權(quán)值是通過(guò)learning?algorithm來(lái)調(diào)節(jié)的只是用validation?set來(lái)控制是否over?train跟k-fold?cross-validation沒(méi)有什么關(guān)系除此之外k-fold?cross-validation主要是干什么:?根據(jù)一個(gè)樣本集k次validation之后的誤差的平均值來(lái)估計(jì)
6、一個(gè)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)的泛化誤差結(jié)構(gòu)風(fēng)險(xiǎn)最小化VC維在有限的訓(xùn)練樣本情況下,當(dāng)樣本數(shù)n固定時(shí),此時(shí)學(xué)習(xí)機(jī)器的VC維越高學(xué)習(xí)機(jī)器的復(fù)雜性越高。VC維反映了函數(shù)集的學(xué)習(xí)能力,VC維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大)。???????所謂的結(jié)構(gòu)風(fēng)險(xiǎn)最小化就是在保證分類(lèi)精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))的同時(shí),降低學(xué)習(xí)機(jī)器的VC維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制。??????推廣的界(經(jīng)驗(yàn)風(fēng)險(xiǎn)和實(shí)際風(fēng)險(xiǎn)之間的關(guān)系,注意引入這個(gè)原因是什么?因?yàn)橛?xùn)練誤差再小也就是在這個(gè)訓(xùn)練集合上,實(shí)際的推廣能力不行就會(huì)引起過(guò)擬合問(wèn)題還。所以說(shuō)要引入置信范圍也就是經(jīng)驗(yàn)誤差和實(shí)際期望誤差之
7、間的關(guān)系):???期望誤差R(ω)≤Remp(ω)+Φ(n/h)注意Remp(ω)是經(jīng)驗(yàn)誤差也就是訓(xùn)練誤差(線(xiàn)性中使得所有的都訓(xùn)練正確),Φ(n/h)是置信范圍,它是和樣本數(shù)和VC維有關(guān)的。上式中置信范圍Φ隨n/h增加,單調(diào)下降。即當(dāng)n/h較小時(shí),置信范圍Φ較大,用經(jīng)驗(yàn)風(fēng)險(xiǎn)近似實(shí)際風(fēng)險(xiǎn)就存在較大的誤差,因此,用采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,取得的最優(yōu)解可能具有較差的推廣性;如果樣本數(shù)較多,n/h較大,則置信范圍就會(huì)很小,采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,求得的最優(yōu)解就接近實(shí)際的最優(yōu)解??芍河绊懫谕L(fēng)險(xiǎn)上界的因子有兩個(gè)方面:首先是訓(xùn)練集的規(guī)模n,其次是VC維h??梢?jiàn)
8、,在保證分類(lèi)精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))的同時(shí),降低學(xué)習(xí)機(jī)器的VC維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制,這