交叉驗(yàn)證我的總結(jié)

交叉驗(yàn)證我的總結(jié)

ID:13913316

大?。?0.50 KB

頁(yè)數(shù):20頁(yè)

時(shí)間:2018-07-24

交叉驗(yàn)證我的總結(jié)_第1頁(yè)
交叉驗(yàn)證我的總結(jié)_第2頁(yè)
交叉驗(yàn)證我的總結(jié)_第3頁(yè)
交叉驗(yàn)證我的總結(jié)_第4頁(yè)
交叉驗(yàn)證我的總結(jié)_第5頁(yè)
資源描述:

《交叉驗(yàn)證我的總結(jié)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)

1、先說下我和邵是云的聊天情況:她的意思其實(shí)一開始所有樣本也是先分為了兩個(gè)部分,一個(gè)大的部分是訓(xùn)練集,一個(gè)小的部分是測(cè)試集,然后只是在訓(xùn)練集里面分為常規(guī)訓(xùn)練集和一個(gè)效驗(yàn)集,且是交叉驗(yàn)證的方式,都全部交叉驗(yàn)證搞完了,再最后單獨(dú)測(cè)試那個(gè)小部分的測(cè)試集樣本?就是你說的trainingaccuracy(常規(guī)訓(xùn)練集),crossvalidationrate(效驗(yàn)集)andtestaccuracy(測(cè)試集),她說這是標(biāo)準(zhǔn)的方式,而如果全體數(shù)據(jù)用來訓(xùn)練和交叉驗(yàn)證其實(shí)就是把所有的樣本全部分為了訓(xùn)練集和效驗(yàn)集,所以就沒有testaccuracy一說。常用的精度測(cè)試方法有交叉驗(yàn)證,例如10倍交叉驗(yàn)

2、證(10-foldcrossvalidation),將數(shù)據(jù)集分成十分,輪流將其中9份做訓(xùn)練1份做測(cè)試,10次的結(jié)果的均值作為對(duì)算法精度的估計(jì),一般還需要進(jìn)行多次10倍交叉驗(yàn)證求均值,例如10次10倍交叉驗(yàn)證,更精確一點(diǎn)。當(dāng)訓(xùn)練樣本數(shù)目過少,采用“交叉驗(yàn)證法”(crossvalidation).交叉驗(yàn)證法分兩種1:K重交叉驗(yàn)證法:該方法是最為普遍的計(jì)算推廣誤差的方法之一。其過程為:將訓(xùn)練樣本集隨機(jī)分為K個(gè)集合,通常分為K等份,對(duì)其中的K-1個(gè)集合進(jìn)行訓(xùn)練,得到一個(gè)決策函數(shù),并用決策函數(shù)對(duì)剩下的一個(gè)集合進(jìn)行樣本測(cè)試。該過程重復(fù)K次,取K次過程中的測(cè)試錯(cuò)誤的平均值作為推廣誤差。2

3、:留一法:該方法可以說是K重交叉驗(yàn)證法的極端情況,即K=L,L為整個(gè)訓(xùn)練樣本集的大小。該過程為:對(duì)于第i個(gè)訓(xùn)練樣本,將其取出,對(duì)剩下L-1個(gè)樣本進(jìn)行訓(xùn)練,得到?jīng)Q策函數(shù),并用其測(cè)試第i個(gè)訓(xùn)練樣本,該過程重復(fù)L次,用此方法求出的誤差對(duì)于實(shí)際中的測(cè)試誤差來說幾乎是無(wú)偏的。(注意當(dāng)樣本過少,即使交叉驗(yàn)證效果也不會(huì)理想,一般樣本應(yīng)在100以上.)k-fold?validation中文就是"k-折交叉驗(yàn)證(確認(rèn))"其中的k是用戶自己定的但它必須比原始的訓(xùn)練集中的元素個(gè)數(shù)n要小,即k<=n.著名的loo(leave?one?out,留一法)就是k-fold?validation的一個(gè)特例

4、即loo中的k=n.k-fold?validation經(jīng)常被用來訓(xùn)練NN,SVM等來確定一個(gè)最優(yōu)的參數(shù)它的基本思想就是將原始的訓(xùn)練集分成兩部分:訓(xùn)練集2(為了與原始訓(xùn)練集相區(qū)別,本處稱之為訓(xùn)練集2)與驗(yàn)證集從原始訓(xùn)練集中選擇n/k個(gè)元素組成驗(yàn)證集剩下的(k-1)*n/k個(gè)元素用來做訓(xùn)練集2然后用訓(xùn)練集2來訓(xùn)練NN,SVM等,用驗(yàn)證集來驗(yàn)證所得分類器(此處以分類為例,對(duì)回歸應(yīng)該也一樣)的錯(cuò)誤碼率然后再次選擇另外n/k個(gè)元素組成驗(yàn)證集剩下的做為訓(xùn)練集2循環(huán),直到所有元素n/k個(gè)元素全部被選擇一遍為止比較以上每次循環(huán)所得分類器的錯(cuò)誤率把所得錯(cuò)誤率最低的那個(gè)參數(shù)認(rèn)為是最優(yōu)的參數(shù)-f

5、old?cross-validation不是什么參數(shù)都可以調(diào)的它可以調(diào)的只是離散的參數(shù),比如網(wǎng)絡(luò)hidden?node的個(gè)數(shù)對(duì)于連續(xù)的參數(shù)沒法調(diào)網(wǎng)絡(luò)的權(quán)值是通過learning?algorithm來調(diào)節(jié)的只是用validation?set來控制是否over?train跟k-fold?cross-validation沒有什么關(guān)系除此之外k-fold?cross-validation主要是干什么:?根據(jù)一個(gè)樣本集k次validation之后的誤差的平均值來估計(jì)一個(gè)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)的泛化誤差結(jié)構(gòu)風(fēng)險(xiǎn)最小化VC維在有限的訓(xùn)練樣本情況下,當(dāng)樣本數(shù)n固定時(shí),此時(shí)學(xué)習(xí)機(jī)器的VC維越高學(xué)習(xí)

6、機(jī)器的復(fù)雜性越高。VC維反映了函數(shù)集的學(xué)習(xí)能力,VC維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大)。???????所謂的結(jié)構(gòu)風(fēng)險(xiǎn)最小化就是在保證分類精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))的同時(shí),降低學(xué)習(xí)機(jī)器的VC維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制。??????推廣的界(經(jīng)驗(yàn)風(fēng)險(xiǎn)和實(shí)際風(fēng)險(xiǎn)之間的關(guān)系,注意引入這個(gè)原因是什么?因?yàn)橛?xùn)練誤差再小也就是在這個(gè)訓(xùn)練集合上,實(shí)際的推廣能力不行就會(huì)引起過擬合問題還。所以說要引入置信范圍也就是經(jīng)驗(yàn)誤差和實(shí)際期望誤差之間的關(guān)系):???期望誤差R(ω)≤Remp(ω)+Φ(n/h)注意Remp(ω)是經(jīng)驗(yàn)誤差也就是訓(xùn)練誤差(線性中使得所有的都訓(xùn)練正確),Φ(n

7、/h)是置信范圍,它是和樣本數(shù)和VC維有關(guān)的。上式中置信范圍Φ隨n/h增加,單調(diào)下降。即當(dāng)n/h較小時(shí),置信范圍Φ較大,用經(jīng)驗(yàn)風(fēng)險(xiǎn)近似實(shí)際風(fēng)險(xiǎn)就存在較大的誤差,因此,用采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,取得的最優(yōu)解可能具有較差的推廣性;如果樣本數(shù)較多,n/h較大,則置信范圍就會(huì)很小,采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,求得的最優(yōu)解就接近實(shí)際的最優(yōu)解??芍河绊懫谕L(fēng)險(xiǎn)上界的因子有兩個(gè)方面:首先是訓(xùn)練集的規(guī)模n,其次是VC維h。可見,在保證分類精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))的同時(shí),降低學(xué)習(xí)機(jī)器的VC維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制,這

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。