交叉驗(yàn)證我的總結(jié)

ID：13913316

大?。?0.50 KB

頁(yè)數(shù)：20頁(yè)

時(shí)間：2018-07-24

資源描述：

《交叉驗(yàn)證我的總結(jié)》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、先說下我和邵是云的聊天情況：她的意思其實(shí)一開始所有樣本也是先分為了兩個(gè)部分，一個(gè)大的部分是訓(xùn)練集，一個(gè)小的部分是測(cè)試集，然后只是在訓(xùn)練集里面分為常規(guī)訓(xùn)練集和一個(gè)效驗(yàn)集，且是交叉驗(yàn)證的方式，都全部交叉驗(yàn)證搞完了，再最后單獨(dú)測(cè)試那個(gè)小部分的測(cè)試集樣本？就是你說的trainingaccuracy（常規(guī)訓(xùn)練集）,crossvalidationrate（效驗(yàn)集）andtestaccuracy（測(cè)試集），她說這是標(biāo)準(zhǔn)的方式，而如果全體數(shù)據(jù)用來訓(xùn)練和交叉驗(yàn)證其實(shí)就是把所有的樣本全部分為了訓(xùn)練集和效驗(yàn)集，所以就沒有testaccuracy一說。常用的精度測(cè)試方法有交叉驗(yàn)證，例如10倍交叉驗(yàn)

2、證(10-foldcrossvalidation)，將數(shù)據(jù)集分成十分，輪流將其中9份做訓(xùn)練1份做測(cè)試，10次的結(jié)果的均值作為對(duì)算法精度的估計(jì)，一般還需要進(jìn)行多次10倍交叉驗(yàn)證求均值，例如10次10倍交叉驗(yàn)證，更精確一點(diǎn)。當(dāng)訓(xùn)練樣本數(shù)目過少，采用“交叉驗(yàn)證法”（crossvalidation）.交叉驗(yàn)證法分兩種1:K重交叉驗(yàn)證法：該方法是最為普遍的計(jì)算推廣誤差的方法之一。其過程為：將訓(xùn)練樣本集隨機(jī)分為K個(gè)集合，通常分為K等份，對(duì)其中的K-1個(gè)集合進(jìn)行訓(xùn)練，得到一個(gè)決策函數(shù)，并用決策函數(shù)對(duì)剩下的一個(gè)集合進(jìn)行樣本測(cè)試。該過程重復(fù)K次，取K次過程中的測(cè)試錯(cuò)誤的平均值作為推廣誤差。2

3、:留一法：該方法可以說是K重交叉驗(yàn)證法的極端情況，即K=L，L為整個(gè)訓(xùn)練樣本集的大小。該過程為：對(duì)于第i個(gè)訓(xùn)練樣本，將其取出，對(duì)剩下L-1個(gè)樣本進(jìn)行訓(xùn)練，得到?jīng)Q策函數(shù)，并用其測(cè)試第i個(gè)訓(xùn)練樣本，該過程重復(fù)L次，用此方法求出的誤差對(duì)于實(shí)際中的測(cè)試誤差來說幾乎是無(wú)偏的。(注意當(dāng)樣本過少,即使交叉驗(yàn)證效果也不會(huì)理想,一般樣本應(yīng)在100以上.)k-fold?validation中文就是"k-折交叉驗(yàn)證(確認(rèn))"其中的k是用戶自己定的但它必須比原始的訓(xùn)練集中的元素個(gè)數(shù)n要小,即k<=n.著名的loo(leave?one?out,留一法)就是k-fold?validation的一個(gè)特例

4、即loo中的k=n.k-fold?validation經(jīng)常被用來訓(xùn)練NN,SVM等來確定一個(gè)最優(yōu)的參數(shù)它的基本思想就是將原始的訓(xùn)練集分成兩部分:訓(xùn)練集2(為了與原始訓(xùn)練集相區(qū)別,本處稱之為訓(xùn)練集2)與驗(yàn)證集從原始訓(xùn)練集中選擇n/k個(gè)元素組成驗(yàn)證集剩下的(k-1)*n/k個(gè)元素用來做訓(xùn)練集2然后用訓(xùn)練集2來訓(xùn)練NN,SVM等,用驗(yàn)證集來驗(yàn)證所得分類器(此處以分類為例,對(duì)回歸應(yīng)該也一樣)的錯(cuò)誤碼率然后再次選擇另外n/k個(gè)元素組成驗(yàn)證集剩下的做為訓(xùn)練集2循環(huán),直到所有元素n/k個(gè)元素全部被選擇一遍為止比較以上每次循環(huán)所得分類器的錯(cuò)誤率把所得錯(cuò)誤率最低的那個(gè)參數(shù)認(rèn)為是最優(yōu)的參數(shù)-f

5、old?cross-validation不是什么參數(shù)都可以調(diào)的它可以調(diào)的只是離散的參數(shù)，比如網(wǎng)絡(luò)hidden?node的個(gè)數(shù)對(duì)于連續(xù)的參數(shù)沒法調(diào)網(wǎng)絡(luò)的權(quán)值是通過learning?algorithm來調(diào)節(jié)的只是用validation?set來控制是否over?train跟k-fold?cross-validation沒有什么關(guān)系除此之外k-fold?cross-validation主要是干什么：?根據(jù)一個(gè)樣本集k次validation之后的誤差的平均值來估計(jì)一個(gè)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)的泛化誤差結(jié)構(gòu)風(fēng)險(xiǎn)最小化VC維在有限的訓(xùn)練樣本情況下，當(dāng)樣本數(shù)n固定時(shí)，此時(shí)學(xué)習(xí)機(jī)器的VC維越高學(xué)習(xí)

6、機(jī)器的復(fù)雜性越高。VC維反映了函數(shù)集的學(xué)習(xí)能力，VC維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大)。???????所謂的結(jié)構(gòu)風(fēng)險(xiǎn)最小化就是在保證分類精度（經(jīng)驗(yàn)風(fēng)險(xiǎn)）的同時(shí)，降低學(xué)習(xí)機(jī)器的VC維，可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制。??????推廣的界（經(jīng)驗(yàn)風(fēng)險(xiǎn)和實(shí)際風(fēng)險(xiǎn)之間的關(guān)系，注意引入這個(gè)原因是什么？因?yàn)橛?xùn)練誤差再小也就是在這個(gè)訓(xùn)練集合上，實(shí)際的推廣能力不行就會(huì)引起過擬合問題還。所以說要引入置信范圍也就是經(jīng)驗(yàn)誤差和實(shí)際期望誤差之間的關(guān)系）：???期望誤差R(ω)≤Remp(ω)+Φ（n/h）注意Remp(ω)是經(jīng)驗(yàn)誤差也就是訓(xùn)練誤差（線性中使得所有的都訓(xùn)練正確），Φ（n

7、/h）是置信范圍，它是和樣本數(shù)和VC維有關(guān)的。上式中置信范圍Φ隨n/h增加，單調(diào)下降。即當(dāng)n/h較小時(shí)，置信范圍Φ較大，用經(jīng)驗(yàn)風(fēng)險(xiǎn)近似實(shí)際風(fēng)險(xiǎn)就存在較大的誤差，因此，用采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則，取得的最優(yōu)解可能具有較差的推廣性；如果樣本數(shù)較多，n/h較大，則置信范圍就會(huì)很小，采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則，求得的最優(yōu)解就接近實(shí)際的最優(yōu)解?？芍河绊懫谕L(fēng)險(xiǎn)上界的因子有兩個(gè)方面：首先是訓(xùn)練集的規(guī)模n，其次是VC維h。可見，在保證分類精度（經(jīng)驗(yàn)風(fēng)險(xiǎn)）的同時(shí)，降低學(xué)習(xí)機(jī)器的VC維，可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制，這

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 20



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

交叉驗(yàn)證我的總結(jié)

交叉驗(yàn)證我的總結(jié)

相關(guān)文章

相關(guān)標(biāo)簽