交叉驗(yàn)證我的總結(jié).doc

交叉驗(yàn)證我的總結(jié).doc

ID:55145893

大小:80.51 KB

頁(yè)數(shù):20頁(yè)

時(shí)間:2020-04-28

交叉驗(yàn)證我的總結(jié).doc_第1頁(yè)
交叉驗(yàn)證我的總結(jié).doc_第2頁(yè)
交叉驗(yàn)證我的總結(jié).doc_第3頁(yè)
交叉驗(yàn)證我的總結(jié).doc_第4頁(yè)
交叉驗(yàn)證我的總結(jié).doc_第5頁(yè)
資源描述:

《交叉驗(yàn)證我的總結(jié).doc》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、先說(shuō)下我和邵是云的聊天情況:她的意思其實(shí)一開(kāi)始所有樣本也是先分為了兩個(gè)部分,一個(gè)大的部分是訓(xùn)練集,一個(gè)小的部分是測(cè)試集,然后只是在訓(xùn)練集里面分為常規(guī)訓(xùn)練集和一個(gè)效驗(yàn)集,且是交叉驗(yàn)證的方式,都全部交叉驗(yàn)證搞完了,再最后單獨(dú)測(cè)試那個(gè)小部分的測(cè)試集樣本?就是你說(shuō)的trainingaccuracy(常規(guī)訓(xùn)練集),crossvalidationrate(效驗(yàn)集)andtestaccuracy(測(cè)試集),她說(shuō)這是標(biāo)準(zhǔn)的方式,而如果全體數(shù)據(jù)用來(lái)訓(xùn)練和交叉驗(yàn)證其實(shí)就是把所有的樣本全部分為了訓(xùn)練集和效驗(yàn)集,所以就沒(méi)有testaccuracy一說(shuō)。常用的精度測(cè)試方法有交

2、叉驗(yàn)證,例如10倍交叉驗(yàn)證(10-foldcrossvalidation),將數(shù)據(jù)集分成十分,輪流將其中9份做訓(xùn)練1份做測(cè)試,10次的結(jié)果的均值作為對(duì)算法精度的估計(jì),一般還需要進(jìn)行多次10倍交叉驗(yàn)證求均值,例如10次10倍交叉驗(yàn)證,更精確一點(diǎn)。當(dāng)訓(xùn)練樣本數(shù)目過(guò)少,采用“交叉驗(yàn)證法”(crossvalidation).交叉驗(yàn)證法分兩種1:K重交叉驗(yàn)證法:該方法是最為普遍的計(jì)算推廣誤差的方法之一。其過(guò)程為:將訓(xùn)練樣本集隨機(jī)分為K個(gè)集合,通常分為K等份,對(duì)其中的K-1個(gè)集合進(jìn)行訓(xùn)練,得到一個(gè)決策函數(shù),并用決策函數(shù)對(duì)剩下的一個(gè)集合進(jìn)行樣本測(cè)試。該過(guò)程重復(fù)K次

3、,取K次過(guò)程中的測(cè)試錯(cuò)誤的平均值作為推廣誤差。2:留一法:該方法可以說(shuō)是K重交叉驗(yàn)證法的極端情況,即K=L,L為整個(gè)訓(xùn)練樣本集的大小。該過(guò)程為:對(duì)于第i個(gè)訓(xùn)練樣本,將其取出,對(duì)剩下L-1個(gè)樣本進(jìn)行訓(xùn)練,得到?jīng)Q策函數(shù),并用其測(cè)試第i個(gè)訓(xùn)練樣本,該過(guò)程重復(fù)L次,用此方法求出的誤差對(duì)于實(shí)際中的測(cè)試誤差來(lái)說(shuō)幾乎是無(wú)偏的。(注意當(dāng)樣本過(guò)少,即使交叉驗(yàn)證效果也不會(huì)理想,一般樣本應(yīng)在100以上.)k-fold?validation中文就是"k-折交叉驗(yàn)證(確認(rèn))"其中的k是用戶(hù)自己定的但它必須比原始的訓(xùn)練集中的元素個(gè)數(shù)n要小,即k<=n.著名的loo(leave?

4、one?out,留一法)就是k-fold?validation的一個(gè)特例即loo中的k=n.k-fold?validation經(jīng)常被用來(lái)訓(xùn)練NN,SVM等來(lái)確定一個(gè)最優(yōu)的參數(shù)它的基本思想就是將原始的訓(xùn)練集分成兩部分:訓(xùn)練集2(為了與原始訓(xùn)練集相區(qū)別,本處稱(chēng)之為訓(xùn)練集2)與驗(yàn)證集從原始訓(xùn)練集中選擇n/k個(gè)元素組成驗(yàn)證集剩下的(k-1)*n/k個(gè)元素用來(lái)做訓(xùn)練集2然后用訓(xùn)練集2來(lái)訓(xùn)練NN,SVM等,用驗(yàn)證集來(lái)驗(yàn)證所得分類(lèi)器(此處以分類(lèi)為例,對(duì)回歸應(yīng)該也一樣)的錯(cuò)誤碼率然后再次選擇另外n/k個(gè)元素組成驗(yàn)證集剩下的做為訓(xùn)練集2循環(huán),直到所有元素n/k個(gè)元素全

5、部被選擇一遍為止比較以上每次循環(huán)所得分類(lèi)器的錯(cuò)誤率把所得錯(cuò)誤率最低的那個(gè)參數(shù)認(rèn)為是最優(yōu)的參數(shù)-fold?cross-validation不是什么參數(shù)都可以調(diào)的它可以調(diào)的只是離散的參數(shù),比如網(wǎng)絡(luò)hidden?node的個(gè)數(shù)對(duì)于連續(xù)的參數(shù)沒(méi)法調(diào)網(wǎng)絡(luò)的權(quán)值是通過(guò)learning?algorithm來(lái)調(diào)節(jié)的只是用validation?set來(lái)控制是否over?train跟k-fold?cross-validation沒(méi)有什么關(guān)系除此之外k-fold?cross-validation主要是干什么:?根據(jù)一個(gè)樣本集k次validation之后的誤差的平均值來(lái)估計(jì)

6、一個(gè)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)的泛化誤差結(jié)構(gòu)風(fēng)險(xiǎn)最小化VC維在有限的訓(xùn)練樣本情況下,當(dāng)樣本數(shù)n固定時(shí),此時(shí)學(xué)習(xí)機(jī)器的VC維越高學(xué)習(xí)機(jī)器的復(fù)雜性越高。VC維反映了函數(shù)集的學(xué)習(xí)能力,VC維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大)。???????所謂的結(jié)構(gòu)風(fēng)險(xiǎn)最小化就是在保證分類(lèi)精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))的同時(shí),降低學(xué)習(xí)機(jī)器的VC維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制。??????推廣的界(經(jīng)驗(yàn)風(fēng)險(xiǎn)和實(shí)際風(fēng)險(xiǎn)之間的關(guān)系,注意引入這個(gè)原因是什么?因?yàn)橛?xùn)練誤差再小也就是在這個(gè)訓(xùn)練集合上,實(shí)際的推廣能力不行就會(huì)引起過(guò)擬合問(wèn)題還。所以說(shuō)要引入置信范圍也就是經(jīng)驗(yàn)誤差和實(shí)際期望誤差之

7、間的關(guān)系):???期望誤差R(ω)≤Remp(ω)+Φ(n/h)注意Remp(ω)是經(jīng)驗(yàn)誤差也就是訓(xùn)練誤差(線(xiàn)性中使得所有的都訓(xùn)練正確),Φ(n/h)是置信范圍,它是和樣本數(shù)和VC維有關(guān)的。上式中置信范圍Φ隨n/h增加,單調(diào)下降。即當(dāng)n/h較小時(shí),置信范圍Φ較大,用經(jīng)驗(yàn)風(fēng)險(xiǎn)近似實(shí)際風(fēng)險(xiǎn)就存在較大的誤差,因此,用采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,取得的最優(yōu)解可能具有較差的推廣性;如果樣本數(shù)較多,n/h較大,則置信范圍就會(huì)很小,采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,求得的最優(yōu)解就接近實(shí)際的最優(yōu)解??芍河绊懫谕L(fēng)險(xiǎn)上界的因子有兩個(gè)方面:首先是訓(xùn)練集的規(guī)模n,其次是VC維h??梢?jiàn)

8、,在保證分類(lèi)精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))的同時(shí),降低學(xué)習(xí)機(jī)器的VC維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制,這

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。