十倍交叉驗(yàn)證.doc

十倍交叉驗(yàn)證.doc

ID:57729954

大?。?3.50 KB

頁(yè)數(shù):2頁(yè)

時(shí)間:2020-09-02

十倍交叉驗(yàn)證.doc_第1頁(yè)
十倍交叉驗(yàn)證.doc_第2頁(yè)
資源描述:

《十倍交叉驗(yàn)證.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、交叉驗(yàn)證(Cross?Validation,CV)是用來(lái)驗(yàn)證分類器的性能一種統(tǒng)計(jì)分析方法,基本思想是在某種意義下將原始數(shù)據(jù)(dataset)進(jìn)行分組,一部分做為訓(xùn)練集(train?set),另一部分做為驗(yàn)證集(validation?set),首先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,在利用驗(yàn)證集來(lái)測(cè)試訓(xùn)練得到的模型(model),以此來(lái)做為評(píng)價(jià)分類器的性能指標(biāo)。常見CV的方法如下:1)Hold-Out?Method將原始數(shù)據(jù)隨機(jī)分為兩組,一組做為訓(xùn)練集,一組做為驗(yàn)證集,利用訓(xùn)練集訓(xùn)練分類器,然后利用驗(yàn)證集驗(yàn)證模型,記錄

2、最后的分類準(zhǔn)確率為此Hold-OutMethod下分類器的性能指標(biāo)。此種方法的好處的處理簡(jiǎn)單,只需隨機(jī)把原始數(shù)據(jù)分為兩組即可,其實(shí)嚴(yán)格意義Hold-Out?Method并不能算是CV,因?yàn)檫@種方法沒有達(dá)到交叉的思想,由于是隨機(jī)的將原始數(shù)據(jù)分組,所以最后驗(yàn)證集分類準(zhǔn)確率的高低與原始數(shù)據(jù)的分組有很大的關(guān)系,所以這種方法得到的結(jié)果其實(shí)并不具有說服性。2)K-fold?Cross?Validation(記為K-CV)將原始數(shù)據(jù)分成K組(一般是均分),將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集,其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集,

3、這樣會(huì)得到K個(gè)模型,用這K個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此K-CV下分類器的性能指標(biāo)。K一般大于等于2,實(shí)際操作時(shí)一般從3開始取,只有在原始數(shù)據(jù)集合數(shù)據(jù)量小的時(shí)候才會(huì)嘗試取2。K-CV可以有效的避免過學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說服性。如:?10-foldcross-validation就是十折交叉驗(yàn)證,用來(lái)測(cè)試精度。是常用的精度測(cè)試方法.將數(shù)據(jù)集分成十分,輪流將其中9份做訓(xùn)練1份做測(cè)試,10次的結(jié)果的均值作為對(duì)算法精度的估計(jì),一般還需要進(jìn)行多次10倍交叉驗(yàn)證求均值,例如1

4、0次10倍交叉驗(yàn)證,更精確一點(diǎn)。3)Leave-One-Out?Cross?Validation(記為L(zhǎng)OO-CV)如果設(shè)原始數(shù)據(jù)有N個(gè)樣本,那么LOO-CV就是N-CV,即每個(gè)樣本單獨(dú)作為驗(yàn)證集,其余的N-1個(gè)樣本作為訓(xùn)練集,所以LOO-CV會(huì)得到N個(gè)模型,用這N個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此下LOO-CV分類器的性能指標(biāo)。相比于前面的K-CV,LOO-CV有兩個(gè)明顯的優(yōu)點(diǎn):①?每一回合中幾乎所有的樣本皆用于訓(xùn)練模型,因此最接近原始樣本的分布,這樣評(píng)估所得的結(jié)果比較可靠。②?實(shí)驗(yàn)過程中沒有隨

5、機(jī)因素會(huì)影響實(shí)驗(yàn)數(shù)據(jù),確保實(shí)驗(yàn)過程是可以被復(fù)制的。但LOO-CV的缺點(diǎn)則是計(jì)算成本高,因?yàn)樾枰⒌哪P蛿?shù)量與原始數(shù)據(jù)樣本數(shù)量相同,當(dāng)原始數(shù)據(jù)樣本數(shù)量相當(dāng)多時(shí),LOO-CV在實(shí)作上便有困難幾乎就是不顯示,除非每次訓(xùn)練分類器得到模型的速度很快,或是可以用并行化計(jì)算減少計(jì)算所需的時(shí)間。

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。