十倍交叉驗證.doc

ID：57729954

大小：23.50 KB

頁數：2頁

時間：2020-09-02

資源描述：

《十倍交叉驗證.doc》由會員上傳分享，免費在線閱讀，更多相關內容在教育資源-天天文庫。

1、交叉驗證(Cross?Validation，CV）是用來驗證分類器的性能一種統(tǒng)計分析方法，基本思想是在某種意義下將原始數據(dataset)進行分組,一部分做為訓練集(train?set)，另一部分做為驗證集(validation?set)，首先用訓練集對分類器進行訓練，在利用驗證集來測試訓練得到的模型(model)，以此來做為評價分類器的性能指標。常見CV的方法如下:1)Hold-Out?Method將原始數據隨機分為兩組,一組做為訓練集，一組做為驗證集，利用訓練集訓練分類器,然后利用驗證集驗證模型，記錄

2、最后的分類準確率為此Hold-OutMethod下分類器的性能指標。此種方法的好處的處理簡單，只需隨機把原始數據分為兩組即可，其實嚴格意義Hold-Out?Method并不能算是CV，因為這種方法沒有達到交叉的思想，由于是隨機的將原始數據分組，所以最后驗證集分類準確率的高低與原始數據的分組有很大的關系，所以這種方法得到的結果其實并不具有說服性。2)K-fold?Cross?Validation(記為K-CV)將原始數據分成K組(一般是均分)，將每個子集數據分別做一次驗證集，其余的K-1組子集數據作為訓練集,

3、這樣會得到K個模型，用這K個模型最終的驗證集的分類準確率的平均數作為此K-CV下分類器的性能指標。K一般大于等于2，實際操作時一般從3開始取，只有在原始數據集合數據量小的時候才會嘗試取2。K-CV可以有效的避免過學習以及欠學習狀態(tài)的發(fā)生，最后得到的結果也比較具有說服性。如：?10-foldcross-validation就是十折交叉驗證，用來測試精度。是常用的精度測試方法.將數據集分成十分，輪流將其中9份做訓練1份做測試，10次的結果的均值作為對算法精度的估計，一般還需要進行多次10倍交叉驗證求均值，例如1

4、0次10倍交叉驗證，更精確一點。3)Leave-One-Out?Cross?Validation(記為LOO-CV)如果設原始數據有N個樣本，那么LOO-CV就是N-CV，即每個樣本單獨作為驗證集，其余的N-1個樣本作為訓練集，所以LOO-CV會得到N個模型，用這N個模型最終的驗證集的分類準確率的平均數作為此下LOO-CV分類器的性能指標。相比于前面的K-CV，LOO-CV有兩個明顯的優(yōu)點：①?每一回合中幾乎所有的樣本皆用于訓練模型,因此最接近原始樣本的分布,這樣評估所得的結果比較可靠。②?實驗過程中沒有隨

5、機因素會影響實驗數據,確保實驗過程是可以被復制的。但LOO-CV的缺點則是計算成本高，因為需要建立的模型數量與原始數據樣本數量相同，當原始數據樣本數量相當多時，LOO-CV在實作上便有困難幾乎就是不顯示，除非每次訓練分類器得到模型的速度很快，或是可以用并行化計算減少計算所需的時間。

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 / 2



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容，確認文檔內容符合您的需求后進行下載，若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

十倍交叉驗證.doc

十倍交叉驗證.doc

相關文章

相關標簽