有監督的分類模型缺點是可能會出現過擬合(over-fitting)現象,即模型可以很好地將樣本進行區分,但用來預測新的樣本集時卻表現很差。因此對于有監督的分類模型,我們需要驗證模型的可靠性,下面列出幾種常見的模型評價方法:
1. K折交互驗證(K-fold cross validation)
最可靠的方式是將數據分為訓練集(Training set)、驗證集(Validation set)和測試集(Test set),訓練集用于訓練模型,驗證集優化模型,測試集測試模型的預測能力。但受限于樣本數量,通常采用K折交互驗證。其中七折交互驗證較為常用,即將數據集分為7份,每次挑選出1份作為測試樣本,剩余的6份用來訓練建模,整個過程將會被重復直到所有樣品都被預測過。預測的數據將會和原始數據作對比得到預測殘差平方和(Predicted residual sum of squares, PRESS)。為方便起見,將PRESS轉變為Q2(1-PRESS/SS)。Q2越大表示模型的預測能力越好。對于生物學樣本,Q2≥0.4是比較理想的[2],Q2≥0.2往往也可以接受,只是模型比較弱。軟件在自動建模(Autofit)時,會根據Q2決定模型所用的主成分或Orthogonal component個數(OPLS-DA模型)。當Q2停止增長時,模型將不再增加主成分。
2. 置換檢驗(Permutation test)
僅用Q2仍不足以證明模型的可靠性,置換檢驗也是常用的模型評判方式,常和Q2結合使用。其原理是將每個樣本的分組標記隨機打亂,再來建模和預測。一個可靠模型的Q2應當顯著大于將數據隨機打亂建模后得到的Q2?;谥脫Q檢驗的結果,可以畫出Permutation plot(圖6)。該圖展示了置換檢驗得到的分組變量和原始分組變量的相關性以及對應的Q2值,虛線為回歸線。一個可靠的有監督模型要求回歸線在Y軸上的截距小于0。
圖6. Permutation plot用于模型驗證??
3. 基于交互驗證的方差分析(CV-ANOVA)
CV-ANOVA是基于交互驗證預測殘差的方差分析,利用方差分析測試預測的Y變量(Yhat)和預設Y變量(Yobs)的殘差和Yobs圍繞均值變化的差異。它的好處是可以將交互驗證的結果以更加熟悉的方式展現出來,輸出表征統計學意義的P值。但CV-ANOVA對于小樣本集的檢驗效能較低[3]。