技術問答

代謝組學數據處理——代謝通路分析

通過上述方法篩選到差異代謝物后,還需要挖掘和這些代謝物相關的代謝通路。此時,可以采用MetaboAnalyst網站(http://www.metaboanalyst.ca/)進行代謝通路分析(Metabolic pathway analysis),代謝通路分析分為富集分析(Enrichment analysis)和通路分析(pathway analysis)。通路分析中添加了通路拓撲分析(topology analysis),會輸出通路在整體網絡中的重要性(impact)。下圖展示了典型的代謝通路分析圖。?

?

代謝通路分析展示圖(來源:MetaboAnalyst網站)??

代謝組學數據處理——差異代謝物篩選

篩選差異代謝產物通?;贠PLS-DA模型,因為它更易于進行模型解釋,所有跟分組相關的信息都集中于第一維。篩選的標準通常是基于以下兩個指標:

  • Corr.Coeffs./p(corr) (Correlation Coefficient),是樣本得分值t和變量X間的相關系數-Corr(t, X),代表了變量的可靠度。該值沒有固定閾值,通常設定對應的P值 < 0.05。
  • VIP (Variable importance in the projection),為變量對模型的重要性,描述了每一個變量對模型的總體貢獻,通常設定閾值為VIP >1。

除此之外,基于單維檢驗的P值和變化倍數(Fold change)所作的火山圖(Volcano plot)也是常用的篩選方法。

代謝組學數據處理——模型評價

有監督的分類模型缺點是可能會出現過擬合(over-fitting)現象,即模型可以很好地將樣本進行區分,但用來預測新的樣本集時卻表現很差。因此對于有監督的分類模型,我們需要驗證模型的可靠性,下面列出幾種常見的模型評價方法:

1. K折交互驗證(K-fold cross validation)

最可靠的方式是將數據分為訓練集(Training set)、驗證集(Validation set)和測試集(Test set),訓練集用于訓練模型,驗證集優化模型,測試集測試模型的預測能力。但受限于樣本數量,通常采用K折交互驗證。其中七折交互驗證較為常用,即將數據集分為7份,每次挑選出1份作為測試樣本,剩余的6份用來訓練建模,整個過程將會被重復直到所有樣品都被預測過。預測的數據將會和原始數據作對比得到預測殘差平方和(Predicted residual sum of squares, PRESS)。為方便起見,將PRESS轉變為Q2(1-PRESS/SS)。Q2越大表示模型的預測能力越好。對于生物學樣本,Q2≥0.4是比較理想的[2],Q2≥0.2往往也可以接受,只是模型比較弱。軟件在自動建模(Autofit)時,會根據Q2決定模型所用的主成分或Orthogonal component個數(OPLS-DA模型)。當Q2停止增長時,模型將不再增加主成分。

2. 置換檢驗(Permutation test)

僅用Q2仍不足以證明模型的可靠性,置換檢驗也是常用的模型評判方式,常和Q2結合使用。其原理是將每個樣本的分組標記隨機打亂,再來建模和預測。一個可靠模型的Q2應當顯著大于將數據隨機打亂建模后得到的Q2?;谥脫Q檢驗的結果,可以畫出Permutation plot(圖6)。該圖展示了置換檢驗得到的分組變量和原始分組變量的相關性以及對應的Q2值,虛線為回歸線。一個可靠的有監督模型要求回歸線在Y軸上的截距小于0。

圖6. Permutation plot用于模型驗證??

3. 基于交互驗證的方差分析(CV-ANOVA)

CV-ANOVA是基于交互驗證預測殘差的方差分析,利用方差分析測試預測的Y變量(Yhat)和預設Y變量(Yobs)的殘差和Yobs圍繞均值變化的差異。它的好處是可以將交互驗證的結果以更加熟悉的方式展現出來,輸出表征統計學意義的P值。但CV-ANOVA對于小樣本集的檢驗效能較低[3]。

代謝組學數據處理——模型構建

代謝組學數據分析中,最常用的多維模型包括主成分分析(principal component analysis, PCA)、偏最小二乘法判別分析(Partial least squares discriminant analysis, PLS-DA)和正交偏最小二乘法判別分析(orthogonal PLS-DA, OPLS-DA)。PCA屬于無監督的分類模型,可將多維的數據不斷降維形成幾個主要成分(PC)來盡可能描述原始數據的特征。其中PC1描述了原始數據矩陣中最顯著的特征,PC2描述了除PC1之外最顯著的數據特征,依此類推。PCA通常被用于尋找離群點(outlier)及觀察不同組別之間的自然聚類趨勢。那么如何判斷數據集中的outlier?可通過Hotelling’s T2或PC1的score plot(PC1的數據解釋率最高)來判斷(圖3),通常紅線之外的樣本為嚴重離群點,需要進一步處理。PCA的離群點也可以分組來看,以減少組間的干擾,如下圖4所示。但對于離群點,不建議簡單粗暴地刪除,因為離群點通常是有趣且值得深究的。研究人員需要仔細地排查離群究竟是因為采樣、前處理、檢測等環節引入的誤差還是客觀的生物學差異引起的。

?

圖3. Hotelling’s T2柱狀圖和PC1的得分圖??

圖4. 分組PCA 得分圖用于離群點尋找。來??源:麥特繪譜XploreMET軟件。?

?利用PCA模型還可以觀察樣本間的自然聚類趨勢。不同組別樣本在PCA Score plot上即可分離是多維統計結果可靠性的最有力證據。然而,不同組別樣本不一定都存在明顯的差異,尤其對于臨床樣本的影響因素較多,如性別、年齡、BMI、地域、飲食、生活環境等。這些因素會給數據集帶來很多和分組信息無關的噪音信號。此時,可以利用有監督的分類模型。有監督的意思就是事先告訴模型樣本的真實分組信息再進行模型構建。PLS-DA能按照預先定義的分類(Y變量)最大化組間的差異,獲得比PCA更好的分離效果(圖5)。OPLS-DA綜合了PLS-DA和正交信號過濾(orthogonal signal correction, OSC)技術,能夠把與預先設定的和分類無關的信息最大程度從原始矩陣分離,從而將最相關的因素集中到第一個主成份(Predictive component)上,進而尋找該主成分的正交矯正軸方向,從而使得組間樣本分離效果更佳,使組內差異弱化,組間差異最大化凸顯,且更適用于兩組樣本間的分離。PLS-DA可以用于兩組及以上組別的分類比較,而OPLS-DA通常用于兩組的對比,找差異物質。

圖5. PCA和PLS-DA得分圖,PLS-DA可獲得更清晰的分離??

代謝組學數據處理——數據歸一化

多維統計模型建立之前,首先需要對數據作歸一化(Normalization)處理(有些學者稱為標準化Standardization),一是讓數據無量綱化,使不同性質的變量具有可比性;二是將不同數量級的變量數據經過不同的轉換(transform)至合適范圍,避免大值變量掩蓋小值變量的波動。在代謝組學數據處理中,常用的歸一化方法有Ctr(Center scaling), UV (unit variance scaling)和Par(Pareto scaling)。Ctr也叫中心化是原數據減去每列變量的均值,UV是數據中心化后除以列變量標準差(Standard deviation),Par是數據中心化后除以列變量標準差的算術平方根。Ctr將原數據轉化成離原點更近的新數據,可調節代謝物的高低濃度差異;UV的優勢是所有變量擁有同等的重要性,但缺點是檢測誤差可能會被放大;Par相比于UV更接近于原始測量數據,但缺點是對變化倍數大的變量更敏感[1]。UV和Par是常用的歸一化方式,基于不同的歸一化方式后續的數據分析將選擇不同的差異代謝物篩選方法,如UV下常使用V-plot(圖1-A),Par下則常用S-plot(圖1-B)。無論選擇何種歸一化方式,都需要對建立的模型作嚴格驗證以確保篩選出可靠的差異代謝物。因為VIP值通常用于差異變量篩選標準之一,V-plot可比較客觀的選擇出變量。對于Biomarker Discovery的診斷工具,我們推薦使用V-plot和相關性Corr.Coeffs. 的p值同時考慮的標準,如下圖2所示。

圖1. V-plot和S-plot示意圖


圖2. 基于VIP和Corr.Coeffs的p值的V-plot用于差異代謝物的篩選。來源:麥特繪譜XploreMET軟件。

糞便樣本反復凍融的影響

如下圖所示,凍融兩次和三次的糞水樣本和新鮮糞水樣本在PCA圖上存在明顯區分,且可以分別和新鮮糞水樣本建立穩健的OPLS-DA模型。反復凍融對氨基酸和尿苷有顯著影響[1]。因此,糞便樣本應當提前分裝,避免反復凍融。

圖4.不同凍融次數糞水樣本的PCA圖和差異代謝物

糞水和原始糞便樣本的穩定性

除了直接凍存收集的新鮮糞便,另一種方式是按1:2(糞便:水)或其他比例加入水或PBS,振蕩后,超速離心獲得糞水,以糞水的形式存儲。如下圖所示,新鮮糞便在-20℃放置1h后,代謝輪廓即發生了較為明顯的改變[1] 。凍存24h后糞水的代謝輪廓更穩定,和新鮮糞水沒有明顯差異,但糞水在室溫下放置5h及冷藏下放置24h以上,代謝輪廓開始明顯偏移[1]。需要指出的是,糞水樣品對于檢測疏水性強的化合物并不適合。另外,凍干糞便也是一種選擇。一般200mg的新鮮糞便可獲得約40mg的凍干糞便[2]。Lee等[3]對比了糞水和凍干糞便的差異,發現糞水中疏水性的長鏈醇、酯和甾醇類損失明顯。凍干糞便亦有缺點,即凍干的過程會損失揮發性的代謝物,如SCFAs[4]。

圖3.不同溫度和時間存儲糞便和糞水樣本的PCA圖

Page 1 of 612345...最后一頁