宏基因组学(Metagenomics)和代谢组学(Metabolomics)是系统生物学中的两个重要分支,分别从微生物群落功能潜力和代谢产物动态变化的角度揭示生物系统的运行机制。将二者结合进行相关性分析,能够建立“谁在做什么”的因果链条,广泛应用于肠道微生物与健康、环境微生物生态、疾病
biomarker 发现等领域。
常用相关性分析方法
1. Spearman / Pearson 相关性分析
原理:计算微生物(或基因)丰度与代谢物浓度之间的秩相关系数(Spearman 更常用,因数据常非正态分布)
输出:相关系数(r)和 p 值
工具:R语言 cor.test(), Hmisc::rcorr()
局限:仅反映两两关系,易受批次效应干扰
2. Procrustes 分析
目的:比较两个数据集(如物种 vs 代谢物)的整体结构是否一致
适用:PCA/PCoA降维后比较
结果:M² 统计量,越小越相关
3. Mantel 检验
检验两个距离矩阵(如Bray-Curtis物种距离 vs Jaccard代谢物距离)是否显著相关
适用于群落整体结构关联分析
4. 多变量统计方法
(1)典范对应分析(CCA/RDA)
将代谢物作为响应变量,微生物作为解释变量,分析其解释度
可视化为双标图(biplot)
(2)偏z小二乘回归(PLS-DA / OPLS-DA)
用于分类问题(如疾病 vs 健康)
找出驱动组间差异的关键微生物-代谢物对
(3)多因素关联网络分析(MENA, SPIEC-Eco)
构建“微生物-代谢物”共现网络
使用 SparCC、gLV、CoNet 等算法减少假阳性
中心节点(hub)可能是关键调控者
(4)混合模型:MixMC / MOFA+
同时整合宏基因组、代谢组、临床数据
提取共有变异因子(latent factors)
MOFA+ 可处理10+组学数据,适合复杂系统
来源:网络