Page 8 - 《广西植物》2022年第12期
P. 8
1 9 9 8 广 西 植 物 42 卷
1.2.4 质控样本 质控( quality controlꎬQC) 样本通 说明组内的重复样本相关性极强、重复性好ꎬ可以
过等量混合多星韭籽和韭菜籽制备而成质控样本 用于后续差异代谢物分析ꎮ
(mix)ꎬ与分析样本采用相同的色谱和质谱检测分 OPLS ̄DA 可以去除主成分分析中无关的差异
析方法ꎬ共设置 3 个生物学重复ꎮ 同时ꎬ为监测分 信息ꎬ从而筛选出差异代谢物ꎮ 由图 3:A 可知ꎬ多
析过程中的样本重复性ꎬ在每 10 个分析样本中随 星韭籽和韭菜籽在 PC1 主成分上有明显的分离ꎬ
机插入 1 个质控样本ꎬ共插入 3 个ꎬ共计 9 个样本ꎮ 所建的 OPLS ̄DA 模型对 X 和 Y 矩阵的解释率分
1.3 数据处理 别为 R X = 0.907、R Y = 1ꎬ对模型预测的 Q 值是
2
2
2
利用软件 Analyst 1.6.3 处理质谱数据ꎬ基于武 0.999ꎬ这 3 个指标的值都接近 1ꎬ表示模型稳定可
汉迈特维尔生物科技公司自建数据库 MVDB 及代 靠有效ꎬ能较好地预测结果ꎮ 为了避免过拟合ꎬ我
谢信息公共数据库ꎬ根据二级谱信息进行代谢物 们使用 OPLS ̄DA 模型进行 200 次随机排列组合实
2
定性ꎬ以 MultiaQuant 软件进行质谱峰的积分校正ꎮ 验进行验证ꎬ当 Q 的 P = 0.02 时ꎬ说明 4 种随机
利用 R 语言中的内置统计 prcomp 函数对数据进 分组模 型 的 预 测 能 力 都 优 于 OPLS ̄DA 模 型ꎬ 当
2
行归一化( unit variance scalingꎬUV) 处理ꎬ并对 2 R Y的 P = 0.545 时ꎬ说明对 Y 矩阵的解释率有
组样品进行主成分( PCA) 分析ꎬPCA 用 R 语言软 109 个随机分组模型优于 OPLS ̄DA 模型ꎮ 一般情
2
件(base package)(版本 3.5.0) ( www.r ̄project.org) 况下ꎬP < 0.05 时模型最佳ꎮ 由图 3:B 可知ꎬQ 和
的内置统计 prcomp 函数ꎬ设置 prcomp 函数参数 R Y的 P 值均小于 0.005ꎬ表明模型可用且可根据
2
scale = Trueꎬ表示对数据进行 UV 归一化ꎮ 利用 R VIP 对差异代谢物进行筛选ꎮ
语言中的内置 cor 函数计算皮尔逊相关系数 r 来 2.2 代谢物分析
检测重复样品相关性ꎮ 利用正交偏最小二乘判别 根据 MRM 代谢物检测多峰图ꎬ分别从多星韭
分析(OPLS ̄DA)将原始数据进行 log 转换后进行 籽和韭菜籽中检测到 733 个和 634 个代谢物ꎬ结
2
中心化处理ꎬ公式为 x = x - xꎻ使用 R 语言中的 果见图 4ꎮ 利用 MultiaQuant 软件进行色谱峰积分
∗
Metabo AnalystR 包(版本 1.0.1) OPLSR.Anal 函数 和校正ꎬ确保定性、定量分析的准确性ꎮ 以 KEGG
进行数据分析得到变量重要性投影值( VIP)ꎬ为避 PATHWAY 数 据 库 ( http: / / www. genome. jp / kegg /
免过拟合ꎬ对其进行 200 次排列测试以验证模型 pathway.html)为背景ꎬ检测到的 782 个代谢物中有
准确性ꎮ 用 UV 将差异代谢物含量数据归一化处 457 个通过 MB Role 网站的 ID 转换功能获得了
理后通过 R 语言中的 pheatmap 包( 版本1.0.12) 绘 KEGG 输出 IDꎮ
制热图ꎬ用聚类分析( HCA) 分析不同样品间代谢 代谢物的聚类分析可用于简单直观地观察代
物积累规律ꎮ 将得到的差异代谢物映射到 KEGG 谢物组成ꎮ 从图 5 可以看出ꎬ2 种韭籽代谢产物的
PATHWAY 数 据 库 中 ( http: / / www. genome. jp / 相对含量存在明显差异ꎮ 在检测到的 782 种代谢
kegg / pathway.html)ꎬ进行相关通路分析ꎬ并通过超 产物中ꎬ有黄酮、脂类、酚酸、氨基酸及其衍生物、
几何检验的 P 值确定其显著性ꎮ 有机酸、核苷酸及其衍生物、生物碱、甾体、萜类、
木脂素类和香豆素类、鞣质等ꎮ
2 结果与分析 2.3 差异代谢物筛选
基于 OPLS ̄DA 结果ꎬ多变量分析模型的 VIP
2.1 样本质控分析 可以筛选出多星韭籽与韭菜籽之间差异的代谢
PCA 是一种能在最大限度保存原始数据信息 物ꎮ 由图 6:A 可知ꎬ靠近右上角和左下角的代谢
的前提下ꎬ通过建立数学模型把高维复杂数据进 物有显著差异ꎬ红色表示 VIP≥1 的代谢物质ꎮ 利
行简化降维来总结样本代谢谱特征的统计方法ꎮ 用差异倍数值(fold changeꎬFC)可结合单变量统计
由图 2:A 可知ꎬ各组间存在明显的分离趋势ꎬ说明 分析来进一步筛选差异代谢物ꎬ以 2 组样品中差
每个样本的数据处理结果是可信的ꎬ每个样本之 异为 2 倍以上或 0.5 以下认为是差异显著ꎬ即 FC
间存在明显差异ꎮ 由图 2:B 可知ꎬ通过样本间的 ≥2 或 FC≤0.5ꎮ 2 组差异代谢物的数量和变化可
皮尔逊相关系数 r 观察到多星韭籽( Kunth)、韭菜 以从图 6:B 的火山图中清楚看到ꎬ从多星韭籽和
籽(Rottl) 和质控样本( mix) 组内的 r 均大于 0.9ꎬ 韭菜籽中检测到的 782 种代谢物中筛选出 12 类