全自动、自主运行的代谢组学实验室

📅 2026/6/20 8:59:12
全自动、自主运行的代谢组学实验室
摘要全自动代谢组学实验室一直是领域愿景但受分析方法设计复杂度限制至今尚未落地。本研究以此为目标开发了款基于质谱非靶向代谢组学、可自动设计液相色谱梯度的自优化框架BAGO。该工具以提升所有化合物无论已知/未知的分离效果为目标实现代谢物全域检出能力的增强。BAGO依托数据驱动型贝叶斯优化算法从已采集的质谱数据中迭代学习输出更优的色谱梯度方案。研究提出全局分离指数可量化已注释及未注释特征峰的共洗脱程度无需依托化合物结构即可对各类样本开展稳定优化。本研究选取4组代谢组学实验覆盖多种样本基质、色谱柱类型与梯度时长开展性能验证。BAGO通过平衡算法的探索与利用能力仅需10轮迭代即可实现显著优化。经梯度优化后样品中高斯型色谱峰数量、级质谱采集率均有所提升结合精准匹配与类似物检索种方式代谢物注释数量也同步增加。本研究进一步将BAGO应用于黑腹果蝇腹部躯体的性别差异代谢组学研究分别采用初始梯度与优化后梯度完成平行实验。结果显示优化方法使高斯型色谱峰数量提升41.9%触发级质谱采集的峰数量提升36.8%并多鉴定出18种具有生物学意义的代谢物其中包括章鱼胺、焦谷氨酸等与性别特征相关的物质。BAGO为开源免费工具为非靶向代谢组学搭建全自动化、自优化实验流程奠定了通用化基础。开源地址https://github.com/HuanLab/bagohuaxuyuzju.cnthuanchem.ubc.ca#液相色谱梯度性能 #分离度 #贝叶斯优化 #自优化方法BAGO工作流程图1BAGO算法设计与优化目标(a) 流程图展示BAGO整体架构算法基于分离效率与梯度程序的未知关联对初始梯度开展迭代优化直至得到最优梯度。(b) 液质梯度设计的贝叶斯优化1维可视化。上图高斯过程回归GPR模型结合实测数据对未知目标函数进行预测并量化预测不确定性下图基于高斯过程回归模型生成期望改进获取函数筛选下一组待测试的液相色谱梯度。(c) 采用BAGO算法优化人血清样本色谱梯度的结果对比。实验使用4极杆飞行时间质谱联用BEH C18色谱柱。左上初始梯度程序流动相B占比随时间变化右上初始梯度对应的液质基峰色谱图左下优化后梯度程序右下优化后梯度对应的液质基峰色谱图。(d) 非靶向代谢组学中全局分离指数GSI的定义该指数基于保留时间区间平方和计算。若所有化合物在洗脱区间内均匀分布代表达到理想分离若所有化合物在梯度起始位置共洗脱则代表完全未分离。(e) 3种不同分离状态对应的全局分离指数数值示例。(f~h) 全局分离指数分别与3类指标的斯皮尔曼等级相关系数(f) 独立2级质谱谱图数量(g) 高斯型色谱峰数量(h) 带有2级质谱谱图的高斯型色谱峰数量。结果算法开发图2液质梯度优化中算法探索与利用能力的平衡分析采用亲水作用色谱柱 4极杆飞行时间质谱对单份人尿液样本开展142组梯度实验覆盖全部梯度搜索空间。(a) 梯度搜索空间的均匀流形逼近与投影可视化对比纯利用、纯探索、期望改进3种策略的前10次实验选择。图中灰色点代表142组不同梯度对应的液质实验彩色点为依次开展的实验红色菱形为初始梯度。(b) 期望改进、纯探索、纯利用3种策略的模型拟合效果对比以决定系数R2为评价指标。(c) 3种策略的模型拟合效果对比以中位数绝对误差为评价指标。(d) 3种策略的优化效率对比以相对分离效率为评价指标。(e) 5种不同获取函数找到最优梯度所需实验次数的统计直方图EI 期望改进、PI 改进概率、Epsε-贪心算法。性能基准测试图3BAGO在4组液质串联质谱代谢组学实验中的基准性能验证高分辨4极杆飞行时间质谱平台(a~d) 4组实验在BAGO迭代优化过程中高斯型色谱峰数量蓝色标识上图、触发2级质谱采集的峰数量红色标识下图变化趋势(a) 小鼠粪便代谢组9分钟亲水作用色谱梯度(b) 人尿液代谢组9分钟亲水作用色谱梯度(c) 人血清极性代谢组9分钟亲水作用色谱梯度(d) 人血清非极性脂质组31分钟反相色谱梯度。(e~h) 初始线性梯度与优化后梯度的曲线对比(e) 小鼠粪便样本(f) 人尿液样本(g) 人血清极性代谢组(h) 人血清脂质组。(i) 梯度优化后通过精准匹配检索与谱图模糊检索得到的、带有高斯峰形的代谢物注释数量变化。(j) 不区分峰形所有采集到的2级质谱谱图经精准匹配检索、谱图模糊检索得到的代谢物注释数量变化。生物学应用图4BAGO应用于黑腹果蝇腹部躯体性别差异代谢组学的研究结果(a) 结合BAGO梯度优化的非靶向代谢组学完整实验流程样本采集、BAGO方法开发、液质串联质谱检测、数据分析与结果验证分别采用初始线性梯度、优化后梯度完成检测依托MassCube软件开展非靶向代谢组学分析与2级质谱谱图库匹配数据库包含NIST23、MS-DIAL、北美质谱库、GNPS。(b) 高斯型色谱峰数量、带2级质谱峰数量、精准匹配注释数、模糊检索注释数的组间对比初始梯度vs优化后梯度。(c) 经空白样本剔除、质控样本相对标准偏差过滤后各类代谢组学特征指标的组间对比。(d) 初始梯度下质控样本中质荷比130.050的提取离子流图主峰为谷氨酰胺的源内裂解碎片两种离子发生严重共洗脱。(e) 优化后梯度下质控样本中质荷比130.050的提取离子流图2种同质荷比离子实现有效分离。(f) 新注释代谢物焦谷氨酸在雌雄果蝇组间的质谱信号强度对比采用非配对双尾t检验未进行多重检验校正。(g, h) 火山图分别基于初始梯度数据(g)、优化后梯度数据(h)筛选雌雄果蝇间的显著差异代谢物虚线为筛选阈值倍数变化1.5、P0.05分析采用原始P值。数据所有液质联用原始数据已上传至Zenodo公共数据库获取地址https://zenodo.org/records/18167866代码数据分析代码、Python程序包、Windows客户端软件均开源地址https://github.com/HuanLab/bago详细总结思维导图分数据集详细结果与传统梯度优化工具的对比优势参考Anal Chem. 2026 Jun 15. doi: 10.1021/acs.analchem.6c01208.BAGO: A Self-Optimizing Tool for LC-MS Gradient Design in Metabolomics注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。