【NG 2023】当前基因组深度学习模型难以解释个体转录组变异

📅 2026/6/28 2:48:12
【NG 2023】当前基因组深度学习模型难以解释个体转录组变异
英文题目Personal transcriptome variation is poorly explained by current genomic deep learning models背景基因组深度学习模型已经能直接从 DNA 序列预测基因表达、表观遗传特征、3D 基因组结构等。已有模型在“用参考基因组预测不同基因/不同细胞类型的表达水平”上表现不错。但问题是这些模型能不能用每个人自己的基因组序列解释不同个体之间的基因表达差异这一点以前研究得不够。Motivation作者想检验现在最先进的 sequence-to-expression 模型是否真的能用于personal genome interpretation也就是从个人基因组变异预测个人转录组差异。他们评估了 4 个模型Enformer、Basenji2、ExPecto、Xpresso使用 Geuvadis 数据集中 421 个个体的 WGS RNA-seq 配对数据并聚焦 3,259 个有显著 cis-eQTL 的基因。解决了当前什么问题它解决的问题是以前大家知道这些模型能预测“基因之间”的表达差异但不清楚它们能否预测“个体之间”的表达差异。结果显示这些模型在 cross-gene prediction 上还可以但在 cross-individual prediction 上几乎接近失败并且经常预测错 cis-regulatory variants 对表达影响的方向。本文指出了当前基因组深度学习模型用于个人基因组解释时的一个核心短板能识别一些调控变异信号但判断这些变异在个体上的表达效果让表达升高还是降低很差。Figure 1模型在“预测不同基因表达差异”上表现还行但在“预测不同个体表达差异”上很差。Fig. 1a示意图。说明作者怎么用个人基因组序列预测表达并区分两个评价指标cross-gene correlation对同一个人看模型能不能预测多个基因之间的表达高低。cross-individual correlation对同一个基因看模型能不能预测 421 个个体之间的表达差异。Fig. 1b比较 Enformer、Basenji2、ExPecto、Xpresso 和 PrediXcan 的表现。结果是参考基因组预测和 cross-gene 预测还不错但 cross-individual 预测接近 0PrediXcan-style 线性模型反而能解释更多个体间差异。Fig. 1c只展示 Enformer 的分布。左边 cross-gene correlation 集中在较高值右边 cross-individual correlation 以 0 附近为中心。意思是Enformer 能区分基因之间表达强弱但不能可靠区分个体之间表达差异。Fig. 1d举两个基因例子SLFN5 是预测和真实表达正相关SNHG5 是强负相关。说明模型有时不仅预测不好还可能把方向预测反。Figure 2不同模型经常对同一个调控变异的影响方向给出相反判断。同一个基因在不同个体之间模型预测的表达变化是否和真实表达变化一致。Fig. 2a以SNHG5为例展示四个模型的预测。Enformer、Basenji2、ExPecto 对这个基因是负相关Xpresso 是正相关。点的颜色代表 top eQTL 的剂量。意思是模型对同一个 eQTL/基因的表达影响方向判断不一致。Fig. 2b比较 Enformer 和其他模型的 cross-individual correlation。可以看到有些点沿着 yx也有些沿着 y-x。意思是模型有时同意“这个基因有调控信号”但不同意“方向是升高还是降低”。Fig. 2c分析 Enformer 的表现和几个因素的关系top eQTL 的 P 值、eQTL 到 TSS 的距离、基因表达量、预测表达变异程度。主要结论是强 eQTL 的基因往往相关性绝对值更大但不一定是正相关即使 eQTL 很强模型仍可能预测错方向。