AlphaFold 3 复合物预测别只看漂亮结构图——IARS2–SYTL4 五模型证据审计

📅 2026/7/5 2:58:52
AlphaFold 3 复合物预测别只看漂亮结构图——IARS2–SYTL4 五模型证据审计
很多 AlphaFold 3 复合物项目都会经历一个非常相似的瞬间模型打开以后两条蛋白链贴合得很紧界面上还能找到盐桥、氢键和一串距离漂亮的残基对。结构图足够完整也足够有视觉冲击力于是“这两个蛋白可能存在稳定互作”很容易从一个待检验假设悄悄变成文章里的肯定句。但复合物预测最危险的误区恰恰不是模型没有给出结构而是模型给出了一张太像答案的结构。今天这篇阅读笔记从一篇 2026 年正式发表的研究出发再结合一组 IARS2–SYTL4 的 AlphaFold 3 五模型结果完整走一遍复合物预测的证据审计。重点不在于把接触面描述得多热闹而在于回答三个更基础的问题单链结构是否可信两条链的相对位置是否可信五个模型是否重复给出了同一个界面最终得到的结论很明确这组结果包含可用的单链结构信息却不足以支持可靠的 IARS2–SYTL4 复合物界面。结构图中的原子接触是真实存在于坐标文件中的但这些接触目前只能作为待验证假设不能直接升级为稳定互作、关键结合位点或调控机制。一、今天读到的 2026 年论文真正值得借鉴的是什么2026 年 4 月DallArmellina、Urbé 和 Rigden 在Protein Science发表了研究论文《AlphaFold-driven discovery of oxysterol-binding protein-related protein-phosphoinositide 3-, 4-, and 5-phosphatase interactions using new generation confidence scores》。论文围绕 ORP 家族与 SAC1 等磷脂酰肌醇磷酸酶的潜在相互作用展开结合 AlphaFold 2-Multimer、AlphaFold 3、PAE 热图以及新一代界面评分对候选复合物进行筛选和比较。这篇论文最有价值的地方不是简单证明“AlphaFold 能预测蛋白互作”而是展示了一种更成熟的研究姿态复合物结构只是证据链中的一层。研究者需要把置信度评分、跨模型一致性、结构域构型、生物学背景和后续实验放在同一个框架中判断不能只拿一张得分最高的三维模型替代整条证据链。论文于 2026 年 4 月 15 日首次正式在线发表开放获取DOI 为 10.1002/pro.70572。它讨论的是 ORP–磷酸酶体系并不是 IARS2–SYTL4本文借鉴的是它对“新一代置信度评分”和综合证据的使用方式而不是把两个完全不同的生物体系混为一谈。AlphaFold 3 官方文档同样把几个指标的边界说得很清楚pLDDT 是局部原子置信度PAE 估计两个位置之间的相对位置误差pTM 关注整体结构ipTM 则直接衡量复合物中不同亚基相对位置的可信度。官方给出的经验解释是ipTM 高于 0.8 通常对应高质量预测0.6–0.8 属于灰区低于 0.6 则提示复合物预测可能失败。更重要的是ranking score 只适合在同一批输出中进行排序不能被当作相互作用概率或结合强度。这套指标分工决定了今天的分析顺序。图 1复合物预测的证据阅读顺序。序列核验、单链可信度、界面可信度、跨模型重复性和生物学约束分别回答不同问题任何一项都不能由一张三维结构图替代。二、先认识这两个蛋白理论上有没有机会相遇IARS2是线粒体异亮氨酰-tRNA 合成酶。NCBI Gene 将其描述为线粒体形式的异亮氨酰-tRNA 合成酶属于 I 类氨酰-tRNA 合成酶家族参与将异亮氨酸连接到对应 tRNA 的过程。其注释定位包括线粒体和线粒体基质。换句话说IARS2 的经典角色位于线粒体翻译体系。SYTL4又称 synaptotagmin-like protein 4 或 granuphilin是 Rab 效应蛋白。已有研究显示SYTL4可通过 N 端 Slp homology domain 与囊泡相关 Rab 蛋白结合并利用 C 端 C2 结构域参与磷脂膜识别。2021 年Journal of Biological Chemistry的开放获取研究进一步分析了 SYTL4 C2A 结构域对 PIP2 和阴离子膜的多价结合。Human Protein Atlas 将 SYTL4 的主要亚细胞定位标注为囊泡。因此从经典定位出发一个位于线粒体基质的氨酰-tRNA 合成酶与一个参与囊泡停靠和膜识别的 Rab 效应蛋白并不是天然拥有强共定位先验的一对蛋白。但这里必须保持严谨定位不同不能单独证明它们绝不互作。蛋白可能发生条件依赖的转位细胞应激可能改变定位不同异构体也可能具有不同分布。定位审查的作用是降低或提高生物学先验而不是代替共定位、免疫沉淀或直接结合实验。图 2IARS2 与 SYTL4 的经典亚细胞背景。定位差异提出了一个必须回答的问题两者在什么细胞条件、时间窗口或亚细胞区域内能够相遇这是一项合理性检查而不是绝对否定。三、模型输入与数据规模这不是一个“小型二聚体”本次复核使用的是人源 IARS2 与 SYTL4 全长序列。链 A 为 IARS2共 1012 个氨基酸链 B 为 SYTL4共 673 个氨基酸。系统输出 5 个结构样本每个模型都包含完整坐标、pLDDT、PAE、contact probability、pTM、ipTM、chain pTM 和 ranking score。这两个蛋白都不短尤其 SYTL4 含有较长柔性片段和多个功能区域。对这类体系而言直接把两个全长序列放在一起预测模型既要解决每条链内部的结构又要解决两条长链之间的相对摆放。只要一条链存在大面积低置信区域整体复合物评分就可能被拉低反过来即便局部结构域折叠得不错也不能自动说明全长链间排布可靠。Rank 0 的结构乍看之下非常完整深蓝色 IARS2 与绿色 SYTL4 在中心形成大面积接触外围还有长柔性链环绕。这样的模型很容易诱导读者先去寻找“关键残基”而忽略界面本身是否可信。图 3根据 Rank 0 坐标制作的 IARS2–SYTL4 整体结构。深蓝色为 IARS2绿色为 SYTL4。该图用于展示模型给出的空间构型不代表该构型已经获得置信度或实验支持。四、第一层审计pTM 看起来还行ipTM 却非常低5 个模型的整体 pTM 分别为 0.58、0.57、0.58、0.58 和 0.58。只看这一列模型似乎并不算完全失败因为 pTM 接近或略高于 0.5说明整体预测折叠可能与真实结构存在一定相似性。问题在于pTM 不是界面评分。5 个模型的 ipTM 只有 0.20、0.21、0.20、0.19 和 0.19全部远低于 AlphaFold 3 官方文档给出的 0.6 灰区下限。这不是“稍微不够理想”而是模型对两条链相对位置没有建立起可信判断。进一步拆分 chain pTM 后问题更加清楚模型pTMipTMIARS2 chain pTMSYTL4 chain pTMranking scoreRank 00.580.200.790.310.36Rank 10.570.210.790.320.36Rank 20.580.200.800.310.35Rank 30.580.190.800.310.35Rank 40.580.190.800.320.34IARS2 的 chain pTM 稳定在 0.79–0.80说明其单链整体折叠具有较好的可解释性。SYTL4 的 chain pTM 只有 0.31–0.32表明其全局拓扑和不同结构域之间的相对排布很不确定。按 Cα 原子的 pLDDT 重新统计IARS2 的平均值约为 84.0而 SYTL4 约为 60.1–61.0也呈现同样的差异。因此这组结果不能被简单归类为“整个预测都不能用”。更准确的说法是IARS2 单链主体结构具有较高参考价值SYTL4 的部分局部结构域可能可读但全长拓扑不稳定两条链之间的界面更不可信。这里还有一个常见陷阱Rank 0 的 ranking score 为 0.36Rank 1 同样为 0.36后续模型也只下降到 0.34。这个排序分数由 ipTM、pTM、无序比例和原子冲突惩罚共同组成它的用途是从同一次任务的多个样本中挑出相对更优者而不是判断某个样本是否达到可靠复合物标准。第一名只能说明它在这五个候选中排序靠前不能说明它已经通过质量门槛。就像五份证据不足的方案中仍然可以选出最高分最高分并不会自动变成充分证据。同样Rank 0 没有严重原子冲突也不能挽救界面解释。无明显 clash 只说明模型没有出现大范围不可接受的空间重叠它并不证明两条链在真实细胞中会采用当前姿势更不证明界面具有热力学稳定性。结构合理、界面可信和生物学真实是三个层级必须分别评价。图 4根据 5 个模型的 summary confidence 重新统计。左图比较 pTM 与 ipTM右图比较 IARS2 和 SYTL4 的 chain pTM。单链可信度与界面可信度必须分开表述。五、第二层审计链间 PAE 几乎没有低误差区域PAE 的含义是当模型以一个位置为参照进行对齐时另一个位置预计会有多大的相对位置误差。对于蛋白复合物PAE 矩阵的两个非对角区块对应链 A 到链 B、链 B 到链 A 的相对位置可信度。如果这些区块中出现连续的低 PAE 区域才说明模型对某些链间相对位置具有信心。本次重新提取了两个非对角区块的全部数值而不是只看热图颜色。5 个模型的链间 PAE 最低值约为 19.0–21.3 Å中位数约为 30.6–30.9 Å。更关键的是所有模型中链间 PAE 小于 10 Å 的比例均为 0。换句话说没有任何一个模型形成连续、明确的低误差链间区域。AlphaFold 3 summary 文件还提供 chain-pair PAE minimum。本组结果的 A→B 和 B→A 最低值大多位于约 19–22 Å与完整矩阵复算一致。PAE 本身具有方向性因此两个方向可以略有差异但这里不存在某一方向显著可信、另一方向不可信的情况两边都很高。六、第三层审计contact probability 最高也只有 0.14AlphaFold 3 的 contact probability 表示两个 token 的代表原子处于 8 Å 接触范围内的预测概率。本次对两条链之间的全部 contact probability 进行分离后发现5 个模型的链间最大值都只有 0.14链间概率大于 0.5 的元素比例全部为 0。这组结果与 ipTM 和链间 PAE 指向同一个方向模型没有为任何一组链间接触给出强概率支持。这里尤其值得注意“最大值”的含义。最大值通常是整张链间矩阵里最有利的那一个点。如果连最有利的点也只有 0.14就不能再用“也许平均值被柔性区域稀释”来解释整个问题。柔性区域确实可能影响评分但本次连局部强接触信号也没有形成。图 5链间 PAE、接触概率和几何极性接触的联合审计。左图与中图来自模型置信度输出复算右图来自结构坐标距离统计。坐标中的近距离接触不能替代界面置信度。七、为什么低置信模型里仍然能找到“漂亮氢键”将 Rank 0 坐标按 4 Å 截断距离筛选后可以找到 35 个 IARS2 界面残基和 30 个 SYTL4 界面残基进一步用 N、O、S 原子间 3.2 Å 阈值筛选可以得到 16 组极性残基对。最短的几组包括IARS2 GLY966(N) — SYTL4 LYS52(O)距离约 1.92 ÅIARS2 GLY504(N) — SYTL4 TYR651(OH)距离约 2.04 ÅIARS2 GLU876(OE2) — SYTL4 ARG53(NH1)距离约 2.16 ÅIARS2 ALA505(N) — SYTL4 TYR651(OH)距离约 2.43 ÅIARS2 GLU965(OE1) — SYTL4 ARG65(NH1)距离约 2.52 Å。这些距离是坐标文件中的几何事实却不能自动命名为“稳定氢键”。严格的氢键判断还需要供体—受体类型、质子化状态、几何角度、溶剂暴露和动态稳定性更基础的问题则是两条链的相对位置本身是否可信。当 ipTM 只有 0.20、链间 PAE 接近 31 Å 时在这一构型上继续精细解释盐桥网络很可能只是对一个不稳定摆放进行过度拟合。5 个模型分别可以筛出 11–21 组 3.2 Å 内极性残基对。数量并不少但不同模型给出的残基组合变化很大。这说明“能找到接触”并不难真正困难的是证明这些接触在不同采样、不同算法和实验环境下可重复。图 6根据 Rank 0 坐标筛选的 4 Å 界面残基与前 5 组近距离极性原子对。红色棒状结构表示几何界面残基黄色虚线表示所筛选的近距离原子对。该图展示坐标几何不把这些接触直接定义为已验证氢键或功能位点。八、第四层审计五个模型没有复现同一个结合姿势仅比较 5 个模型各自的界面截图仍然容易受到观察角度影响。因此本次把 Rank 1–4 的 IARS2 链分别对齐到 Rank 0 的 IARS2 链再观察 SYTL4 的相对位置。对齐以后Rank 1–4 的 SYTL4 Cα 相对 Rank 0 的 RMSD 分别约为 51.0、40.9、55.6 和 40.6 Å。几十埃的偏差不是局部侧链摆动而是整体结合姿势发生了大幅漂移。同时将每个模型中 4 Å 内的界面残基转成集合再计算模型两两之间的 Jaccard 相似度。IARS2 侧界面残基的平均相似度约为 0.31SYTL4 侧只有约 0.14SYTL4 的某些模型两两比较甚至没有共同界面残基。这个结果比“Rank 0 有多少接触残基”更重要。如果一个界面具有稳定的预测支持通常希望多个独立样本至少在核心结合区域上出现一定收敛。当前结果恰恰相反模型都能把两条长链放在一起但无法决定 SYTL4 应该贴在 IARS2 的哪个位置、以什么方向贴合。图 7根据五模型坐标重新对齐和统计。左图为固定 IARS2 后 SYTL4 相对 Rank 0 的 Cα RMSD右图为 4 Å 界面残基集合的模型两两平均 Jaccard 相似度。图 8固定 IARS2 后叠合 5 个模型中的 SYTL4。浅灰色为共同参照的 IARS2其他颜色分别表示不同 Rank 的 SYTL4。SYTL4 整体位置和柔性片段方向明显分散与低 ipTM、高链间 PAE 和低界面重合度一致。九、经过这次复核已经额外完成了哪些步骤为了避免分析停留在自动报告截图本次在原始输出基础上追加了以下复核分别读取 5 个模型的 pTM、ipTM、ranking score、chain pTM 和无序比例从完整 PAE 矩阵中提取两个链间非对角区块统计最低值、中位数及低 PAE 比例从 contact probability 矩阵中提取链间区域计算最大接触概率和高概率元素比例以 IARS2 为参照对齐五个模型计算 SYTL4 的相对位姿 RMSD按 4 Å 阈值重新识别界面残基并计算跨模型界面集合的 Jaccard 相似度按 3.2 Å 阈值筛选链间 N/O/S 原子对同时明确其仅为几何接触结合 IARS2 与 SYTL4 的已知功能和亚细胞定位对生物学合理性进行独立审查重新制作整体结构、局部界面、五模型叠合以及多张统计图使每个判断都能回到具体数据。这些步骤让结果从“模型有一个界面”变成了更准确的判断模型能生成界面几何但没有为某一个界面提供可信且可重复的支持。十、当前结果究竟可以支持什么可以支持的结论包括IARS2 的单链整体折叠在 5 个模型中较为稳定chain pTM 为 0.79–0.80平均 Cα pLDDT 约为 84SYTL4 含有可局部观察的结构区域但其全长整体拓扑置信度较低chain pTM 为 0.31–0.32当前 AlphaFold 3 输出没有形成可信的 IARS2–SYTL4 亚基相对位置Rank 0 中存在若干几何接触可作为设计后续实验或缩短构建体的候选线索多模型比较提示结合姿势和界面残基均缺乏收敛。当前结果不能直接支持已发现 IARS2 与 SYTL4 的稳定蛋白相互作用已确定两者的真实结合位点某一组近距离残基构成稳定氢键或盐桥网络两者在细胞内具有直接调控关系对某些界面残基进行突变就一定会改变结合或功能。图 9这组结果的证据边界。坐标事实、模型置信度、跨模型重复性和生物学结论属于不同层级不能跨级替代。十一、如果要继续推进下一步应该怎么设计首先不建议立刻围绕 Rank 0 的 16 组极性接触设计大批点突变。因为界面本身没有收敛点突变很可能针对的是模型采样产生的偶然接触。更合理的计算步骤是增加独立随机种子和采样数量观察是否有某一类相对姿势反复出现同时根据已知结构域边界拆分 SYTL4减少长柔性区对全长构象的干扰。若研究假设来自某个具体细胞条件还应优先预测具有生物学依据的结构域组合而不是让两个全长蛋白在没有额外约束的情况下自由拼接。在评分方面可进一步引入对柔性区更不敏感的界面评价例如基于 PAE 和距离筛选的 ipSAE、pDockQ2 或 LIS并检查不同评分是否给出一致排序。但任何新评分都不能把不存在的模型收敛“算出来”如果不同模型持续给出完全不同的界面最诚实的结果仍然是界面未确定。实验层面可以按证据成本分级推进先用共定位或亚细胞分馏确认两者在目标细胞条件下是否有空间相遇机会使用 co-IP 或 proximity labeling 检查细胞环境中的物理关联使用纯化蛋白 pull-down、MST、SPR 或 BLI 区分直接结合与复合物间接关联若缩短构建体后模型出现稳定界面再围绕跨模型重复出现的核心残基设计突变对突变结果同时设置蛋白表达、折叠和定位对照避免把蛋白失稳误判为界面被破坏。只有计算和实验逐层收敛后残基级机制图才真正有意义。十二、这套复核本身还有哪些局限本次分析能够识别当前五个模型缺乏界面支持但它并不能证明 IARS2 与 SYTL4 在所有条件下永远不会发生直接或间接关联。首先任务只包含一个随机种子下的五个样本采样空间仍然有限增加随机种子后理论上可能出现新的构型。其次使用全长 SYTL4 会把较长柔性区域、结构域相对运动和潜在的条件依赖折叠同时带入模型某个短结构域之间的弱相互作用可能被全长评分稀释。第三当前几何筛选采用 4 Å 界面阈值和 3.2 Å 极性原子阈值。它适合快速审计却不是严格的结合能计算也没有显式处理水分子、离子、质子化状态、膜环境和构象动力学。第四Cα RMSD 同时包含 SYTL4 自身构象变化与其相对 IARS2 的刚体位姿变化因此它适合说明“整体不收敛”不适合被解释为精确的界面能量差。这些局限不会推翻当前结论反而帮助限定结论的强度现有结果足以说明不能把 Rank 0 当作确定界面却不足以对生物学互作作永久否定。如果后续出现共定位、免疫沉淀或遗传互作证据计算策略应根据实验约束重新设计而不是机械沿用这一次全长无约束预测。十三、这次阅读留下的核心判断AlphaFold 3 的强大之处是它能把非常复杂的序列组合转化成可以直接观察的三维假设。它的风险也来自同一个地方三维模型比评分表更直观因而更容易被当成事实。IARS2–SYTL4 这组数据提供了一个很典型的反例。Rank 0 可以画出大面积接触面可以找到多个 2–3 Å 的极性原子对也可以制作出足够漂亮的结构图但一旦把 ipTM、链间 PAE、接触概率、五模型位姿和界面重合度放在一起结论就会迅速收缩。这种“收缩”不是分析失败而是高质量结构生物信息学工作的价值所在。可靠的分析不仅要告诉研究者模型可能支持什么还要明确指出模型不能支持什么。能够及时停止一条证据不足的机制叙述往往比继续堆叠更多接触残基更节省实验成本。今天这篇笔记最终想留下的不是某一个阈值而是一套阅读习惯先看单链再看界面先看 PAE再看接触先看五模型是否收敛再谈关键残基最后把结构放回真实的细胞空间和实验条件中。漂亮结构图可以是研究的起点但不能替研究者完成结论。