机器学习在弱引力透镜宇宙学中的应用:从参数推断到分布外检测 📅 2026/6/21 4:09:08 1. 从“看山是山”到“看山不是山”弱引力透镜宇宙学中的信号与噪声如果你在十年前问我天文学家怎么研究宇宙我大概会跟你聊望远镜、光谱仪和一堆复杂的物理公式。但今天你再问同样的问题我的答案里一定会包含“机器学习”、“神经网络”和“参数推断”。这听起来有点跨界但正是这种跨界正在解决宇宙学里最棘手的问题之一弱引力透镜。弱引力透镜是什么想象一下你透过一块不平整的玻璃看远处的风景玻璃的微小扭曲会让风景的形状发生极其细微的变化。在宇宙中这片“不平整的玻璃”就是宇宙中无处不在的暗物质和普通物质构成的大尺度结构。来自遥远星系的光在穿越这数十亿光年的“宇宙玻璃”到达我们望远镜的途中其路径会被这些物质产生的引力场弯曲导致星系的图像被微弱地拉伸和扭曲。这种扭曲非常非常小通常只有百分之几甚至更小远小于星系本身形状的多样性所以被称为“弱”引力透镜。这个“弱”字既是它的魅力所在也是它最大的挑战。魅力在于它不挑食几乎每一个背景星系都携带着沿途物质分布的信息是绘制宇宙三维质量地图、研究暗能量和暗物质性质的终极探针。挑战则在于如何从数以亿计、形状各异的星系图像中精准地提取出那微乎其微的、由引力透镜效应引起的共同扭曲信号同时还要把星系自身千奇百怪的形状本征形状当作“噪声”给滤除掉。传统方法我们称之为“看山是山”的阶段。我们测量大量星系的形状计算它们的平均椭圆率这个统计平均值就被认为是引力透镜信号的体现。这种方法依赖一个核心假设宇宙中星系的指向是随机的没有优先方向。平均之后本征形状的噪声就被抵消了留下透镜信号。这套基于“两点相关函数”的统计框架在过去二十年取得了巨大成功奠定了现代精确宇宙学的基础。然而随着下一代巡天项目如LSST、Euclid、Roman的来临数据量将呈指数级增长精度要求也逼近物理极限。“看山是山”的方法开始遇到天花板。首先观测效应如大气扰动、仪器点扩散函数和天体物理效应如星系内在排列、与前景结构的关联会引入难以完美校准的系统误差它们可能模仿或掩盖真实的透镜信号。其次更关键的是我们想从透镜信号中反推的宇宙学参数如暗能量状态方程、中微子质量与观测数据之间的关系是一个高度非线性的、充满简并性的复杂物理模型。传统方法通常需要在预先设定的、有限的网格化参数空间里进行巨量的模拟和拟合计算成本高昂且难以探索高维参数空间的全部细节。这就引出了我们今天的核心基于机器学习的参数推断与分布外检测。这标志着我们进入“看山不是山”的阶段。我们不再仅仅把数据扔进一个固定的统计公式然后期待一个干净的结果。相反我们开始训练复杂的模型比如深度神经网络让它们直接学习从模拟的观测数据包含噪声、系统误差、透镜信号到底层宇宙学参数的复杂映射关系。更重要的是我们意识到我们用于训练模型的模拟数据无论多么精细都只是对真实宇宙的一种近似。当把训练好的模型应用于真实数据时那些模拟中未包含的、或与模拟假设不符的未知物理效应或未知系统误差就会成为“分布外”的样本可能导致模型产生严重偏差甚至完全错误的推断。因此分布外检测——即判断输入的真实数据是否与我们训练模型时所假设的“数据分布”一致——变得与参数推断本身同等重要。2. 构建宇宙的数字孪生为机器学习准备训练数据在机器学习项目里有一句话叫“垃圾进垃圾出”。在宇宙学中我们面对的不是垃圾而是人类所能构建的最精密的“数字宇宙”。训练数据的质量直接决定了机器学习模型的性能和可靠性。2.1 从第一性原理出发宇宙学数值模拟我们的训练数据并非来自真实观测因为真实的宇宙学参数是未知的。我们必须从物理定律出发通过超级计算机进行宇宙学数值模拟。这个过程始于一组初始条件在宇宙大爆炸后约38万年宇宙微波背景辐射留下的微小密度涨落。我们根据某个设定的宇宙学模型包含暗能量、暗物质、普通物质、中微子等的具体参数将这些涨落作为种子输入到基于引力动力学的N体模拟代码中比如Gadget、Abacus或OpenGadget3。模拟代码会求解数十亿甚至上万亿个暗物质“粒子”在自身引力作用下的运动方程让宇宙在计算机中演化上百亿年。随着模拟的进行暗物质在引力作用下逐渐结团形成从星系到超星系团的复杂网状结构即宇宙大尺度结构。这些结构的总和就是产生弱引力透镜效应的那片“不平整的玻璃”。模拟会输出不同“宇宙年龄”即红移时刻的暗物质分布三维网格。2.2 从质量分布到星光图像实现端到端的模拟管道仅有质量分布还不够我们需要生成望远镜最终“看到”的星系图像。这是一个多步骤的、包含大量天体物理模型的“端到端”模拟管道星系播种与演化在暗物质晕中根据半解析模型如Galacticus或经验关系生成星系。这些模型会赋予星系诸如恒星质量、恒星形成率、大小、形态等属性。星光渲染根据星系的恒星种群合成模型计算其在不同波段的亮度。然后根据星系的三维位置和形态盘状、椭球状等生成高分辨率的理想二维图像。引力透镜效应计算利用模拟得到的整个视线方向上的三维质量分布根据广义相对论计算光线偏折的积分效应即透镜势。将这个透镜势的剪切张量作用于第2步生成的每个星系理想图像上对其进行微弱的拉伸和扭曲。观测效应模拟这是注入“现实感”的关键一步。将透镜化后的理想图像通过一个模拟的望远镜和观测系统点扩散函数模拟大气湍流地面望远镜或光学衍射空间望远镜导致的光斑模糊和变形。噪声注入加入符合真实曝光时间的天空背景噪声、读出噪声等。像素化将连续图像采样到探测器的像素网格上。掩模与缺陷模拟宇宙射线击中、探测器坏点、其他前景天体遮挡等。最终我们得到一批与真实观测数据在统计特性上尽可能相似的模拟图像。每一张图像都对应着一个已知的、用于生成它的“真实”宇宙学参数集如Ω_m, σ_8, w等。这个“参数-图像”对就是我们训练机器学习模型所需的标注数据。注意模拟的保真度是核心瓶颈。简化物理模型如忽略重子物质反馈对暗物质分布的影响或不够真实的观测效应模拟都会在训练数据中引入系统性的“模拟偏差”。这种偏差会被机器学习模型学习并最终污染对真实数据的推断。因此开发更精确、更快速的模拟方法是领域内的前沿竞争。2.3 数据增广与多样性对抗过拟合的武器即使是最强大的模拟其覆盖的参数空间和天体物理变化也是有限的。为了增强模型的鲁棒性我们必须进行数据增广参数空间采样不在固定的网格上采样宇宙学参数而是使用拉丁超立方采样等方法在参数先验范围内进行更高效、更均匀的随机采样生成更多样的宇宙模型。天体物理不确定性主动变化半解析模型中的不确定参数如星系-晕关系、反馈强度让模型见识更多样的星系种群。系统误差场景刻意在模拟中引入不同强度、不同类型的系统误差如PSF模型误差、光度定标误差并记录其“污染”参数让模型学会识别或部分修正这些影响。3. 让神经网络学习宇宙的指纹机器学习模型的架构与训练有了高质量的训练数据下一步是设计一个能理解其中复杂模式的“大脑”。对于弱引力透镜这类数据我们通常不直接处理海量的原始图像像素那计算量太大且包含大量无关信息。标准流程是先从图像中提取“摘要统计量”。3.1 特征工程从像素到统计量传统分析依赖的“两点相关函数”本身就是一种强大的摘要统计量。它描述了星系形状之间在不同角度尺度上的相关性。我们可以计算多种相关函数剪切-剪切相关函数两个背景星系形状扭曲的相关性是主要的宇宙学信号。星系-星系透镜效应背景星系形状与前景星系位置的相关性用于探测星系晕的质量。聚团效应星系自身位置分布的相关性。将这些在不同角度bin和红移bin中计算出的相关函数值拼接成一个一维的特征向量作为机器学习模型的输入。这大大降低了数据维度但保留了绝大部分宇宙学信息。然而两点相关函数已知会丢失高阶的非高斯信息。因此更前沿的方法是使用能够捕获更高阶统计特征的摘要量峰统计在质量地图上寻找高密度区域的峰值及其分布。散射变换系数一种对非高斯性敏感的多尺度统计量。学习型摘要直接使用一个辅助的神经网络编码器从图像或质量地图中自动学习最优的摘要统计量目标是使这些摘要量对于推断目标参数具有充分性和低维性。3.2 模型选型为什么是神经后验估计对于参数推断任务我们不是要做一个分类或点预测而是要估计在给定观测数据下宇宙学参数的后验概率分布P(θ|x)。这里θ是参数x是我们的摘要统计量。传统方法是马尔可夫链蒙特卡洛它通过反复迭代来探索后验分布计算代价极高。机器学习提供了一条捷径神经后验估计。我常用的架构是条件归一化流。简单类比NF就像一个智能的、可学习的“概率分布变形器”。它从一个简单的已知分布如标准高斯分布出发通过一系列可逆的神经网络层将其扭曲成任意复杂的分布。在训练时我们输入模拟数据的摘要统计量x和对应的真实参数θ训练NF学会这样一个变换当它以x为条件时能将简单分布变成以θ为中心的、形状合适的后验分布。训练完成后面对新的真实数据x_obs我们只需将简单分布比如随机高斯噪声输入到以x_obs为条件的训练好的NF中它就能瞬间“流出”成千上万个符合后验分布的参数样本θ_i。计算这些样本的均值和方差我们就得到了参数推断的结果和不确定性速度比MCMC快几个数量级。3.3 训练技巧与损失函数训练这样的模型并非易事。损失函数通常设计为负对数似然鼓励模型为那些真实的θ, x对分配高概率。但有几个关键点模拟化校准由于我们使用模拟数据训练模型会学到模拟世界的“规律”。为了纠正模拟与真实之间的偏差可以在损失函数中加入一个正则化项惩罚模型对模拟数据中已知系统误差参数的依赖性或者采用模拟化推断技术主动将模拟器即前面提到的端到端模拟管道的近似性纳入模型的不确定性中。顺序训练对于高维参数空间可以分阶段训练。先训练一个模型学习主要参数如Ω_m, σ_8固定它们再训练模型学习次级参数如w, ∑m_ν。这有助于稳定训练过程。对抗性验证训练一个分类器来区分“来自模拟的数据”和“假设的来自真实世界的数据”。如果分类器能轻易区分说明模拟与真实差距大需要改进模拟或引入更复杂的模型结构来弥合差距。4. 警惕“未知的未知”分布外检测的必要性与方法这是整个流程中最具哲学意味也最关乎结果可信度的一环。假设我们训练了一个在所有模拟数据上表现完美的NF模型。现在我们把它应用到了LSST的第一年真实数据上。模型自信地给出了一个后验分布指出暗能量状态方程w-0.8。我们能相信吗不一定。因为真实数据中可能包含我们的模拟从未考虑过的效应。例如未知的天体物理效应某种新型的星系内在排列机制。未被建模的系统误差望远镜光学系统中一种未被认知的像差。新物理超出ΛCDM模型框架的物理过程。这些都会导致真实数据点x_obs落在模型训练时所见的“数据分布”之外即成为分布外样本。一个在分布内表现良好的模型面对OOD样本可能会产生任意错误的预测且往往还伴随着毫无根据的“过度自信”。因此在报告任何推断结果前我们必须先回答一个问题“当前的数据相对于我的训练集是分布内的吗”4.1 基于似然度的检测方法最直观的思路是利用模型自身输出的似然度。一个训练良好的概率模型应该为与训练集相似的数据分配高似然度为异常数据分配低似然度。我们可以设定一个阈值如果真实数据x_obs的似然度P(x_obs | model)低于某个分位数比如训练集似然度的5%分位数就发出OOD警告。但这种方法有个致命问题高维空间中的概率密度估计本身极其困难且神经网络很容易学会给训练集区域分配高密度而对其他区域包括一些离训练集不远的OOD区域的密度估计可能完全不可靠。实践中仅凭似然度判断OOD效果不佳。4.2 基于模型不确定性的检测更可靠的方法是考察模型在面对数据时的“犹豫”程度。对于贝叶斯神经网络我们可以利用其权重的不确定性。对于我们的NF虽然它输出的是一个分布但我们可以通过以下方式探测不确定性后验预测检查从推断出的后验分布中抽取多组参数样本θ_i每组参数都生成一批对应的模拟数据x_i’。然后比较真实数据x_obs的摘要统计量与这些{x_i’}的摘要统计量在整体分布上的差异。如果x_obs落在{x_i’}分布的极端尾部可能就是OOD的信号。集成模型训练多个NF模型使用不同的随机种子、数据子集或架构变体。对于一个分布内数据所有模型应给出一致的后验分布。对于一个OOD数据不同模型可能会给出差异巨大的后验这种模型间的不一致性可以作为OOD指标。4.3 专门化的OOD检测器我们也可以训练一个专门的二元分类器作为“哨兵”。这个分类器的任务是区分“来自训练分布的数据”和“故意构造的OOD数据”。构造OOD数据的方法有扰动模拟对输入摘要统计量加入随机扰动或使用截然不同的宇宙学参数如w0生成数据。利用无关数据使用其他巡天项目、不同波段或处理流程的数据作为负样本。将这个分类器与主推断模型一起使用。当主模型进行推断时哨兵分类器同时评估该数据被判定为OOD的概率。如果概率很高则推断结果应被标记为不可信并触发更深入的调查。在实际项目中我们通常会部署一个由似然度阈值、后验预测检查p值、模型集成方差等多个指标构成的综合预警系统。只有当一个数据通过这些联合检验时我们才会采信其参数推断结果。5. 实战演练一个简化的端到端案例分析让我们抛开理论看一个高度简化但核心流程完整的例子。假设我们只关心两个参数物质密度参数Ω_m和物质涨落幅度σ_8。我们的“观测数据”是来自某个模拟巡天的剪切两点相关函数ξ_在10个角度bin上的测量值。5.1 步骤一模拟与特征准备使用宇宙学模拟代码在(Ω_m, σ_8)参数空间内随机采样10000个点。参数先验范围Ω_m ∈ [0.1, 0.5] σ_8 ∈ [0.6, 1.0]。对每一组参数运行快速模拟管道可能使用近似方法如千禧年数据库的插值或扰动理论生成对应的弱透镜质量地图并计算10个bin的ξ_。在计算ξ_时人为注入两种水平的系统误差A) PSF模型误差小 B) 光度红移误差大。记录每条数据对应的误差标签。将ξ_的10个值归一化形成10000个10维的特征向量。对应的(Ω_m, σ_8)和误差标签作为真值。5.2 步骤二构建与训练神经后验估计器我们使用PyTorch和nflows库构建一个条件归一化流。条件网络一个输入为10维特征x输出为归一化流参数如仿射耦合层的尺度和平移参数的小型MLP。流变换堆叠8个仿射耦合层每层配以一个随机排列和批量归一化。基分布标准二维高斯分布对应两个目标参数。训练时每次输入一个批次的特征x和参数θ。损失函数是负对数似然-log P_flow(θ | x)。我们使用Adam优化器训练约200个epoch直到在验证集上的损失收敛。5.3 步骤三部署与推断训练完成后模型保存。现在面对一个新的“真实”观测特征向量x_obs同样来自模拟但训练时未见过将x_obs输入条件网络获得流参数。从基分布高斯中抽取5000个样本z_i。让这些z_i通过以x_obs为条件的、训练好的流变换得到5000个参数样本θ_i。计算这5000个θ_i的均值、标准差和二维核密度估计得到Ω_m和σ_8的联合后验分布。5.4 步骤四分布外检测实战假设我们收到了两组x_obs数据组1来自与训练集相同模拟管道、但参数为(Ω_m0.35, σ_80.85)的数据且只包含小的PSF误差A类。数据组2参数相同但我们在生成其ξ_时使用了一个训练集中从未出现过的、强烈的“星系形状测量误差”模型进行污染。对于数据组1模型推断的后验均值接近(0.35, 0.85)不确定度椭圆合理。后验预测检查用后验样本生成的预测ξ_分布与观测的x_obs重叠良好p值0.1。集成模型的方差很小。结论分布内结果可信。对于数据组2模型仍然给出了一个后验但均值可能偏离真实值比如(0.32, 0.88)。后验预测检查生成的预测ξ_分布与x_obs严重偏离p值0.01。集成模型的方差显著增大。专门训练的OOD分类器给出高OOD概率。结论触发OOD警报推断结果不可信。需要检查数据质量排查是否存在未知系统误差并可能需重新训练包含此类误差的模型。6. 当前挑战与未来展望我们离“看山还是山”还有多远机器学习为弱引力透镜宇宙学打开了新的大门但它并非万能钥匙我们仍站在“看山不是山”的困惑阶段面临几个尖锐的挑战挑战一模拟与现实的差距是根本性的。无论模拟多精细它都是模型的产物。星系形成物理、重子效应、广义相对论修正等领域的任何认知不足都会直接转化为训练数据的偏差。模拟化推断是应对此挑战的前沿方向它试图将模拟器的不确定性本身作为模型的一部分进行推断但计算复杂度极高。挑战二机器学习模型的可解释性黑箱。当一个NF给出一个奇怪的后验时我们很难追溯是数据的哪个特征导致了这种结果。这与传统方法中我们可以逐一检查每个相关函数bin的贡献形成对比。发展可解释的AI或构建“可分解”的摘要统计量是必要的。挑战三OOD检测本身的不确定性。没有一种OOD检测方法是绝对可靠的。我们可能漏检将OOD误判为分布内也可能虚警将分布内但罕见的样本误判为OOD。这需要我们在科学结论中诚实报告OOD检测的不确定性并将其纳入最终参数的误差条中。挑战四计算资源的博弈。高保真模拟极其昂贵而训练复杂的深度学习模型也需要海量数据和算力。如何在有限资源下做出最优权衡——是用更快的近似模拟生成更多数据还是用更少的精确数据训练更高效的模型——是一个持续的工程优化问题。展望未来我认为我们正走向一个“模拟-数据-模型”三位一体紧密耦合的新范式。观测数据将不仅用于最终的推断也将用于迭代地改进模拟和模型。主动学习技术可以指导我们下一步应该运行哪个参数的模拟以最大程度地减少模型的不确定性。而最终当我们的模型能够稳健地通过所有OOD检测并且其推断结果与多种独立宇宙学探针如宇宙微波背景、重子声波振荡相互印证时我们或许才能抵达“看山还是山”的新境界——那时我们不再纠结于工具本身而是透过工具对宇宙的基本图景有了更清晰、更确信的洞察。这条路很长但每一步都伴随着对宇宙更深的理解和对方法论的革新。作为从业者我的体会是保持对模拟细节的苛刻、对模型输出的怀疑、以及对未知效应的敬畏是让机器学习真正成为宇宙学可靠伙伴的唯一途径。