089、NPU的Chiplet设计:多Die互联与封装 📅 2026/6/18 13:54:36 NPU的Chiplet设计:多Die互联与封装去年做某款7nm NPU的bringup时,遇到一个诡异的死锁问题。芯片在跑ResNet-50推理时,每跑完第47层卷积就卡死,复位后复现率100%。用逻辑分析仪抓Die-to-Die接口,发现一个控制信号在跨Die传输时被莫名其妙地“吞掉”了——不是时序问题,不是信号完整性问题,而是Chiplet互联协议里一个极其隐蔽的credit更新bug。那次debug让我彻底明白:NPU的Chiplet设计,本质上是在用封装技术对抗物理极限,而互联协议就是这场对抗中的“交通规则”。为什么NPU需要Chiplet单芯片NPU的算力天花板,现在卡在光罩尺寸和良率上。一个典型的AI加速器核心面积动辄400-600mm²,用单芯片做,良率可能不到30%。Chiplet方案把大芯片拆成多个小Die,每个Die面积控制在150mm²以内,良率能拉到80%以上。但代价是——你得解决Die之间的通信问题。NPU的Chiplet拆分策略通常有两种:同构拆分和异构拆分。同构就是把计算阵列切成几块,每块Die里放相同数量的MAC阵列和SRAM,适合做算力堆叠。异构则是把计算Die、缓存Die、控制Die分开,类似CPU的CCD和IOD分离。我见过最激进的设计是把NPU的权重SRAM单独做成一个Die,因为SRAM在先进工艺下密度提升有限,单独做可以用更成熟的工艺节点。Die-to-Die互联的物理层选择目前主流方案就