小红书把 KV Cache 按「头」拆了——长文本推理的「稠密时代」可能正在结束
发布日期:2026-06-29 分类:产品发布/更新 标签:AI 推理基础设施 来源:小红书技术(Redtech)公众号 arXiv 2606.06256 原文链接:https://mp.weixin.qq.com/s/qRrZvL0aZzYI82djFSrLug 论文地址:https://arxiv.org/abs/2606.06256 事件内容
6 月 29 日,小红书引擎架构部 AI Inf…
2026/7/1 2:15:51