OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recom 📅 2026/6/26 6:09:32 工业推荐系统的排序模型长期以来沿用一种固定的两阶段范式先用序列建模Sequence Modeling模块例如DIN、LONGER对用户历史行为序列进行编码得到压缩的用户兴趣表示再将其与用户画像、物品特征、上下文这些非序列特征拼接送入特征交互Feature Interaction模块例如DCNv2、Wukong、RankMixer完成高阶交叉。这一设计被称为encode-then-interaction pipeline这种两阶段范式存在两个根本性缺陷其一是信息流的单向性行为序列被压缩为固定向量之后才与物品和上下文特征交互这意味着物品特征无法在序列编码阶段对用户历史产生影响其二是执行碎片化两个模块独立计算无法共享 KV Cache、FlashAttention 等 LLM 工程优化导致在线延迟偏高、扩展困难为了解决这些问题OneTrans提出了一个根本性的解决思路直接将序列特征与非序列特征统一表示为 Token 序列用同一个 Transformer Backbone 完成序列建模与特征交互的全部计算从而打通双向信息流并使整个模型能够直接复用 LLM 的训练与推理优化栈方法Feature and TokenizationOneTrans首先通过 Tokenizer 将所有输入特征映射为统一维度的 Token 序列输入特征被分为两类来自用户的历史行为序列特征S-tokens以及来自用户画像、物品属性、上下文信息的非序列特征NS-tokens。最后得到的初始 Token 序列就是把 S-tokens 和 NS-tokens 拼接起来1非序列特征的 Tokenization由于工业系统通常涉及数百个具有不同重要性的特征因此有两种选择来控制非顺序令牌的数量Group-wise Tokenizer与RankMixer一致按不同语义人工预先分组每组特征在组内拼接后通过各自独立的 MLP 投影为一个 维 TokenAuto-Split Tokenizer将所有非序列特征统一拼接为一个向量通过一次 MLP 投影到 维空间再按维度切分为 个 TokenAuto-Split的优势在于只需一次稠密矩阵乘法减少了 kernel 启动开销更重要的是 MLP 的权重矩阵是 dense 的每个输出维度可以感知全部输入特征因此模型可以自动学习跨语义类别的特征组合而不受人工分组的约束消融实验证实Auto-Split在 CTR 和 CVR 指标上均优于Group-wise方案。更重要的是虽然 Auto-Split 中一个特征的信息可能被分散到多个 Token 中但这种 distributed representation 类似于 NLP 中词向量的工作方式与后续 Transformer 层中的 token-level attention 能够重新整合这些分布式信息是完美契合的2序列特征的 Tokenization不同序列的原始特征维度各异因此OneTrans为每一种行为序列分配一个共享的 MLP 投影层将该序列内的每一个事件 embedding 统一映射为 d 维向量。完成维度对齐后所有行为序列需要被合并为一个整体的 S-token 序列送入主干网络合并策略主要有两种时间戳感知融合严格遵循事件发生时间的先后将所有行为序列交织在一起。这是最自然、信息最无损的方式能精确捕捉用户兴趣演化的先后顺序。时间戳无关融合当部分序列缺乏精确时间戳时按用户意图强度购买 加购 点击 曝光降序拼接并在不同行为序列之间插入可学习的 [SEP] token 作为边界标识最终消融实验发现时间戳感知融合策略始终是最优选择说明时间顺序本身蕴含的演化信息比人工定义的事件重要性更为关键OneTrans Block完成 Tokenization 后所有 S-tokens 与 NS-tokens 拼接为统一序列送入堆叠的 OneTrans Block 进行处理每个 Block 遵循标准的 Pre-Norm Transformer 结构。这里 OneTrans 的核心改动是混合参数化使其适应于推荐系统的输入特征的异构性1混合因果注意力工业推荐系统的 token 序列与纯文本截然不同S-tokens 是同质的都是用户行为的投影而 NS-tokens 是高度异质的可能分别代表用户画像、物品属性、统计特征等其数值分布和语义空间差异巨大。若对所有 token 采用统一的 Q/K/V 投影会迫使模型在扭曲的语义空间中学习导致注意力坍缩或训练不稳OneTrans将所有 S-tokens 共享一套 Q/K/V 权重而每个 NS-token 拥有独立特有的权重。在这种混合设计中它催生了几种天然的交互模式S-side序列内交互每个行为 token 只能看到其历史时刻之前的行为天然符合用户兴趣演化的因果逻辑NS-side特征交互NS-tokens 可以“看见”它前面的所有 NS-tokens实现了类似传统特征交叉的高阶交互Cross-side序列与特征交互所有 NS-tokens 被放置在序列末尾因此可以看见全部的 S-tokens这意味着物品特征或上下文特征可以直接从完整的用户行为历史中提取相关兴趣信号2混合前馈网络遵循同样的逻辑S-tokens 共享一个 FFN而每个 NS-token 拥有独立的 FFN。最终OneTrans 在仅仅微调参数分配方案的前提下就优雅地弥合了文本 Token 和推荐系统特征间的巨大鸿沟Pyramid Stack Cross-Request KV Caching统一架构带来的一个隐患是计算量用户行为序列可能长达数千即使使用高效注意力机制对所有 token 进行全层推理仍然成本高昂。为此OneTrans设计了两个精巧的工程优化来确保其生产级效率金字塔堆叠Pyramid Stack考虑到因果掩码会将信息集中在序列尾部冗长的早期行为可能在经过几层编码后其关键信息已被尾部 token 所吸收。因此从底层到顶层每过一个 Block模型就剪枝掉一部分最古老的 S-tokens。这形成了一个上窄下宽的金字塔结构。它带来的好处是双重的既节省了大量计算和显存又实现了对用户历史信息的渐进式蒸馏迫使模型将长历史中的有效信息压缩进幸存的最新行为和 NS-tokens 中跨请求键值缓存Cross-Request KV Caching在推理中同一用户请求可能要对数百个候选物品打分而这些候选物品共享完全相同的用户历史序列。因此在同一次请求中OneTrans可以直接将 S-side 的 K/V 在请求级别缓存并复用每位候选物品只需计算 NS-side 的增量又由于用户行为是 append-only 的下一次请求到来时可以复用上一次的缓存仅需计算增量行为的新 K/V从而实现跨请求的键值缓存实验