RoPE(Rotary Position Embedding,旋转位置编码)详细推导

📅 2026/7/2 1:01:22
RoPE(Rotary Position Embedding,旋转位置编码)详细推导
文章目录论文核心推导过程详解一、推导的问题定义(核心约束)二、二维情形下的 RoPE 严格推导(3.4.1 节)2.1 二维向量的复数表示2.2 极坐标分解:模长 + 辐角2.3 模长部分:位置不改变向量范数2.4 辐角部分:位置带来的旋转角度2.5 相对位置约束:ϕ ( m ) \phi(m)ϕ(m)是线性函数2.6 二维 RoPE 的最终形式2.7 验证核心约束三、高维推广:d 维向量的 RoPE3.1 分块对角旋转矩阵四、高效实现推导(3.4.2 节)4.1 二维旋转的分量展开4.2 向量化实现五、长程衰减性质推导(3.4.3 节)5.1 内积的复数求和形式5.2 阿贝尔变换(分部求和)放缩5.3 衰减结论推导逻辑总览论文核心推导过程详解RoPE(Rotary Position Embedding,旋转位置编码)的推导核心目标是:找到一种位置编码方式,让自注意力中 Query 和 Key 的内积仅依赖 token 的内容与相对位置,不依赖绝对位置。以下按推导逻辑逐层拆解。一、推导的问题定义(核心约束)自注意力中,位置 m 的 Query、位置 n 的 Key 定义为:q m = f q ( x m , m ) , k n = f k ( x n , n ) q_m = f_q(x_m, m),\quad k_n = f_k(x_n, n)q