论文《Federated Recommendation with Additive Personalization》阅读

时间:2025/7/12 20:33:56来源：https://blog.csdn.net/xingzhe123456789000/article/details/139962629 浏览次数:0次

论文《Federated Recommendation with Additive Personalization》阅读

论文概况
Preliminaries
Methodology
Experiments
- 消融实验
- Convergence
- Curriculum分析
- 可视化
一点总结

今天带来的是 ICLR 2024 关于联邦推荐的论文《Federated Recommendation with Additive Personalization》，论文由悉尼科技大学 Zhiwei Li 等人及马里兰大学帕克分校（UMD）Tianyi Zhou 完成。论文发表在 ICLR 2024，主要聚焦于联邦推荐场景下（1）不同用户与 server 上传下载的各自的 embedding gradient 比较片面；（2）较大的数据量传输影响传输效率这几个问题，提出了模型 FedRAP （Federated Recommendation with Additive Personalization）。

论文地址：https://openreview.net/pdf?id=xkXdE81mOK
代码仓库：https://github.com/mtics/FedRAP

论文概况

FedRAP实际上就是把每个user 对应的 client 中关于当前用户的 user embedding 向量与 item embedding matrix 之间的运算进行拆分，具体来说，是将 item embedding matrix进行拆分，分为 $\mathbf{C}$ 和 $\mathbf{D}^{i}$ 。

针对挑战 C1：大部分 FRS 都是将所有的item embedding 在全局进行共享，忽略了用户对不同物品的 preference。作者使用 $\mathbf{C}$ 和 $\mathbf{D}^{i}$ 的分离对这一问题进行解决。
针对挑战 C2：联邦推荐需要占用较大的通信开销，特别是对于物品数量较多的场景。作者加了一个正则化项进行约束。
此外，作者在一个全局向量 $\mathbf{C}$ 的添加过程中，加入了一个渐进式增加的权重函数，用于提高学习精确率。

Preliminaries

rating 矩阵 $\mathbf{R} = [\mathbf{r}_1, \mathbf{r}_2, \cdots, \mathbf{r}_n ]^{\top} \in \{0,1\}^{n\times m}$ ， $n$ 表示用户数量， $m$ 表示物品数量。
用户表示 $\mathbf{U} \in \mathbb{R}^{n\times k}$ ，每个客户端 $i$ 只保存自己的那一份 $\mathbf{u}_{i}$ 。
作者对于物品表示使用了两份矩阵，local item embedding $\mathbf{D}^{(i)}\in \mathbb{R}^{m\times k}$ ，这部分用户只保存在自己的client端，不进行传输，用于保存用户的个性化信息。
另一份用于保存global item 信息的 embedding 是 $\mathbf{C} \in \mathbb{R}^{m \times k}$ 。在整个FedRAP中，用于传播的只有 $\mathbf{C}$ 这部分而已。
为标记每个用户的 interaction records，使用 $\boldsymbol{\Omega} = \left\{(i,j): \text{the} \ i\text{-th user has rated the}\ j\text{-th item} \right\}$

下面介绍具体的方法论部分。

Methodology

FedRAP 的主要创新是在 client 端进行的。

客户端维持自己的 user embedding 和所有物品的 item embedding 矩阵，并添加了一个全局 item embedding 矩阵，用于维护全局向量。具体来说，使用内积加sigmoid方法进行interaction预测，如下所示：
$\hat{r}_{ij} = 1/ (1+ e^{-<\mathbf{u}_{i}, (\mathbf{D}^{(i)} + \mathbf{C} )_{j}>})\tag{1}$

损失函数使用交叉熵损失，如下所示：
$\min_{\mathbf{U}, \mathbf{C}, \mathbf{D}^{(i)} } \sum\limits_{(i,j)\in \boldsymbol{\Omega}} -( r_{ij} \log ({\hat{r}}_{ij}) + (1 - r_{ij}) \log(1 - {\hat{r}}_{ij})). \tag{2}$

另外，添加一个正则化项用于约束 $\mathbf{C}$ ，使得 $\mathbf{C}$ 能够与每个客户端的个性化信息扩大差距，加入下式：
$\max_{\mathbf{C}, \mathbf{D}^{(i)}} \sum\limits_{i=1}^{n} \|\mathbf{C} - \mathbf{D}^{(i)} \|_{F}^{2} \tag{3}$

为了使得早期能够更多地学习 user-item 之间的 interaction 协同过滤信息，在正则化项中加入了两个权重因子 $\lambda_{(a, v_{1})}$ 、 $\mu_{(a, v_{2})}$ ，这里的 $a$ 是 iteration 的轮次坐标， $v_1, v_2$ 是宏参。具体的Loss如下：

$\min_{\mathbf{U}, \mathbf{C}, \mathbf{D}^{(i)} } \sum\limits_{i=1}^{n} \sum\limits_{(i,j)\in \boldsymbol{\Omega}} -( r_{ij} \log ({\hat{r}}_{ij}) + (1 - r_{ij}) \log(1 - {\hat{r}}_{ij}))\\ - \lambda_{(a, v_{1})} \|\mathbf{C} - \mathbf{D}^{(i)}\|_{F}^{2}) + \mu_{(a, v_{2})} \|\mathbf{C}\|_{1}.\tag{4}$

这里最后一项用的约束是 1-范式，即绝对值之和，越小代表空位越多，因此可以带来越少的通信开销。这里的 $\lambda_{(a, v_{1})}$ 、 $\mu_{(a, v_{2})}$ 使用相同实现方式，使用 $\tanh(\cdot)$ 完成，具体地， $\lambda_{(a, v_{1})} = \tanh(a/10)\times v_{1}$ 。

Server端和正常FRS一样，只不过 FedRAP 只交互 $\mathbf{C}$ 。整体流程如下图所示：
FedRAP Architecture
对FedRAP整个算法流程进行总结，如下算法所示，简单高效：
FedRAP Algorithm

Experiments

本文的一大特点是实验部分以图为主，表格倒是比较少（不过放在附录中了，能够查看详细数值）。具体如下：
Overall Comparisons
另外，实验部分写得非常干练，直接把所有的variants都列在一块，在每一块对应要分析的地方直接进行对比。

消融实验

Ablation

Convergence

Curriculum分析

即对不同的 $\lambda_{(a, v_1)}$ 和 $\mu_{(a, v_2)}$ 进行分析，FedRAP采用的是 $\tanh$ ，除此以外，还提供了诸如sin、固定值、交换0/1、 $v_1/{(a+1)}$ 等方式，如下所示：
Curriculum
结果如下：
Analysis of Curricula