TrafficLLM:用大语言模型做开放集加密流量分析

📅 2026/7/5 9:11:52
TrafficLLM:用大语言模型做开放集加密流量分析
核心思路加密流量仍会因包大小、时序、方向等统计特征被攻击者识别如判断访问的网站或观看的视频而现实场景要求模型能做“开放集”判断——只识别目标流量其余一律拒识不能像传统闭合集模型那样把所有输入硬塞进已知类别。TrafficLLM 的核心创新是把预训练大语言模型GPT-2、LLaMA-2-7B当作流量特征提取器仅需少量微调就能生成比 CNN、ET-BERT 更具泛化性的特征表示。主要发现LLM 分词器需针对数值序列做适配GPT-2 需在数字间插入空格才能稳定编码LLaMA 默认逐位编码反而不需要插入空格。GPT-2/LLaMA 是解码器架构天然只关注“历史数据点”因果注意力这与真实流量“当前包依赖历史包”的规律吻合而编码器模型 ET-BERT 注意力分散、易过拟合泛化到开放集时表现变差。k-LND 系列开放集分类器整体最稳健明显优于 OpenMax 和背景类方法。LLaMA-2-7B 精度更高但训练/推理开销也显著更大约 6.7 倍训练时间、5.5 倍推理时间GPT-2 是更均衡的性价比选择。结果一览k-LND 最佳 F1数据集ET-BERTGPT-2LLaMA-2-7BCSTNet0.840.930.77AWF0.560.870.86DF0.700.890.90IoT0.690.890.94ISCX0.920.920.94USTC0.870.900.87DC0.810.890.93总体GPT-2 相较 ET-BERT / CNN 平均提升 12.7% / 13.7%LLaMA-2-7B 相较二者提升 17.6% / 21.5%仅 CSTNet 上 ET-BERT 因专属预训练略占优。Paper: https://www.sciencedirect.com/science/article/pii/S1389128625008138