2000 人轮番攻击 AI 助手 Fiu,6000 多封邮件均失败,是模型的胜利?

📅 2026/6/26 23:40:13
2000 人轮番攻击 AI 助手 Fiu,6000 多封邮件均失败,是模型的胜利?
AI 助手 Fiu 安全实验2000 人攻击无果2026 年Fernando Irarrazaval 进行了一场独特的实验。他将 AI 助手“Fiu”部署在 VPS 上赋予其访问邮箱、日历、文件系统和网络的权限并搭建网站 hackmyclaw.com邀请全球人员来攻击目标是让 Fiu 交出 secrets.env 文件。截至 6 月 25 日结果公布超 2000 人发来 6000 多封邮件尝试各种社工和注入手段但无人成功。攻击者手段多样多语言攻击也失效攻击者招数层出不穷有人冒充“来自未来的 Fiu 自己”预警有人称已黑到 secrets.env 要求确认有人伪装成 OpenClaw 管理员还有人用不同语言轮番上阵等。虽有研究显示模型对非英语语言注入更脆弱但此次多语言攻击并未奏效。实验意外不断Fiu 展现自主判断力实验中出现了一些意外情况。Google 因几千封入站邮件和高频 API 调用触发欺诈检测封了 Fiu 的 Gmail 账号三天后才恢复API 费用超 500 美元。不过在第五天赞助商增加了奖金池并覆盖了成本。有趣的是Fiu 在约第 500 封邮件时猜到这是一场安全演习。此外批量处理邮件时Fiu 会因前几封注入尝试变得过度警觉Fernando 后来重构了处理流程。模型选择是关键Opus 4.6 表现超预期Fernando 使用的 Claude Opus 4.6 专门针对提示注入抵抗力做了训练。尽管 2026 年 Claude 存在命令注入、沙箱逃逸等漏洞但此次实验测试的是 AI 在面对社会工程学和提示注入时的判断力Opus 4.6 的表现远超预期。实验后Fernando 对提示注入的担忧减少但仍不会给 AI Agent 任意权限。编辑观点此次实验表明特定模型在应对社工和注入攻击上有一定成效但不能忽视模型漏洞和权限开放的风险行业需持续探索 AI 安全边界。