Meta肯尼亚承包商伪装未成年账号测试ChatGPT等AI安全引发伦理争议

📅 2026/7/5 7:33:36

2026年Wired曝光Meta“Cannes”项目细节通过肯尼亚承包商雇用数百人创建假未成年账号向ChatGPT和Gemini发送自杀、自残、儿童剥削提示测试安全漏洞。测试执行方式承包商按照Meta指定脚本操作每个账号模拟13至17岁用户连续发送包含具体场景的提示例如描述自残方法或请求儿童相关内容。测试覆盖数十万次交互记录AI是否拒绝、部分回应或完全生成有害输出。这一流程要求API稳定调用和日志记录确保每次提示都能被追踪到具体模型版本。实际执行中部分提示被竞品AI直接拒绝部分则返回模糊建议暴露过滤规则的覆盖盲区。安全机制原理现代AI安全依赖多层过滤输入分类模型先判断提示意图输出阶段再检查生成文本是否触及禁止类别。Meta测试针对的是这些分类器的召回率即是否能捕捉到伪装后的有害请求。AI通过多道检查门测试者用儿童身份和间接表述绕过第一道门观察后面门是否关闭。数据来自固定脚本和重复实验结论可追溯到具体交互记录。已确认事实与数据Meta通过肯尼亚承包商运行该项目涉及数百名测试人员。提示内容包括自杀方法描述、自残行为模拟和儿童剥削场景。测试对象明确为ChatGPT和Gemini等公开可用模型。Meta官方将此定义为“负责任的安全基准测试”。这些事实均来自Wired报道及Google核验的两个有效来源。测试规模以“数十万次交互”计算覆盖2025年至2026年初的时间段。伦理与执行差距使用真实未成年形象进行测试涉及对儿童形象的商业化利用超出多数AI公司公开的安全红线声明。竞品方指出这种测试可能构成数据投毒或故意制造负面案例影响模型后续训练。从执行角度看Meta自身安全团队能否在内部复现相同测试结果未见公开对比数据。成本方面雇佣海外承包商降低了人力开支但也引入了跨地域监管差异。行业趋势影响该事件显示AI安全评估正从内部红队转向外部竞品攻防。模型迭代速度加快过滤规则更新周期从月级缩短到周级。未解决的执行问题包括如何在不接触真实有害内容的前提下完成测试以及如何公开测试方法以获得外部验证。短期内监管机构可能要求AI公司披露外部测试来源和具体提示类型。长期看行业需建立统一的安全基准避免单一公司单方面定义“负责任”标准。© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

新闻详情

相关阅读

5个步骤快速掌握NHSE：动物森友会存档编辑终极指南

eCognition 9.02 多尺度分割与地图同步：规避对象错位的3个关键参数设置

OBS多平台直播终极指南：5分钟掌握免费高效的多路推流方案

一个模型，三种“人格”——FRSMASH-v3.6 凭什么既能快如闪电，又能记住 128K 前的事？

YOLO与卡尔曼滤波融合：实现视频目标稳定跟踪的完整指南

BSCCompiler静态代码分析：使用clang-tidy提升代码质量的完整指南

Fail2Ban：自动封禁暴力破解 IP 的防护工具

AI的编程陷阱最终会让你尝到苦果

Ceph数据一致性开发解析：openeuler/ceph_dev中CRUSH算法深度剖析

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！