精读 预计 2 分钟
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable
摘要
Fable 是 Anthropic 旗舰网络安全模型 Mythos 的公开受限版。多位安全研究员反映,该模型的安全护栏存在严重的误伤问题,甚至在处理“代码审计”或“编写安全代码”等正当需求时也会因触发关键词而中断任务,并强制降级至 Claude Opus 4.8。Anthropic 表示此举是为了防范 AI 被用于开发恶意软件,并建议专业人员通过其“网络验证计划”(Cyber Verification Program)申请更高权限。
荐读理由
在处理代码审计或安全编码任务时,应避开 Fable 模型因关键词触发而频繁降级的坑,并据此评估是否需通过其 Cyber Verification 计划获取专业级权限。
这条对你有帮助吗?