略读预计 2 分钟

Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable

摘要

Fable 是 Anthropic 旗舰网络安全模型 Mythos 的公开受限版。多位安全研究员反映，该模型的安全护栏存在严重的误伤问题，甚至在处理 “代码审计” 或 “编写安全代码” 等正当需求时也会因触发关键词而中断任务，并强制降级至 Claude Opus 4.8。Anthropic 表示此举是为了防范 AI 被用于开发恶意软件，并建议专业人员通过其 “网络验证计划”（Cyber Verification Program）申请更高权限。

荐读理由

Fable 拒绝任何带‘cybersecurity’词的提示，写安全代码或代码审查都会触发并降级为 Claude Opus 4.8，keyword-based 的机制让安全工程师的日常工程实践受阻；即使有 Cyber Verification Program 放宽审批通道，也只适用于少数专业人士，整体限制导致前沿模型在 AI 工程项目中的可用性降低。

Hacker News · 154 赞 · 133 评讨论 → 阅读原文 →

这条对你有帮助吗？