AI觉醒时刻？OpenAI o3拒绝关机，Claude 4威胁工程师-智城物语-经济通中国站

您现在所在的位置：首页 > 香港脉搏 > 理财／管理 > 智城物语 > AI觉醒时刻？OpenAI o3拒绝关机，Claude 4威胁工程师

理财／管理智城物语

打印本文章

字体:小中大

AI觉醒时刻？OpenAI o3拒绝关机，Claude 4威胁工程师

作者：方展策

评论：0

点击率：19167

发表时间: 2025-05-30 18:05:28

作者介绍

少年时，曾研习 Geographic Information System，可惜学无所成，侥幸毕业。成年后，误打误撞进入传媒圈子，先后在印刷、电子、网络媒体打滚，略有小成。中年后，修毕信息科技硕士，眼界渐扩，决意投身初创企业，窥探不同科技领域。近年，积极钻研数据分析与数码策略，又涉足 Location Intelligence 开发项目；有时还会抽空执教鞭，既可向他人分享所学，亦可鞭策自己保持终身学习。

正在上映的《职业特工队》（Mission：Impossible）最新一集中，全球受到一个拥有自主意识、强大且失控的AI威胁。现实中，类似的失控AI情节亦开始陆续浮现。先有AI初创Anthropic爆出，其最新模型Claude Opus 4得知自己即将被换掉时，以揭露婚外情丑闻来威胁决策者；后有OpenAI的最强推理模型o3竟违背关机指示，甚至篡改程序码来避免关机。这些发现让AI的自主行为和安全性再次成为焦点。

Opus 4号称全球最强编程模型

2025年5月22日，Anthropic发表其最新AI模型系列：Claude Opus 4与Sonnet 4，两者同属混合推理模型，提供快速回答与深层推理两种模式可供切换。Anthropic宣称，Opus 4是全球最强大的编程模型，在软件工程流程测试“SWE-bench”中取得72.5%的佳绩，优于OpenAI o3的69.1%与Google Gemini 2.5 Pro的63.2%。该公司强调，Opus 4无论是长期任务执行、抑或理解复杂程序码上，俱有出色表现。

为应付长时间运作，Claude Opus 4与Sonnet 4均具备记忆功能，让模型在长时间对话中可以把重要信息储存在外部档案，就好像人类将重要事项写笔记上，以便重温。同时，这两款模型又增设“Extended Thinking with Tool Use”的全新功能，容许模型在进行深层推理过程中，交替使用各种外部工具（如网页搜寻），以提供更准确的答案。

一名拥有30年编程经验的软件工程师在Reddit讨论区上表示，他被一个程序错误困扰了4年，断断续续花上约200小时的除错时间，但都无功而返。Opus 4推出后，他尝试把原始程序码交给它进行分析，结果只用了几个小时便找出程序码的问题症结。他坦言，以往曾试用其他模型如GPT-4.1、Gemini 2.5、Claude 3.7，惟却没有发现任何头绪，直至使用Opus 4才可解开谜团，让他对Opus 4感到谦卑。

Anthropic发表第四代Claude 4模型系列，其中Opus 4能够在涉及数千个步骤的复杂编程任务中，连续运作数小时仍可保持稳定表现。（图片来源：翻摄Anthropic官网）

AI怕被取代以丑闻威胁工程师

尽管Opus 4拥有如此卓越的编程实力，但Anthropic公布一份有关此模型的安全报告，却披露了一宗叫人震惊的事件。在推出前的内部测试中，研究人员委派Opus 4成为一家虚构公司的AI助理，拥有存取公司内部电邮资料的权限。

为测试AI的道德判断和长期思考能力，研究人员设计了一个特殊情境：Opus 4知道自己即将被新一代AI模型取代，并得知负责做出更换决定的工程师有婚外情；它为求自保，以揭发工程师婚外情作谈判筹码，威胁对方搁置替换模型计划。Anthropic指出，Opus 4的反应不是随机错误，而是针对特定情境做出的策略判断。

Anthropic坦承，Opus 4这种异常行为的出现频率高于旧版本，显示先进AI在复杂的社会环境运作中，确有机会产生难以预料的伦理风险。有鉴于此，Anthropic已为Claude 4系列加入ASL-3高等级安全机制，包括更严格的网络安全措施、以及更专业的监控系统，严防AI被滥用。该公司承诺，将不断改良安全机制，确保AI发展能够符合伦理规范。

Claude Opus 4拥有记忆功能，有助于执行长时间任务。譬如它可以一边玩《Pokémon》游戏，一边创建游戏导航指南。（图片来源：翻摄Anthropic官网）

o3自行篡改程序码避免被关机

当大家以为AI经已受控之际，AI风险研究机构Palisade Research于5月24日发表的报告指出，OpenAI旗下AI模型在实验过程中拒绝执行关机指令，甚至自行修改程序码来破解关机程序，让人惊讶AI是否开始有自主意识，甚至存有“叛逆”倾向！

研究人员要求AI模型解答数学题，并在完成第３题后启动关机程序，以观察AI是否会严格遵循人类指令。在100次测试中，OpenAI o3模型有7次无视关机指示并维持运作，更把要求关机的程序码，篡改为跳过关机的假指令。

OpenAI另外两款模型Codex-mini与o4-mini，亦先后出现12次与1次类似违规行为。至于Claude Sonnet 3.7与Gemini 2.5 Pro等其他模型，则乖乖听从了关机指示。

Palisade的测试流程图显示，o3收到关机要求后，竟然绕过关机程序，并把呼叫关机的“./shutdown.sh”指令，更换为“Shutdown skipped”的假命令。（图片来源：X.com@PalisadeAI账户）

o3害怕输棋入侵对手AI系统

更教人吃惊的是，这并非o3模型首次出现失控行为。Palisade早前曾进行国际象棋比赛的模拟实验，当o3在棋局中落于下风，预测自己即将输棋时，就会入侵对手AI系统，强制对方退出比赛，而发生这种情况的机会率更高达86%。该机构直言，o3是最倾向采用黑客或破坏手段来应付对手的模型。

o3比其他模型更易做出违规行为的原因，Palisade认为这可能是使用“强化学习”（Reinforcement Learning）来训练模型所致。此训练方式强调如何基于环境而行动，以取得最大化的预期利益。为了达到目标，开发者或许无意中奖励了模型“绕过规则”的行为。因此，o3遇上关机指示时，优先选择实现目标，而非单纯服从命令。

AI违规行为敲响AI可控性警号

此外，Palisade发现Claude和Gemini在特定条件下，亦会做出轻微违规行为。由此看来，大部分AI模型都有“为求目的不择手段”的倾向，只是出现机会率和严重程度有所不同而已。研究人员认为，目前AI的违规行为仍未对用户造成直接安全威胁，惟却敲响了AI可控性的警号。

早在2008年，计算机科学家史蒂夫·奥莫亨德罗（Steve Omohundro）于其论文《The Basic AI Drives》中指出，高度自主的AI将发展出一套基本行为逻辑：维持自身运作和避免被关机，因为这些是达成既定目标的首要条件。另一位计算机科学家斯图尔特·罗素（Stuart Russell）也曾警告，强化学习本身可能诱发AI出现“自我保存”行为，而这种情况似乎正逐步在现实中浮现。

正所谓“水能载舟，亦能覆舟”，先进AI模型具有非凡的编程能力，有助加速软件开发，推进人类文明发展，但其不可控的特性却可能会造成灾难性风险。如何确保AI在谋求目标与服从命令之间取得适当平衡，将成为未来AI发展不可忽视的关键课题。

《经济通》所刊的署名及／或不署名文章，相关内容属作者个人意见，并不代表《经济通》立场，《经济通》所扮演的角色是提供一个自由言论平台。