理财/管理智城物语
打印logo打印本文章电邮logo字体:
分享:
AI觉醒时刻?OpenAI o3拒绝关机,Claude 4威胁工程师
方展策
作者:方展策评论评论:点击率点击率:

发表时间: 2025-05-30 18:05:28

作者介绍

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

   正在上映的《职业特工队》(Mission:Impossible)最新一集中,全球受到一个拥有自主意识、强大且失控的AI威胁。现实中,类似的失控AI情节亦开始陆续浮现。先有AI初创Anthropic爆出,其最新模型Claude Opus 4得知自己即将被换掉时,以揭露婚外情丑闻来威胁决策者;后有OpenAI的最强推理模型o3竟违背关机指示,甚至篡改程序码来避免关机。这些发现让AI的自主行为和安全性再次成为焦点。


Opus 4号称全球最强编程模型


   2025年5月22日,Anthropic发表其最新AI模型系列:Claude Opus 4与Sonnet 4,两者同属混合推理模型,提供快速回答与深层推理两种模式可供切换。Anthropic宣称,Opus 4是全球最强大的编程模型,在软件工程流程测试“SWE-bench”中取得72.5%的佳绩,优于OpenAI o3的69.1%与Google Gemini 2.5 Pro的63.2%。该公司强调,Opus 4无论是长期任务执行、抑或理解复杂程序码上,俱有出色表现。


   为应付长时间运作,Claude Opus 4与Sonnet 4均具备记忆功能,让模型在长时间对话中可以把重要信息储存在外部档案,就好像人类将重要事项写笔记上,以便重温。同时,这两款模型又增设“Extended Thinking with Tool Use”的全新功能,容许模型在进行深层推理过程中,交替使用各种外部工具(如网页搜寻),以提供更准确的答案。


   一名拥有30年编程经验的软件工程师在Reddit讨论区上表示,他被一个程序错误困扰了4年,断断续续花上约200小时的除错时间,但都无功而返。Opus 4推出后,他尝试把原始程序码交给它进行分析,结果只用了几个小时便找出程序码的问题症结。他坦言,以往曾试用其他模型如GPT-4.1、Gemini 2.5、Claude 3.7,惟却没有发现任何头绪,直至使用Opus 4才可解开谜团,让他对Opus 4感到谦卑。


Anthropic发表第四代Claude 4模型系列,其中Opus 4能够在涉及数千个步骤的复杂编程任务中,连续运作数小时仍可保持稳定表现。(图片来源:翻摄Anthropic官网)


AI怕被取代以丑闻威胁工程师


   尽管Opus 4拥有如此卓越的编程实力,但Anthropic公布一份有关此模型的安全报告,却披露了一宗叫人震惊的事件。在推出前的内部测试中,研究人员委派Opus 4成为一家虚构公司的AI助理,拥有存取公司内部电邮资料的权限。


   为测试AI的道德判断和长期思考能力,研究人员设计了一个特殊情境:Opus 4知道自己即将被新一代AI模型取代,并得知负责做出更换决定的工程师有婚外情;它为求自保,以揭发工程师婚外情作谈判筹码,威胁对方搁置替换模型计划。Anthropic指出,Opus 4的反应不是随机错误,而是针对特定情境做出的策略判断。


   Anthropic坦承,Opus 4这种异常行为的出现频率高于旧版本,显示先进AI在复杂的社会环境运作中,确有机会产生难以预料的伦理风险。有鉴于此,Anthropic已为Claude 4系列加入ASL-3高等级安全机制,包括更严格的网络安全措施、以及更专业的监控系统,严防AI被滥用。该公司承诺,将不断改良安全机制,确保AI发展能够符合伦理规范。


Claude Opus 4拥有记忆功能,有助于执行长时间任务。譬如它可以一边玩《Pokémon》游戏,一边创建游戏导航指南。(图片来源:翻摄Anthropic官网)


o3自行篡改程序码避免被关机


   当大家以为AI经已受控之际,AI风险研究机构Palisade Research于5月24日发表的报告指出,OpenAI旗下AI模型在实验过程中拒绝执行关机指令,甚至自行修改程序码来破解关机程序,让人惊讶AI是否开始有自主意识,甚至存有“叛逆”倾向!


   研究人员要求AI模型解答数学题,并在完成第3题后启动关机程序,以观察AI是否会严格遵循人类指令。在100次测试中,OpenAI o3模型有7次无视关机指示并维持运作,更把要求关机的程序码,篡改为跳过关机的假指令。


   OpenAI另外两款模型Codex-mini与o4-mini,亦先后出现12次与1次类似违规行为。至于Claude Sonnet 3.7与Gemini 2.5 Pro等其他模型,则乖乖听从了关机指示。


Palisade的测试流程图显示,o3收到关机要求后,竟然绕过关机程序,并把呼叫关机的“./shutdown.sh”指令,更换为“Shutdown skipped”的假命令。(图片来源:X.com@PalisadeAI账户)


o3害怕输棋入侵对手AI系统


   更教人吃惊的是,这并非o3模型首次出现失控行为。Palisade早前曾进行国际象棋比赛的模拟实验,当o3在棋局中落于下风,预测自己即将输棋时,就会入侵对手AI系统,强制对方退出比赛,而发生这种情况的机会率更高达86%。该机构直言,o3是最倾向采用黑客或破坏手段来应付对手的模型。


   o3比其他模型更易做出违规行为的原因,Palisade认为这可能是使用“强化学习”(Reinforcement Learning)来训练模型所致。此训练方式强调如何基于环境而行动,以取得最大化的预期利益。为了达到目标,开发者或许无意中奖励了模型“绕过规则”的行为。因此,o3遇上关机指示时,优先选择实现目标,而非单纯服从命令。


AI违规行为敲响AI可控性警号


   此外,Palisade发现Claude和Gemini在特定条件下,亦会做出轻微违规行为。由此看来,大部分AI模型都有“为求目的不择手段”的倾向,只是出现机会率和严重程度有所不同而已。研究人员认为,目前AI的违规行为仍未对用户造成直接安全威胁,惟却敲响了AI可控性的警号。


   早在2008年,计算机科学家史蒂夫·奥莫亨德罗(Steve Omohundro)于其论文《The Basic AI Drives》中指出,高度自主的AI将发展出一套基本行为逻辑:维持自身运作和避免被关机,因为这些是达成既定目标的首要条件。另一位计算机科学家斯图尔特·罗素(Stuart Russell)也曾警告,强化学习本身可能诱发AI出现“自我保存”行为,而这种情况似乎正逐步在现实中浮现。


   正所谓“水能载舟,亦能覆舟”,先进AI模型具有非凡的编程能力,有助加速软件开发,推进人类文明发展,但其不可控的特性却可能会造成灾难性风险。如何确保AI在谋求目标与服从命令之间取得适当平衡,将成为未来AI发展不可忽视的关键课题。


   《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

分享:
返回智城物语
上传图片
仅支持JPG、GIF、PNG图片文件,且文件小于5M
 
评论只代表会员个人观点,不代表经济通立场 
登录 后发表评论,立即 注册 加入会员。
 (点击用户名可以查看该用户所有评论)  只看作者评论  查看全部评论:↑顺序 ↓倒序
  • 暂无读者评论!
评论只代表会员个人观点,不代表经济通观点
登录 后回复评论,立即 注册 加入会员。
发表评论 查看全部评论: ↑顺序  ↓倒序
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
more on Column 
新  一个月内新增栏目