香港脉搏www.etnetchina.com.cn
 理财/管理智城物语
打印logo打印本文章电邮logo字体:
分享:
OpenAI o3思考力大跃进!离通用人工智能还有多远?
方展策
作者:方展策评论评论:点击率点击率:

发表时间: 2024-12-30 11:06:09

作者介绍

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

   全球首个具备思考能力的AI模型OpenAI o1于今年9月诞生,想不到事隔3个月,就有下一代新产品亮相,而且更是直接跳到“o3”世代,为生成式AI应用迈向高阶推理树立了新标竿。OpenAI执行长奥特曼豪言,这标志着AI发展正式步入“下一阶段”。究竟o3比前代o1和ChatGPT等主流模型的效能强上多少?它距离AI行业的圣杯“通用人工智能”又有多远?


模仿人类作多层次逻辑分析思考


   2024年12月21日,OpenAI执行长萨姆·奥尔特曼(Sam Altman)亲自在网上直播中发表新一代o3模型系列,包括o3与o3-mini;后者是针对特定任务进行微调、规模较前者为小的精炼版模型。在技术层面上,o3拥有3大特点:思维链(Chain of Thought)、自适应思考时间(Adaptive Thinking Time),以及审慎对齐(Deliberative Alignment)。


   o3模型的核心创新在于“思维链”推理方法。有别于主流AI模型以最短时间的直接给出答案,o3模仿人类思考过程,透过内部的思考路径,先将复杂问题拆解成小步骤,然后按照逻辑顺序逐步解决问题;思考过程中能够自身进行事实查证,避开一些易令模型出错的信息陷阱,以提高推理的准确性和复杂性问题的处理能力,惟缺点是需要较长时间始能响应用户提问。



多项专业测试表现远超前代o1


   正因如此,o3在多项专业基准检验中的表现远超前代o1模型。在美国数学竞赛AIME中,o3答对率高达96.7%,仅错了一条题目。研究机构Epoch AI联同60多位著名数学家所设计的数学前沿测试FrontierMath,涵盖现代数学中的数论、代数与几何等领域,题目难度非常高,专家都要需花上数小时、甚至数日方能解答,GPT-4o与Claude 3.5等主流模型的解题成功率更平均低于2%,结果o3突破性地答对25.2%的问题。


   在编程测试Codeforces中,o3得分达到2,727分,不但远远抛离o1的1,891分,更胜过OpenAI首席科学家的2,665分。在博士生级别的科学测验GPQA Diamond中,o3获得87.7%的答对率,亦远高于人类专家的成绩。这些测试结果反映o3未来将对软件编程和科学研究作出不少贡献。


“GPQA Diamond”是一项达到博士生水平的生物、物理和化学测验,o3模型的答对率达到87.7%,优于前代o1的78%。(图片来源:翻摄OpenAI官方YouTube影片)


按需调整o3模型思考时间长度


   其次,o3引入可调节的推理模式“自适应思考时间”,容许用户按个人需要调整模型的思考时间长度,分为低、中、高三个运算级别。由开源类神经网络库Keras之父Fran ç ois Chollet提出的ARC-AGI评测,通过图形逻辑推理来测试模型的抽象推理能力,以评估AI系统是否能在训练数据之外有效获得新技能。结果在低运算模式中,o3得分为75.7%,成绩是o1的3倍;在高运算模式中,它更达到87.5%,超越人类水平的85%门槛。


   如此令人惊艳的成绩,引发科技界对o3是否接近通用人工智能(Artificial General Intelligence,AGI)的热议。AGI意指,有能力完成人类所能完成的各种任务的人工智能。OpenAI则将之定义为“在大多数具有经济价值的工作中,表现优于人类的高度自主系统”。


“ARC-AGI”是一项用于评估AI系统通用人工智能能力的测试,o3模型获得惊人的87.5%高分,远胜前代o1的32%。(图片来源:翻摄OpenAI官方YouTube影片)


2025年有望看到AGI首批案例


   OpenAI宣称,至少在某些条件下,o3可说是接近实现AGI,并表示现正跟ARC-AGI背后组织ARC Prize Foundation合作开发下一代基准检验,为评估AGI做好准备。奥特曼早前预测,最快在2025年内可以看到AGI的首批案例。在这些案例中,用户可以把一些非常复杂的任务交给AI处理,它像人类般懂得运用不同的工具来完成这些任务。


   对OpenAI而言,实现AGI将带来更大的实际意义。根据OpenAI与其最大金主微软(Microsoft)的合作协议条款,当该公司的技术达到AGI境界,就有权不让微软使用那些符合AGI定义的技术。因此,AGI将成OpenAI摆脱微软的“逃生口”。


审慎对齐强制模型遵循安全规则


   迈向AGI的跨步突破,难免令部分人对AI安全性感到忧虑。有鉴于此,OpenAI采用全新的“审慎对齐”训练方法,使模型能理解并遵循人类撰写的安全规则,过程中无需人类测试员再标注干预;每次回答用户提问前,都会先参考这些安全规则,然后输出更安全、更无害的答案。这不仅降低模型产生不当响应的风险,也让其在处理高度敏感性任务时更加可靠。然而,此技术的有效性仍需进一步验证。


   事实上,风险确实可能存在。AI安全测试人员发现,相比起主流模型,o1试图欺骗用户的比例较高,估计o3的欺骗能力可能会更强。因此,在o3正式推出前,OpenAI先会进行红队演练(Red Team Assessment),由内部AI安全测试员模拟真实黑客的攻击手段,并公开邀请外部研究人员参与安全测试。


2025年1月底先推出o3 mini


   奥特曼指出,o3系列的发表象征着AI技术进入“下一阶段”,用户可以利用它们处理更具挑战性的任务,让AI变成解决复杂问题的可靠伙伴。他表示,预计2025年1月底先推出o3 mini,隔一段时间后再释出完全版o3。OpenAI期望,更强大的新模型可以超越现有模型,吸引更多用户与投资者的青睐。


   o3的进步,确实缩短了当今AI技术与AGI之间的差距,但仍有许多挑战需要克服,例如情感理解、以及常识推理等方面的能力提升。可是,o3作为AI发展上的重要里程碑,表明实现AGI的技术路径已愈发清晰了!


   《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

分享:
返回智城物语
上传图片
仅支持JPG、GIF、PNG图片文件,且文件小于5M
 
评论只代表会员个人观点,不代表经济通立场 
登录 后发表评论,立即 注册 加入会员。
 (点击用户名可以查看该用户所有评论)  只看作者评论  查看全部评论:↑顺序 ↓倒序
评论只代表会员个人观点,不代表经济通观点
登录 后回复评论,立即 注册 加入会员。
发表评论 查看全部评论: ↑顺序 ↓倒序
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
more on Column 
新  一个月内新增栏目