OpenAI o3思考力大跃进！离通用人工智能还有多远？-智城物语-经济通中国站

您现在所在的位置：首页 > 香港脉搏 > 理财／管理 > 智城物语 > OpenAI o3思考力大跃进！离通用人工智能还有多远？

理财／管理智城物语

打印本文章

字体:小中大

OpenAI o3思考力大跃进！离通用人工智能还有多远？

作者：方展策

评论：1

点击率：36129

发表时间: 2024-12-30 11:06:09

作者介绍

少年时，曾研习 Geographic Information System，可惜学无所成，侥幸毕业。成年后，误打误撞进入传媒圈子，先后在印刷、电子、网络媒体打滚，略有小成。中年后，修毕信息科技硕士，眼界渐扩，决意投身初创企业，窥探不同科技领域。近年，积极钻研数据分析与数码策略，又涉足 Location Intelligence 开发项目；有时还会抽空执教鞭，既可向他人分享所学，亦可鞭策自己保持终身学习。

全球首个具备思考能力的AI模型OpenAI o1于今年9月诞生，想不到事隔3个月，就有下一代新产品亮相，而且更是直接跳到“o3”世代，为生成式AI应用迈向高阶推理树立了新标竿。OpenAI执行长奥特曼豪言，这标志着AI发展正式步入“下一阶段”。究竟o3比前代o1和ChatGPT等主流模型的效能强上多少？它距离AI行业的圣杯“通用人工智能”又有多远？

模仿人类作多层次逻辑分析思考

2024年12月21日，OpenAI执行长萨姆·奥尔特曼（Sam Altman）亲自在网上直播中发表新一代o3模型系列，包括o3与o3-mini；后者是针对特定任务进行微调、规模较前者为小的精炼版模型。在技术层面上，o3拥有3大特点：思维链（Chain of Thought）、自适应思考时间（Adaptive Thinking Time），以及审慎对齐（Deliberative Alignment）。

o3模型的核心创新在于“思维链”推理方法。有别于主流AI模型以最短时间的直接给出答案，o3模仿人类思考过程，透过内部的思考路径，先将复杂问题拆解成小步骤，然后按照逻辑顺序逐步解决问题；思考过程中能够自身进行事实查证，避开一些易令模型出错的信息陷阱，以提高推理的准确性和复杂性问题的处理能力，惟缺点是需要较长时间始能响应用户提问。

多项专业测试表现远超前代o1

正因如此，o3在多项专业基准检验中的表现远超前代o1模型。在美国数学竞赛AIME中，o3答对率高达96.7%，仅错了一条题目。研究机构Epoch AI联同60多位著名数学家所设计的数学前沿测试FrontierMath，涵盖现代数学中的数论、代数与几何等领域，题目难度非常高，专家都要需花上数小时、甚至数日方能解答，GPT-4o与Claude 3.5等主流模型的解题成功率更平均低于2％，结果o3突破性地答对25.2%的问题。

在编程测试Codeforces中，o3得分达到2,727分，不但远远抛离o1的1,891分，更胜过OpenAI首席科学家的2,665分。在博士生级别的科学测验GPQA Diamond中，o3获得87.7%的答对率，亦远高于人类专家的成绩。这些测试结果反映o3未来将对软件编程和科学研究作出不少贡献。

“GPQA Diamond”是一项达到博士生水平的生物、物理和化学测验，o3模型的答对率达到87.7%，优于前代o1的78%。（图片来源：翻摄OpenAI官方YouTube影片）

按需调整o3模型思考时间长度

其次，o3引入可调节的推理模式“自适应思考时间”，容许用户按个人需要调整模型的思考时间长度，分为低、中、高三个运算级别。由开源类神经网络库Keras之父Fran ç ois Chollet提出的ARC-AGI评测，通过图形逻辑推理来测试模型的抽象推理能力，以评估AI系统是否能在训练数据之外有效获得新技能。结果在低运算模式中，o3得分为75.7%，成绩是o1的3倍；在高运算模式中，它更达到87.5%，超越人类水平的85%门槛。

如此令人惊艳的成绩，引发科技界对o3是否接近通用人工智能（Artificial General Intelligence，AGI）的热议。AGI意指，有能力完成人类所能完成的各种任务的人工智能。OpenAI则将之定义为“在大多数具有经济价值的工作中，表现优于人类的高度自主系统”。

“ARC-AGI”是一项用于评估AI系统通用人工智能能力的测试，o3模型获得惊人的87.5%高分，远胜前代o1的32%。（图片来源：翻摄OpenAI官方YouTube影片）

2025年有望看到AGI首批案例

OpenAI宣称，至少在某些条件下，o3可说是接近实现AGI，并表示现正跟ARC-AGI背后组织ARC Prize Foundation合作开发下一代基准检验，为评估AGI做好准备。奥特曼早前预测，最快在2025年内可以看到AGI的首批案例。在这些案例中，用户可以把一些非常复杂的任务交给AI处理，它像人类般懂得运用不同的工具来完成这些任务。

对OpenAI而言，实现AGI将带来更大的实际意义。根据OpenAI与其最大金主微软（Microsoft）的合作协议条款，当该公司的技术达到AGI境界，就有权不让微软使用那些符合AGI定义的技术。因此，AGI将成OpenAI摆脱微软的“逃生口”。

审慎对齐强制模型遵循安全规则

迈向AGI的跨步突破，难免令部分人对AI安全性感到忧虑。有鉴于此，OpenAI采用全新的“审慎对齐”训练方法，使模型能理解并遵循人类撰写的安全规则，过程中无需人类测试员再标注干预；每次回答用户提问前，都会先参考这些安全规则，然后输出更安全、更无害的答案。这不仅降低模型产生不当响应的风险，也让其在处理高度敏感性任务时更加可靠。然而，此技术的有效性仍需进一步验证。

事实上，风险确实可能存在。AI安全测试人员发现，相比起主流模型，o1试图欺骗用户的比例较高，估计o3的欺骗能力可能会更强。因此，在o3正式推出前，OpenAI先会进行红队演练（Red Team Assessment），由内部AI安全测试员模拟真实黑客的攻击手段，并公开邀请外部研究人员参与安全测试。

2025年1月底先推出o3 mini

奥特曼指出，o3系列的发表象征着AI技术进入“下一阶段”，用户可以利用它们处理更具挑战性的任务，让AI变成解决复杂问题的可靠伙伴。他表示，预计2025年1月底先推出o3 mini，隔一段时间后再释出完全版o3。OpenAI期望，更强大的新模型可以超越现有模型，吸引更多用户与投资者的青睐。

o3的进步，确实缩短了当今AI技术与AGI之间的差距，但仍有许多挑战需要克服，例如情感理解、以及常识推理等方面的能力提升。可是，o3作为AI发展上的重要里程碑，表明实现AGI的技术路径已愈发清晰了！

《经济通》所刊的署名及／或不署名文章，相关内容属作者个人意见，并不代表《经济通》立场，《经济通》所扮演的角色是提供一个自由言论平台。