loading...
发表时间: 2025-01-13 10:58:28
少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。
英伟达(NVIDIA)执行长黄仁勋在全球最大消费电子展CES 2025的主题演讲上,发表名为Cosmos的“世界基础模型”,能够生成逼真且符合物理法则的合成数据,有助降低机械人“实体AI”的开发成本与门槛,因此他豪言:“机械人的ChatGPT时刻即将到来。”到底什么是世界基础模型?除NVIDIA外,在此赛道上还有哪些主要玩家?
AI从感知型演进到实体智能
2025年1月7日,NVIDIA创办人兼执行长黄仁勋在CES主题演讲开场,展示并解说AI技术的4大演进阶段:感知型AI(Perception AI)、生成式AI(Generative AI)、代理式AI(Agentic AI)、以及实体AI(Physical AI,又称物理AI)。
AlexNet神经网络系统于2012年以惊人的影像辨识准确率,震撼整个AI学术界,开启了感知型AI时代。此后,AI能够理解和分析输入的图像或语音,广泛应用于医疗影像辨识和语音识别等范畴。2022年,ChatGPT全球爆红,催生了生成式AI热潮,除文案外,能够生成图像、影片、程序码的模型陆续诞生,令AI应用日渐普及。
黄仁勋在CES 2025主题演讲上大喊:“机械人的ChatGPT时刻即将到来。”但他坦承,在达到“ChatGPT时刻”之前,Cosmos仍需努力积累更多数据。(图片来源:翻摄NVIDIA官方YouTube影片)
来到2025年,AI业界开始步入代理式AI阶段:AI代理(AI Agent)能够自行搜集环境信息,继而自主作出决策并执行任务,适用于金融分析、客户服务和诊断治疗。AI技术发展的下一站将迈向实体AI领域,让AI可以走出数码世界,以人形机械人或自驾车的姿态进入物理世界,与人接触、与现实环境互动。
懂物理定律的世界基础模型
黄仁勋表示,为求普及实体AI,NVIDIA创建了Cosmos世界基础模型(World Fundamental Model)。实体AI需要大量现实世界的环境数据来训练模型,而Cosmos就可以轻松产制大量极富真实感、兼且符合物理规律的合成数据。开发人员只要输入文字描述、图片或影片,Cosmos即能生成依循物理法则的虚拟动态影像,例如烟尘飘动、水花溅射、以及光线明暗变化等,让机械人或自驾车可以在虚拟世界中接受训练。
黄仁勋表示,Cosmos在输入文字或图像后,即可产制大量虚拟世界动态影像,藉此进行机械人或自驾车的模型训练。(图片来源:翻摄NVIDIA官方YouTube影片)
同时,开发人员又可以按照开发需要,微调Cosmos自订模型,譬如模拟物流仓库、工厂生产线、甚或各种路面情况。如此一来,初创公司训练机械人时,无需僱用真人进行动作示范;车厂研发自驾系统时,不用派出实体测试车到马路上收集行车数据,有助于大幅降低开发成本,并缩短研发时间。
Cosmos模型使用来自现实世界的2,000万小时影片做训练,包罗真人互动、环境变化、工业生产、机械人活动、汽车驾驶等9,000兆组标记数据。黄仁勋指出,透过这些资料影片,可以教导AI理解物理世界各种法则,诸如重力、惯性、摩擦力、几何和空间关系、以及因果关系等。
Google发表第二代世界模型
为了加快机械人和自驾车的发展,Cosmos以开放授权方式提供外界使用。目前首批采用Cosmos模型的业者,包括机械人公司1X、Agile Robots、Agility Robotics、Figure AI,自驾系统开发商Foretellix、自驾货车初创Waabi、电动车厂小鹏汽车,以及叫车服务龙头Uber等。
Cosmos能够模拟各种路况的驾驶环境。(图片来源:翻摄NVIDIA官方YouTube影片)
除NVIDIA外,近年愈来愈多科技公司投入世界模型的研发,计有Google、OpenAI、Meta、Anthropic、AI教母李飞飞的World Labs、以色列初创Decart等,当中以Google最为进取。早于2024年2月,Google DeepMind已推出世界模型Genie,单靠文字、图片或影片,就能生成可供游玩的2D游戏世界。
同年12月,DeepMind发表第二代世界模型Genie 2,能够生成3D虚拟环境,让开发人员可以在立体场景中训练AI代理。DeepMind现正筹组一个世界模型的研发团队,由10月从OpenAI跳槽的Sora影片生成模型开发主管提姆·布鲁克斯(Tim Brooks)带领。
游戏、影视职位将被AI取代
世界模型生成的3D虚拟世界,不仅可用作机械人和自驾车的训练,还可用于影视制作、游戏开发、以至VR内容创作,看似前途一片光明,但却引发不少业者担心,未来或许会减少人类的工作机会。譬如游戏开发商动视暴雪(Activision Blizzard)在2024年3度裁员,然后使用AI来弥补部分员工流失。好莱坞动画师及漫画家工会的调查报告显示,预计2026年逾10万个电影、电视、动画的工作岗位将被AI取代。
Cosmos可以模拟电动拖板车在仓库的所有行走轨迹,从中找出最佳的行驶路径。(图片来源:翻摄NVIDIA官方YouTube影片)
再者,世界模型有可能涉及版权问题。以Decart的世界模型Oasis为例,能够迅速生成类似微软(Microsoft)游戏作品《Minecraft》的虚拟世界,但未有明确表示已取得微软的许可,使用《Minecraft》游戏影片做模型训练。另外,也有不少世界模型所产生的场景,跟《侠盗猎车手》(Grand Theft Auto)、《要塞英雄》(Fortnite)等游戏的画面非常近似。
面对侵权疑虑,NVIDIA回应指,Cosmos所用的训练数据采集自各种公共和私人来源,对数据的使用符合法律条例和精神,并强调Cosmos从中学习到的物理世界法则,既不受版权保护,亦不受任何个人或企业控制。然而,有版权专家认为,此说法未必能通过司法审查,最终结果如何还须法院裁决。
《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。
(点击用户名可以查看该用户所有评论) 只看作者评论 查看全部评论:↑顺序 ↓倒序 |