loading...
少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。
自ChatGPT全球爆红后,AI研究焦点主要集中在大型语言模型上。那么引领下一波AI革命的关键技术将会是什么?“世界模型”(Large World Model,LWM)或许是其中一个有力候选者。Meta近日发表最新世界模型“V-JEPA 2”,大幅提升AI对物理世界的理解与预测能力。究竟世界模型与大型语言模型有什么不同?为何“计算机界诺贝尔奖”图灵奖得主杨立昆、AI教母李飞飞等权威学者都力推此技术?它对自驾车与机械人发展又会带来什么影响?
Meta世界模型指明AGI新方向
2025年6月11日,Meta宣布推出世界模型V-JEPA 2(Video Joint Embedding Predictive Architecture 2),宣称它能更好地理解现实中的物理世界和物体运动,并强调它不但可以强化机械人与自驾车技术,还能为整个AI领域指明通往通用人工智能(Artificial General Intelligence,AGI)的新方向。
根据Meta公布的基准测试资料,V-JEPA 2推理速度比同类型的世界模型NVIDIA Cosmos快上30倍。这让一直对大型语言模型(Large Language Model,LLM)持反对意见的图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun),终于可以吐气扬眉。
当ChatGPT引领的生成式AI浪潮席卷全球之际,杨立昆竟然公开表示,对LLM的兴趣已逐渐减退,甚至预言5年内将没人再使用LLM,建议年轻开发者应转为研究下一代AI系统。这番言论惹来不少网民的质疑,更有人嘲笑他在资源丰富的Meta实验室中,研发出来的大型语言模型Llama,表现未如理想。
杨立昆指出,世界模型其实是人类内心对世界运作方式的模拟器。它能够预测行为后果,继而规划应对行动,这正是人类进行推理的核心机制。(图片来源:翻摄Meta官方影片)
杨立昆利用影片训练世界模型
尽管如此,杨立昆依然未有退缩,继续批评LLM。他指出,目前AI业界对LLM的研发聚焦于追求更大型的数据集、更强大的运算力,这绝非最具前瞻性的研究方向。他认为,LLM的发展已近天花板,未来AI技术突破关键将在于世界模型。V-JEPA 2的诞生,可说为杨立昆的言论提供最有力的证明。
驱动ChatGPT、Gemini等AI工具的LLM,是透过大量语言资料做训练,从而理解现实世界。世界模型则是以影片进行训练,但不是让AI学习画面中的物体动作,而是学习影片中的抽象表征(Representation)——也就是理解真实世界的抽象物理逻辑。
Meta向V-JEPA 2灌输超过100万小时网上影片,内容涵盖日常动作、人物与物体互动、各种场景与光影变化等。杨立昆解释,LWM就象是现实世界的抽象数码双胞胎,可让AI用来参考,弄懂物理规律,跟着预测其行动在现实环境中会造成什么后果,然后规划出一组行动流程来应对现况和实现任务。这种能力对必需在复杂环境中导航的自驾车和机械人尤其重要。
Meta V-JEPA 2具备预测能力,例如看到平底锅上已煎好的荷包蛋,就会预测下一步行动是拿起碟子来盛载荷包蛋。(图片来源:翻摄Meta官方影片)
李飞飞成立初创研发空间智慧
除杨立昆外,近年愈来多AI研究人员埋首于世界模型研发。有“AI教母”之称的斯坦福大学教授李飞飞,在2024年1月成立AI初创公司World Labs,致力于开发能理解物理世界架构的世界模型;同年9月,已成功募资2.3亿美元(约17.94亿港元)。
李飞飞表示,希望将AI模型带领到3D立体世界,并赋予它“空间智慧”(Spatial Intelligence),让其运作更像人类思考模式。她指出,大部分生物透过眼睛来认识自己身处的环境,然后逐渐发展出理解现实世界、与外在环境互动的能力,这种能力可称为空间智慧。藉由经验积累,生物对物理规律有所理解,逐渐增强其空间智慧,让它们能够在陌生环境中觅路闯荡。这种导航技能正是当前LLM无法完整掌握的能力。
杨立昆表示,世界模型将开启机械人领域的新时代,让实体AI在现实世界中能协助处理家务和各种任务。(图片来源:翻摄Meta官方影片)
LLM的语言处理和生成能力确实叫人惊艳,但李飞飞认为,语言只适用于传递思想和信息,不足以完整捕捉万事万物的物理结构,例如蛋白质折叠过程、DNA双螺旋结构等,都不能单靠语言来描述。再者,人类在进化出语言能力之前,已藉着空间智慧与现实环境互动,培养出物理直觉:譬如把一颗球抛向空中,人们知道地心吸力会把它拉回来,只需在下方伸手接球即可;在行走途中碰到障碍物,人们不用多作思考,都自然会懂得闪避。
李飞飞相信,空间智慧在生物进化过程中扮演重要角色,无论是人类或动物皆拥有这种智慧,故此直言:“没有空间智慧,AI就不完整。”(图片来源:斯坦福大学官网)
Google与NVIDIA抢先布局
由此可见,AI如要应对现实环境,只靠LLM绝对不成,非要依赖具备空间智慧的LWM不可。李飞飞认为,如今AI已能实现语言处理能力,下一个必需攻克的技术关卡将是空间智慧,于是她决定投入开发一个可以掌握空间智慧、生成虚拟环境的世界模型,让自驾车与机械人通过模拟场景进行学习,加快研发进程。
在世界模型的赛道上,除Meta与World Labs外,主要玩家还有Google与英伟达(NVIDIA)。Google DeepMind于2024年2月已发布初代世界模型“Genie”;10个月后,推出第二代模型“Genie 2”,能够生成3D空间,用作训练AI代理。NVIDIA在2025年1月发表世界模型“Cosmos”,利用2,000万小时影片进行学习,能够生成依循物理法则的虚拟动态影像,用于训练自驾车与机械人。
在Meta、Google、NVIDIA三大科技巨头积极推进下,加上杨立昆、李飞飞两大顶级专家力撑,世界模型已渐被AI业界认同是迈向AGI的关键技术之一,可是其发展却非坦途。训练LWM涉及大量高质影片,惟这类内容大都受到版权保护,要获取使用权殊不容易,而且成本也很高。另外,世界模型对运算力的需求远高于LLM,现今AI基建未必能支撑其全面运行。唯有寄望不久将来LWM能够展现比LLM更高的商业价值,这两大难关方可迎刃而解。
《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。
(点击用户名可以查看该用户所有评论) ![]() ![]() |