loading...
发表时间 2024-02-19 14:39:03
“眼见为实”不再,未来世界也许只是人类用文本构建的“心神自运”。人工智能翘楚OpenAI于刚刚过去的周末发布新系统Sora,能根据文字提示,迅速生成好莱坞大片即视感的高质影片。此一被称为“量子级”的AI技术飞跃,一问世即惊艳,但“螳螂捕蝉,黄雀在后”,竞争对手Google、Meta同时发布最新大模型Gemini 1.5及V-JEPA。
人人都是黑泽明?
不久的将来,人人都是黑泽明或史蒂文·斯皮尔伯格?当OpenAI周六发布一段17秒短片,白雪皑皑的东京,熙熙攘攘的街道,樱花伴雪飞舞……一镜到底的动态逼真场景记录,原来不是出自专业摄影师,而是AI这个“梦世界模拟器”。
Sora生成视频中的镜头、光线、场景运用乃至人物表情,都已达至影视级。
如果说语言的诞生使人类得以驰骋想象,那么“文本-视像”的突破,将令人类获得真正超越现实的能力,眼见未必是真,花花世界背后全是文本代码。OpenAI就指,Sora是能够理解和模拟现实世界的模型的基础,相信这项功能将成为实现AGI(通用人工智能)的重要里程碑。
相比原本宇宙老大Runway旗下的AI视频生成工具Gen-2,效果仍停留于幻灯片动图,Sora生成视频中的镜头、光线、场景运用乃至人物表情、动物动态,都已达至影视级。加上语音AI研究公司ElevenLabs同样通过将文字转化成AI音效,为原本无声的Sora视讯加添背景音效,难怪有电视大台老大警告,要“高度重视,紧咬紧放,绝不能一夜之间完败。”
Gemini 1.5功能劲
Sora打开新世界的大门,Google同时发布的大模型Gemini 1.5暂时锋芒被掩,但却可能是大语言模型(LLM)竞争新的分水岭。去年12月初才后知后觉揭盅Gemini 1.0的谷歌,短短两个多月就推出1.5版本,不单能够运行高达100万个Token(文本最小单位),远超ChatGPT4.5 Turbo的12.8万个,意味其可以一次性处理长达1小时的视讯、11小时的音频、3万行程序代码、逾70万字的文章。
Gemini 1.5分析Sora生成影片指,猫的毛发太过完美,因此可能并非真实影片。
例如,Gemini 1.5能快速分析“阿波罗11号登月”任务的402页记录,并梳理其中的事件和细节;能理解两部电影的剧本,比较剧情、角色差异;能分析NBA扣篮影片,最高得分扣篮的细节。Gemini 1.5亦能就Sora视讯是否是人工智能生成提出自己的见解,例如猫的毛发太过完美,因此可能并非真实影片。
Meta主攻机器智慧
更具野心的还有Meta,其首席人工智能科学家Yann Lecun就指,根据文本提示而产生的影片,看起来真实,但并不表示系统理解物理世界;例如,一段苹果落地的影片,并不意味发现万有引力。他甚至指,Sora是非常棒的创造性的辅助工具,但却不足以成为帮助人类采取行动的模型。
对Yann Lecun而言,重要的是构建“世界模型”,而非“像素”。为此,Meta最新发布非生成式大模型V-JEPA,旨在通过观察影片,预测被隐藏或缺失部分,从而对世界有更深刻了解,最终打造出能够像人类一样学习的先进机器智慧(AMI)。
无论是Sora还是Gemini 1.5还是V-JEPA,最大的震撼是,人工智能迭代演进速度之快超乎想象。上月底中央政治局会议提出“加快发展新质生产力”、“加强原创性、颠覆性科技创新”,挑战与机会同在。
(点击用户名可以查看该用户所有评论) 查看全部评论:↑顺序 ↓倒序 |