loading...
发表时间: 2023-12-11 14:55:41
少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。
OpenAI凭借ChatGPT跃居为生成式AI市场的领头羊,AI界老大哥Google当然不甘于落后,本月初发表号称最强的大型语言模型“Gemini”,不但在32项AI测试中有30项评分超越GPT-4,还可以同时辨识与理解文字、声音、图片与影片。Google更一口气推出3个不同版本模型,涵盖企业应用、消费者应用、以及智能手机3大层面,似乎想一举翻盘,夺回生成式AI的话语权。
Gemini多模态设计可理解手绘图画
2023年5月举行的Google I/O开发者大会上,该公司发表了新一代大型语言模型“PaLM 2”,具备更强的逻辑推理、数学和编程能力,并支持逾100种语言,为Google聊天机械人Bard提供最强“大脑”,但仍不足以压倒ChatGPT与其背后的GPT-4模型。
7个月后,Google在12月6日再发表另一组更强大的AI模型“Gemini”。它是原生设计成多模态(Multimodal)的模型,从一开始就接受不同模态信息(包括文字、图像、音频)的数据训练,故此能够同时理解和操作文字、图片、影片、程序代码等多元形式内容,并能够正确解答有关数学和物理的复杂问题。
在Google提供的示范影片中,测试人员拿出一个鸭子玩偶,将之挤压并发出响声,然后询问Gemini这个玩偶能否浮在水上。Gemini响应指,它能够发出声音,那么它一定可以浮起来。由此看来,Gemini可藉由声音和画面判断鸭子内藏空气,并理解含有空气的物体能够浮在水上的原理。(图片来源:翻摄Google官方影片)
测试人员拿着2张线条简单的手绘汽车图画,询问Gemini哪辆车会行驶得比较快,结果Gemini回答右方那辆会较快,因其外形较为符合空气动力学设计。(图片来源:翻摄Google官方影片)
测试人员以双手动作模拟蝴蝶,Gemini能够认出这是展翅中的蝴蝶,足证Gemini具有分辨人类手势意思的能力。(图片来源:翻摄Google官方影片)
Gemini分设3个版本针对不同场景
为求灵活部署在不同应用场景,Gemini设有大中小3个版本:规模最大、功能最强的为“Gemini Ultra”,可以部署到大型数据中心和企业应用方案中,执行高度复杂任务,将于2024年初开放给企业使用。Google宣称,在32项学术基准检验中,Gemini Ultra有30项评分高过GPT-4;其中MMLU(Massive Multitask Language Understanding)测试更达到90%水平,成为首个得分超越人类专家的AI模型。
Gemini模型分为Ultra、Pro、Nano大中小三个版本,最小的Nano可以直接安装手机上。(图片来源:翻摄Google官方影片)
“Gemini Pro”属中等规模的模型,为最灵活通用的版本,现已跟Bard整合,提供更高质的文案生成能力;自12月13日起,开发者可以透过Google Cloud Vertex AI或AI Studio上提供的Gemini API,把它导入到消费级应用软件中。
Gemini采用Google自行研制的TPU芯片进行数据训练,图中为由Cloud TPU v5p所组成的超级计算机。(图片来源:Google官方网志)
Gemini Nano可塞入手机脱机运作
“Gemini Nano”则为规模最小的模型,可以塞进Android流动装置上,现已开放给开发者申请使用,创建各款生成式AI手机APP。Google Pixel 8 Pro手机已升级内建此模型,成为市场上第一款嵌入AI模型的智能手机。
在Gemini Nano支持下,Pixel 8 Pro可以一键完成会议或访问录音内容的摘要,即使在脱机状况下仍能使用;启动Gboard智能回复功能后,AI可以根据收到的Whatsapp短讯,给予回复建议,为用户节省打字时间。
Google欲以通路优势压倒OpenAI
综观以上布局,Google似乎不是要从技术层面压倒OpenAI,而是要抢占AI企业应用、AI消费者应用、以及AI手机应用3大市场板块,意图建立完整的Google AI生态圈,将ChatGPT排除在外。
Bard聊天机械人于2023年2月面世至今,始终未能动摇ChatGPT的龙头地位,后者依然是全球用户首选的AI工具,让Google明白到继续拿Bard跟ChatGPT单挑,胜算着实不高,于是这次改为推出3个全新AI模型进驻不同通路,希望以本身完整的通路优势碾压ChatGPT。
Google旗下企业和消费者云端应用Google Workspace,提供Gmail、Google Calendar、Google Drive、Google Docs、Google Sheets、Google Slides等多种协作和字处理工具,企业客户高达800万以上,全球用户数更超过30亿。至于采用《Android OS》的智能手机,全球也有15.7亿部。
OpenAI推GPT Store自建生态圈
由此可见,Google手握极为广阔的发行通路,只要把Gemini导入Google Workspace和Android手机,短时间内即可触及数以亿计的用户;当庞大的用户群建立起来后,开发者就会蜂拥而上,争相利用Gemini创建各式各样的AI应用;当AI工具选择变得更多元化后,又会吸引更多用户加入,令用户群进一步壮大起来。如此一来,Gemini便有机会一举超越ChatGPT,成为市场上最多人使用的AI模型。
当然,OpenAI亦深知自己欠缺通路优势,所以在2023年11月发表“GPT Store”计划,容许开发者利用GPT Builder创建针对特定用途的ChatGPT,然后放上GPT Store发售,藉此建立自家的AI生态圈。不过,原定11月底开张的GPT Store,因受到近期OpenAI的宫斗风波影响,推出时程将延后至2024年初。
观乎Google已有现成通路可供Gemini作广泛渗透,OpenAI则要由零开始建立自家通路,开局上显然是前者稳占上风,但最终胜负还要看GPT Store开幕后的市场反应如何。
《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。