香港脉搏www.etnetchina.com.cn
 理财/管理智城物语
打印logo打印本文章电邮logo字体:
分享:
谷歌最强AI模型来袭!Gemini建完整生态圈碾压ChatGPT
方展策
作者:方展策评论评论:点击率点击率:

发表时间: 2023-12-11 14:55:41

作者介绍

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

   OpenAI凭借ChatGPT跃居为生成式AI市场的领头羊,AI界老大哥Google当然不甘于落后,本月初发表号称最强的大型语言模型“Gemini”,不但在32项AI测试中有30项评分超越GPT-4,还可以同时辨识与理解文字、声音、图片与影片。Google更一口气推出3个不同版本模型,涵盖企业应用、消费者应用、以及智能手机3大层面,似乎想一举翻盘,夺回生成式AI的话语权。


Gemini多模态设计可理解手绘图画


   2023年5月举行的Google I/O开发者大会上,该公司发表了新一代大型语言模型“PaLM 2”,具备更强的逻辑推理、数学和编程能力,并支持逾100种语言,为Google聊天机械人Bard提供最强“大脑”,但仍不足以压倒ChatGPT与其背后的GPT-4模型。


   7个月后,Google在12月6日再发表另一组更强大的AI模型“Gemini”。它是原生设计成多模态(Multimodal)的模型,从一开始就接受不同模态信息(包括文字、图像、音频)的数据训练,故此能够同时理解和操作文字、图片、影片、程序代码等多元形式内容,并能够正确解答有关数学和物理的复杂问题。


在Google提供的示范影片中,测试人员拿出一个鸭子玩偶,将之挤压并发出响声,然后询问Gemini这个玩偶能否浮在水上。Gemini响应指,它能够发出声音,那么它一定可以浮起来。由此看来,Gemini可藉由声音和画面判断鸭子内藏空气,并理解含有空气的物体能够浮在水上的原理。(图片来源:翻摄Google官方影片)


测试人员拿着2张线条简单的手绘汽车图画,询问Gemini哪辆车会行驶得比较快,结果Gemini回答右方那辆会较快,因其外形较为符合空气动力学设计。(图片来源:翻摄Google官方影片)


测试人员以双手动作模拟蝴蝶,Gemini能够认出这是展翅中的蝴蝶,足证Gemini具有分辨人类手势意思的能力。(图片来源:翻摄Google官方影片)


Gemini分设3个版本针对不同场景


   为求灵活部署在不同应用场景,Gemini设有大中小3个版本:规模最大、功能最强的为“Gemini Ultra”,可以部署到大型数据中心和企业应用方案中,执行高度复杂任务,将于2024年初开放给企业使用。Google宣称,在32项学术基准检验中,Gemini Ultra有30项评分高过GPT-4;其中MMLU(Massive Multitask Language Understanding)测试更达到90%水平,成为首个得分超越人类专家的AI模型。


Gemini模型分为Ultra、Pro、Nano大中小三个版本,最小的Nano可以直接安装手机上。(图片来源:翻摄Google官方影片)


   “Gemini Pro”属中等规模的模型,为最灵活通用的版本,现已跟Bard整合,提供更高质的文案生成能力;自12月13日起,开发者可以透过Google Cloud Vertex AI或AI Studio上提供的Gemini API,把它导入到消费级应用软件中。


Gemini采用Google自行研制的TPU芯片进行数据训练,图中为由Cloud TPU v5p所组成的超级计算机。(图片来源:Google官方网志)


Gemini Nano可塞入手机脱机运作


   “Gemini Nano”则为规模最小的模型,可以塞进Android流动装置上,现已开放给开发者申请使用,创建各款生成式AI手机APP。Google Pixel 8 Pro手机已升级内建此模型,成为市场上第一款嵌入AI模型的智能手机。


   在Gemini Nano支持下,Pixel 8 Pro可以一键完成会议或访问录音内容的摘要,即使在脱机状况下仍能使用;启动Gboard智能回复功能后,AI可以根据收到的Whatsapp短讯,给予回复建议,为用户节省打字时间。


Google欲以通路优势压倒OpenAI


   综观以上布局,Google似乎不是要从技术层面压倒OpenAI,而是要抢占AI企业应用、AI消费者应用、以及AI手机应用3大市场板块,意图建立完整的Google AI生态圈,将ChatGPT排除在外。


   Bard聊天机械人于2023年2月面世至今,始终未能动摇ChatGPT的龙头地位,后者依然是全球用户首选的AI工具,让Google明白到继续拿Bard跟ChatGPT单挑,胜算着实不高,于是这次改为推出3个全新AI模型进驻不同通路,希望以本身完整的通路优势碾压ChatGPT。


   Google旗下企业和消费者云端应用Google Workspace,提供Gmail、Google Calendar、Google Drive、Google Docs、Google Sheets、Google Slides等多种协作和字处理工具,企业客户高达800万以上,全球用户数更超过30亿。至于采用《Android OS》的智能手机,全球也有15.7亿部。


OpenAI推GPT Store自建生态圈


   由此可见,Google手握极为广阔的发行通路,只要把Gemini导入Google Workspace和Android手机,短时间内即可触及数以亿计的用户;当庞大的用户群建立起来后,开发者就会蜂拥而上,争相利用Gemini创建各式各样的AI应用;当AI工具选择变得更多元化后,又会吸引更多用户加入,令用户群进一步壮大起来。如此一来,Gemini便有机会一举超越ChatGPT,成为市场上最多人使用的AI模型。


   当然,OpenAI亦深知自己欠缺通路优势,所以在2023年11月发表“GPT Store”计划,容许开发者利用GPT Builder创建针对特定用途的ChatGPT,然后放上GPT Store发售,藉此建立自家的AI生态圈。不过,原定11月底开张的GPT Store,因受到近期OpenAI的宫斗风波影响,推出时程将延后至2024年初。


   观乎Google已有现成通路可供Gemini作广泛渗透,OpenAI则要由零开始建立自家通路,开局上显然是前者稳占上风,但最终胜负还要看GPT Store开幕后的市场反应如何。


   《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

分享:
返回智城物语
上传图片
仅支持JPG、GIF、PNG图片文件,且文件小于5M
 
评论只代表会员个人观点,不代表经济通立场 
登录 后发表评论,立即 注册 加入会员。
 (点击用户名可以查看该用户所有评论)  只看作者评论  查看全部评论:↑顺序 ↓倒序
评论只代表会员个人观点,不代表经济通观点
登录 后回复评论,立即 注册 加入会员。
发表评论 查看全部评论: ↑顺序 ↓倒序
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
more on Column 
新  一个月内新增栏目