谷歌最强AI模型来袭！Gemini建完整生态圈碾压ChatGPT-智城物语-经济通中国站

您现在所在的位置：首页 > 香港脉搏 > 理财／管理 > 智城物语 > 谷歌最强AI模型来袭！Gemini建完整生态圈碾压ChatGPT

理财／管理智城物语

打印本文章

字体:小中大

谷歌最强AI模型来袭！Gemini建完整生态圈碾压ChatGPT

作者：方展策

评论：1

点击率：83446

发表时间: 2023-12-11 14:55:41

作者介绍

少年时，曾研习 Geographic Information System，可惜学无所成，侥幸毕业。成年后，误打误撞进入传媒圈子，先后在印刷、电子、网络媒体打滚，略有小成。中年后，修毕信息科技硕士，眼界渐扩，决意投身初创企业，窥探不同科技领域。近年，积极钻研数据分析与数码策略，又涉足 Location Intelligence 开发项目；有时还会抽空执教鞭，既可向他人分享所学，亦可鞭策自己保持终身学习。

OpenAI凭借ChatGPT跃居为生成式AI市场的领头羊，AI界老大哥Google当然不甘于落后，本月初发表号称最强的大型语言模型“Gemini”，不但在32项AI测试中有30项评分超越GPT-4，还可以同时辨识与理解文字、声音、图片与影片。Google更一口气推出3个不同版本模型，涵盖企业应用、消费者应用、以及智能手机3大层面，似乎想一举翻盘，夺回生成式AI的话语权。

Gemini多模态设计可理解手绘图画

2023年5月举行的Google I/O开发者大会上，该公司发表了新一代大型语言模型“PaLM 2”，具备更强的逻辑推理、数学和编程能力，并支持逾100种语言，为Google聊天机械人Bard提供最强“大脑”，但仍不足以压倒ChatGPT与其背后的GPT-4模型。

7个月后，Google在12月6日再发表另一组更强大的AI模型“Gemini”。它是原生设计成多模态（Multimodal）的模型，从一开始就接受不同模态信息（包括文字、图像、音频）的数据训练，故此能够同时理解和操作文字、图片、影片、程序代码等多元形式内容，并能够正确解答有关数学和物理的复杂问题。

在Google提供的示范影片中，测试人员拿出一个鸭子玩偶，将之挤压并发出响声，然后询问Gemini这个玩偶能否浮在水上。Gemini响应指，它能够发出声音，那么它一定可以浮起来。由此看来，Gemini可藉由声音和画面判断鸭子内藏空气，并理解含有空气的物体能够浮在水上的原理。（图片来源：翻摄Google官方影片）

测试人员拿着２张线条简单的手绘汽车图画，询问Gemini哪辆车会行驶得比较快，结果Gemini回答右方那辆会较快，因其外形较为符合空气动力学设计。（图片来源：翻摄Google官方影片）

测试人员以双手动作模拟蝴蝶，Gemini能够认出这是展翅中的蝴蝶，足证Gemini具有分辨人类手势意思的能力。（图片来源：翻摄Google官方影片）

Gemini分设3个版本针对不同场景

为求灵活部署在不同应用场景，Gemini设有大中小3个版本：规模最大、功能最强的为“Gemini Ultra”，可以部署到大型数据中心和企业应用方案中，执行高度复杂任务，将于2024年初开放给企业使用。Google宣称，在32项学术基准检验中，Gemini Ultra有30项评分高过GPT-4；其中MMLU（Massive Multitask Language Understanding）测试更达到90%水平，成为首个得分超越人类专家的AI模型。

Gemini模型分为Ultra、Pro、Nano大中小三个版本，最小的Nano可以直接安装手机上。（图片来源：翻摄Google官方影片）

“Gemini Pro”属中等规模的模型，为最灵活通用的版本，现已跟Bard整合，提供更高质的文案生成能力；自12月13日起，开发者可以透过Google Cloud Vertex AI或AI Studio上提供的Gemini API，把它导入到消费级应用软件中。

Gemini采用Google自行研制的TPU芯片进行数据训练，图中为由Cloud TPU v5p所组成的超级计算机。（图片来源：Google官方网志）

Gemini Nano可塞入手机脱机运作

“Gemini Nano”则为规模最小的模型，可以塞进Android流动装置上，现已开放给开发者申请使用，创建各款生成式AI手机APP。Google Pixel 8 Pro手机已升级内建此模型，成为市场上第一款嵌入AI模型的智能手机。

在Gemini Nano支持下，Pixel 8 Pro可以一键完成会议或访问录音内容的摘要，即使在脱机状况下仍能使用；启动Gboard智能回复功能后，AI可以根据收到的Whatsapp短讯，给予回复建议，为用户节省打字时间。

Google欲以通路优势压倒OpenAI

综观以上布局，Google似乎不是要从技术层面压倒OpenAI，而是要抢占AI企业应用、AI消费者应用、以及AI手机应用3大市场板块，意图建立完整的Google AI生态圈，将ChatGPT排除在外。

Bard聊天机械人于2023年2月面世至今，始终未能动摇ChatGPT的龙头地位，后者依然是全球用户首选的AI工具，让Google明白到继续拿Bard跟ChatGPT单挑，胜算着实不高，于是这次改为推出3个全新AI模型进驻不同通路，希望以本身完整的通路优势碾压ChatGPT。

Google旗下企业和消费者云端应用Google Workspace，提供Gmail、Google Calendar、Google Drive、Google Docs、Google Sheets、Google Slides等多种协作和字处理工具，企业客户高达800万以上，全球用户数更超过30亿。至于采用《Android OS》的智能手机，全球也有15.7亿部。

OpenAI推GPT Store自建生态圈

由此可见，Google手握极为广阔的发行通路，只要把Gemini导入Google Workspace和Android手机，短时间内即可触及数以亿计的用户；当庞大的用户群建立起来后，开发者就会蜂拥而上，争相利用Gemini创建各式各样的AI应用；当AI工具选择变得更多元化后，又会吸引更多用户加入，令用户群进一步壮大起来。如此一来，Gemini便有机会一举超越ChatGPT，成为市场上最多人使用的AI模型。

当然，OpenAI亦深知自己欠缺通路优势，所以在2023年11月发表“GPT Store”计划，容许开发者利用GPT Builder创建针对特定用途的ChatGPT，然后放上GPT Store发售，藉此建立自家的AI生态圈。不过，原定11月底开张的GPT Store，因受到近期OpenAI的宫斗风波影响，推出时程将延后至2024年初。

观乎Google已有现成通路可供Gemini作广泛渗透，OpenAI则要由零开始建立自家通路，开局上显然是前者稳占上风，但最终胜负还要看GPT Store开幕后的市场反应如何。

《经济通》所刊的署名及／或不署名文章，相关内容属作者个人意见，并不代表《经济通》立场，《经济通》所扮演的角色是提供一个自由言论平台。