香港脉搏www.etnetchina.com.cn
 理财/管理智城物语
打印logo打印本文章电邮logo字体:
分享:
代理式AI崛起!Gemini 2.0变智能助理,你准备好了吗?
方展策
作者:方展策评论评论:点击率点击率:

发表时间: 2025-01-06 10:59:51

作者介绍

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

   2024年底,Google发表Gemini 2.0模型不久,OpenAI也迅速推出次世代模型o3,两者均懂得自我思考如何解决复杂难题,并能代替人类执行解难方案。这不但象征着新一轮AI大战即将展开,更预告了“代理式AI”(Agentic AI)的时代快将降临。这新类型的AI模型跟一般大型语言模型有什么不同?究竟它的功能有多厉害?又可能会造成哪些潜在危害?


代理式AI能自我学习和改进


   有留意生成式AI发展的读者,可能都会听过“AI代理”(AI Agent)——意指在无需人类介入的情况下,能够自主做出决策、完成行动的AI工具。那么,代理式AI又是什么?这是指可以利用情境感知、推理和学习功能,针对不断变化的条件做出决策的AI系统,Tesla电动车的自驾系统正是最明显例子,而在背后驱动AI代理运作的模型亦属于Agentic AI。


   代理式AI可以先从环境中搜集信息,跟着运用推理来评估选项、规划最佳行动方案,并自主执行任务。随后,它会监察执行结果,务求从反馈中学习,以改进日后表现。透过感知、规划、行动、学习的循环,它可以在最低程度的人为监督下处理新问题、应对新挑战,成为人类的智能助手。


Gemini 2.0具备多模态能力


   2024年12月11日,Google发表新一代AI模型“Gemini 2.0”,将Gemini 2.0 Flash实验版开放给所有Gemini用户,并释出3款AI代理:Project Astra、Project Mariner、以及Jules,标志着代理式AI技术的重大进展。


Google表示,Gemini 2.0是旗下功能最强大的模型,不仅坐拥多模态处理能力,还可以直接调用各式Google工具来执行任务,让他们能够建构全新AI代理,更靠近通用型助理的愿景。(图片来源:Google官方网志)


   Gemini 2.0具备多模态(Multimodality)处理能力,支援文字、图片、音频、视讯等多种模态输入与输出,能在不同数据类型间无缝切换并进行整合。譬如说,上传一幅纸箱的图片,纸箱侧面印有“新鲜水果”的文字,接着输入提示词:“绘制一幅俯瞰纸箱内容物的图片”,模型能够阅读和理解图片中的文字,然后进行推理并生成作品。


Astra提升跨语言交流便利性


   为让网民体验AI代理,Google推出以Gemini 2.0打造的AI助理雏型Project Astra。它支援多种语言,能够跟用户进行自然流畅的对话,甚至能够处理混合语言的输入,还可以理解地方口音和不常见的词汇。再者,它拥有强大的记忆功能,可以记住长达10分钟的内容,并且理解对话的上下文,确保回应的相关性和精确性。


Astra可以透过Google Lens“看到”街上的装置艺术品,跟着利用Google Maps得知艺术品的位置,然后使用Google Search找寻相关说明信息,为用户讲解其背后含义。(图片来源:翻摄Google官方YouTube影片)


   Astra能够实时调用Google Search、Maps和Lens等工具,辅助用户完成日常任务,例如安排日程、设定提醒、提供信息查询等,提升生活效率;它又可以扮演语言导师的角色,用户可跟它进行外语练习,改进外语能力。


Mariner助用户完成网上任务


   Project Mariner是一个可以在网页浏览器内协助用户完成网上任务的AI助手,将以Google Chrome扩充插件的形式推出。它可以阅读网页内容,并提取重要信息,再以易于理解的方式呈现给用户;更厉害的是,它可以替用户填写网页上的表单、搜寻航班信息、甚至购买家居用品,让键盘与双手减少介入操作,重新定义人们使用互联网的方式。


Google试算表上显示了几家公司的名字,用户可在右侧栏的Project Mariner视窗中,键入“寻找这些公司的官网及联络电邮”,Mariner随即自行使用Google Search寻找信息,并浏览相关官网,再将整理好的信息展示给用户看。(图片来源:翻摄Google官方YouTube影片)


   Google示范了一个Mariner的应用例子:透过Chrome打开Google试算表文件,内里只有几家公司的名称。用户在Mariner视窗中输入提示词:“寻找这些公司的官网及联络电邮”,然后Mariner立即上网搜寻资料,并将操作流程展示给用户看:可以看到Mariner游走于Google Search和不同公司官网,逐一浏览网页内容,约一分钟后整理好信息,再向用户提供答案。如此一来,虽然回应时间慢了一点,但把人为监督加入流程,却提高了答案的可信性。


Jules帮助开发者生成程序码


   Jules则是一个可以协助开发者的编程代理,能够整合到GitHub工作流程。它既可以根据上下文提供代码建议,甚至直接生成所需程序码,又可以检测程序码中的错误,并提供修复建议,以提升编程效率,缩短开发周期。


   据悉,现时已有零售业者采用多模态AI代理来优化客服中心运作:当顾客致电客服查询,语音经转录为文字后,再由AI进行分析问题并生成答案,然后输出语音回复。此外,金融业者也可以使用AI代理,分析文字、音频、图像等资料,并串连股票查询工具,再结合财务数据与市场情绪分析,生成更精准的投资策略报告。


依赖AI让人失去批判思考能力


   国际市调机构Gartner评估,2024年企业应用软件中的AI代理使用率不足1%,但预测到2028年将大幅增长至30%,并能取代15%的日常工作决策流程。这意味着代理式AI技术将快速成为市场不可或缺的一部分。


   然而,AI代理普及后,可能会带来一些危害。当人们发现自己难以克服的复杂任务,AI代理却可以轻松完成,因而产生极大的挫折感,觉得自己变得愈来愈无用,于是渐渐将所有事情交给AI代理去办,以致过度依赖AI,让人们失去批判思考能力。


媒体网站或丧失网上广告收入


   此外,当人们透过AI代理搜集资料,只阅读由AI生成的摘要内容,而不再直接点阅网站,或会引致媒体网站丧失庞大的网上广告收入。《纽约邮报》指出,Google新推的AI搜寻引擎功能“AI Overviews”,可能每年为网上出版商带来逾20亿美元(约156亿港元)的经济损失。


   无论如何,Google与OpenAI已争相推出代理式AI,而微软(Microsoft)、亚马逊(Amazon)等科技巨头也开始投入大量资源研发相关技术,相信AI产业将加速迈向自主决策的新时代,对人类社会和经济结构产生深远影响。


   《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

分享:
返回智城物语
上传图片
仅支持JPG、GIF、PNG图片文件,且文件小于5M
 
评论只代表会员个人观点,不代表经济通立场 
登录 后发表评论,立即 注册 加入会员。
 (点击用户名可以查看该用户所有评论)  只看作者评论  查看全部评论:↑顺序 ↓倒序
评论只代表会员个人观点,不代表经济通观点
登录 后回复评论,立即 注册 加入会员。
发表评论 查看全部评论: ↑顺序 ↓倒序
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
more on Column 
新  一个月内新增栏目