loading...
发表时间: 2025-01-06 10:59:51
少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。
2024年底,Google发表Gemini 2.0模型不久,OpenAI也迅速推出次世代模型o3,两者均懂得自我思考如何解决复杂难题,并能代替人类执行解难方案。这不但象征着新一轮AI大战即将展开,更预告了“代理式AI”(Agentic AI)的时代快将降临。这新类型的AI模型跟一般大型语言模型有什么不同?究竟它的功能有多厉害?又可能会造成哪些潜在危害?
代理式AI能自我学习和改进
有留意生成式AI发展的读者,可能都会听过“AI代理”(AI Agent)——意指在无需人类介入的情况下,能够自主做出决策、完成行动的AI工具。那么,代理式AI又是什么?这是指可以利用情境感知、推理和学习功能,针对不断变化的条件做出决策的AI系统,Tesla电动车的自驾系统正是最明显例子,而在背后驱动AI代理运作的模型亦属于Agentic AI。
代理式AI可以先从环境中搜集信息,跟着运用推理来评估选项、规划最佳行动方案,并自主执行任务。随后,它会监察执行结果,务求从反馈中学习,以改进日后表现。透过感知、规划、行动、学习的循环,它可以在最低程度的人为监督下处理新问题、应对新挑战,成为人类的智能助手。
Gemini 2.0具备多模态能力
2024年12月11日,Google发表新一代AI模型“Gemini 2.0”,将Gemini 2.0 Flash实验版开放给所有Gemini用户,并释出3款AI代理:Project Astra、Project Mariner、以及Jules,标志着代理式AI技术的重大进展。
Google表示,Gemini 2.0是旗下功能最强大的模型,不仅坐拥多模态处理能力,还可以直接调用各式Google工具来执行任务,让他们能够建构全新AI代理,更靠近通用型助理的愿景。(图片来源:Google官方网志)
Gemini 2.0具备多模态(Multimodality)处理能力,支援文字、图片、音频、视讯等多种模态输入与输出,能在不同数据类型间无缝切换并进行整合。譬如说,上传一幅纸箱的图片,纸箱侧面印有“新鲜水果”的文字,接着输入提示词:“绘制一幅俯瞰纸箱内容物的图片”,模型能够阅读和理解图片中的文字,然后进行推理并生成作品。
Astra提升跨语言交流便利性
为让网民体验AI代理,Google推出以Gemini 2.0打造的AI助理雏型Project Astra。它支援多种语言,能够跟用户进行自然流畅的对话,甚至能够处理混合语言的输入,还可以理解地方口音和不常见的词汇。再者,它拥有强大的记忆功能,可以记住长达10分钟的内容,并且理解对话的上下文,确保回应的相关性和精确性。
Astra可以透过Google Lens“看到”街上的装置艺术品,跟着利用Google Maps得知艺术品的位置,然后使用Google Search找寻相关说明信息,为用户讲解其背后含义。(图片来源:翻摄Google官方YouTube影片)
Astra能够实时调用Google Search、Maps和Lens等工具,辅助用户完成日常任务,例如安排日程、设定提醒、提供信息查询等,提升生活效率;它又可以扮演语言导师的角色,用户可跟它进行外语练习,改进外语能力。
Mariner助用户完成网上任务
Project Mariner是一个可以在网页浏览器内协助用户完成网上任务的AI助手,将以Google Chrome扩充插件的形式推出。它可以阅读网页内容,并提取重要信息,再以易于理解的方式呈现给用户;更厉害的是,它可以替用户填写网页上的表单、搜寻航班信息、甚至购买家居用品,让键盘与双手减少介入操作,重新定义人们使用互联网的方式。
Google试算表上显示了几家公司的名字,用户可在右侧栏的Project Mariner视窗中,键入“寻找这些公司的官网及联络电邮”,Mariner随即自行使用Google Search寻找信息,并浏览相关官网,再将整理好的信息展示给用户看。(图片来源:翻摄Google官方YouTube影片)
Google示范了一个Mariner的应用例子:透过Chrome打开Google试算表文件,内里只有几家公司的名称。用户在Mariner视窗中输入提示词:“寻找这些公司的官网及联络电邮”,然后Mariner立即上网搜寻资料,并将操作流程展示给用户看:可以看到Mariner游走于Google Search和不同公司官网,逐一浏览网页内容,约一分钟后整理好信息,再向用户提供答案。如此一来,虽然回应时间慢了一点,但把人为监督加入流程,却提高了答案的可信性。
Jules帮助开发者生成程序码
Jules则是一个可以协助开发者的编程代理,能够整合到GitHub工作流程。它既可以根据上下文提供代码建议,甚至直接生成所需程序码,又可以检测程序码中的错误,并提供修复建议,以提升编程效率,缩短开发周期。
据悉,现时已有零售业者采用多模态AI代理来优化客服中心运作:当顾客致电客服查询,语音经转录为文字后,再由AI进行分析问题并生成答案,然后输出语音回复。此外,金融业者也可以使用AI代理,分析文字、音频、图像等资料,并串连股票查询工具,再结合财务数据与市场情绪分析,生成更精准的投资策略报告。
依赖AI让人失去批判思考能力
国际市调机构Gartner评估,2024年企业应用软件中的AI代理使用率不足1%,但预测到2028年将大幅增长至30%,并能取代15%的日常工作决策流程。这意味着代理式AI技术将快速成为市场不可或缺的一部分。
然而,AI代理普及后,可能会带来一些危害。当人们发现自己难以克服的复杂任务,AI代理却可以轻松完成,因而产生极大的挫折感,觉得自己变得愈来愈无用,于是渐渐将所有事情交给AI代理去办,以致过度依赖AI,让人们失去批判思考能力。
媒体网站或丧失网上广告收入
此外,当人们透过AI代理搜集资料,只阅读由AI生成的摘要内容,而不再直接点阅网站,或会引致媒体网站丧失庞大的网上广告收入。《纽约邮报》指出,Google新推的AI搜寻引擎功能“AI Overviews”,可能每年为网上出版商带来逾20亿美元(约156亿港元)的经济损失。
无论如何,Google与OpenAI已争相推出代理式AI,而微软(Microsoft)、亚马逊(Amazon)等科技巨头也开始投入大量资源研发相关技术,相信AI产业将加速迈向自主决策的新时代,对人类社会和经济结构产生深远影响。
《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。