loading...
发表时间: 2023-06-19 16:01:54
少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。
生成式AI的发展百花齐放,各式各样的AI工具如雨后春笋般涌现,但用于AI运算的芯片,逾80%市占率却牢牢握在英伟达(NVIDIA)一家公司手上。为求打破一家独大的局面,超微(AMD)本月发布MI 300系列AI加速器,秀出超强劲硬件规格,惟公司股价不升反跌,而NVIDIA股价却创历史新高,形成此消彼长之势。尽管AMD阵前失利,但外界仍看好其AI芯片前途,箇中原因为何?昔日半导体龙头Intel亦已积极对AI芯片展开部署,究竟它是否有实力与AMD、NVIDIA一争天下呢?
AMD MI 300X支持庞大存储器
2023年6月13日,“AMD资料中心与人工智能技术发表会”在美国旧金山正式举行,执行长苏姿丰现场发表旗下首款数据中心级AI加速器——Instinct MI 300系列产品线的最新细节。所谓“加速器”(Accelerated Processing Unit),意指将中央处理器(CPU)和图像处理器(GPU)整合在一起的高阶芯片。
在AMD发表会上,苏姿丰指出,高阶型号加速器MI300X所支持的存储器容量,比NVIDIA任何AI芯片都要多。(图片来源:翻摄AMD官方YouTube影片)
每颗Instinct MI 300X封装了1,530亿个晶体管,并由12颗5奈米核心制程的小型芯片所组成。它采用新一代AMD CDNA 3加速器架构,支持192GB的HBM3存储器,能够为大型语言模型逻辑推论(Inference)与生成式AI工作负载,提供足够的运算力和存储器效率。
苏姿丰表示,AMD会推出一款内建8颗MI300X的超级计算机,足以跟NVIDIA同类产品一较高下。(图片来源:AMD官网)
相比起对手产品,AMD MI 300X的HBM(High Bandwidth Memory)暂存存储器是NVIDIA H100的2.4倍,HBM传输频宽则是H100的1.6倍,故此MI 300X可执行比H100更大的语言模型;只需使用一个MI300X加速器,便可以处理400亿个参数的模型运算。
MI 300X能够支持更庞大的存储器容量,让中小型公司训练AI模型时,可以一口气地执行完毕,无需分多次完成。倘若改用NVIDIA H100的话,数据训练必需在某个断点切割,再分阶段推进,所需的时间和成本将会更多。
苏姿丰表示,未来5年内,大家将会在AMD每项产品中看到AI,它将成为公司最大的增长动力。(图片来源:翻摄AMD官方YouTube影片)
没透露新芯片有哪些客户愿采购
苏姿丰强调,暂存存储器容量愈大,芯片能应付的模型规模便愈大,更强调存储器多寡是衡量AI芯片效能的重要指标。纵然NVIDIA H100的运算力依然在AMD MI 300X之上,但整体购买成本却是后者占优,对资金有限的初创企业来说,可能更具吸引力。由此可见,H100与MI 300X与存在着明显的市场区隔,但这样的产品差异性能否讨得投资者欢心,仍有待观望。
然而,最令投资者失望的是,AMD没透露有哪些客户计划购入MI 300系列产品。以往,AMD发表新一代芯片时,经常会提及重要的客户有哪些,惟这次不但未有说明哪家公司决定采用MI 300,甚至连其定价、以对公司营收的贡献度也只字不提。后来消息传出,亚马逊旗下云端运算供应商Amazon Web Services(AWS)正考虑采购MI 300X,惟至今仍未做出决定。
这次发布会上,Facebook母公司Meta也有帮忙站台,并宣布将会采购AMD芯片,但购入的并非MI 300X,而是代号为“Bergamo”的第四代EPYC服务器级CPU。市调机构TIRIAS Research首席分析师凯文·克鲁威尔(Kevin Krewell)指出,没有大客户表态采用MI300,可能会让华尔街失望,因为他们希望在某些AI系统的设计中,已有AMD产品取代 NVIDIA芯片。
AMD ROCm挑战NVIDIA CUDA
除新一代芯片外,AMD也发布了最新版本的开发工具软件《ROCm》(Radeon Open Compute platforM)。AMD更新《ROCm》,正是要与NVIDIA的《CUDA》一较高下;《CUDA》就像Apple的《iOS》作业系统,已形成一个庞大的软件生态圈,成为英伟达AI芯片的护城河。
《ROCm》与《CUDA》的最大差别在于开放性,前者能够在各种不同的硬件平台上运行,兼且程序码完全免费开放;后者则是只限在NVIDIA芯片上执行。Meta副总裁钦塔拉(Soumith Chintala)在AMD发表会上表示,已跟AMD紧密合作,开发更容易使用的免费工具软件,帮助AI开发人员摆脱“某家独大供应商”的芯片,转用其他公司产品,例如AMD的芯片。
曾协助开发AI开源软件《PyTorch》的Meta副总裁Chintala表明,已跟AMD合作,帮助AI开发者从“某家独大供应商”的芯片转换到其他公司产品。外界相信,他所指的“独大供应商”正是NVIDIA。(图片来源:翻摄AMD官方YouTube影片)
有分析指出,像Meta般拥有优良技术的大企业,当然可以从AMD芯片中获得良好的运算效能,但却难以保证其他技术没这么好的小公司也有能力这样做。科技分析及顾问公司Moor Insights & Strategy分析师塞格(Anshel Sag)直言,即使AMD在硬件表现上具备竞争力,惟人们却不相信其软件方案能够媲美NVIDIA。
超微收购赛灵思强化AI研发实力
其实,市场一直有讨论AMD与NVIDIA之间AI技术发展的差距。有业者指出,考虑到市场接受程度与平台发展成熟度,AMD可能还要再隔一世代,才有望追上NVIDIA的技术水平。但也有不少人认为,AMD既深耕AI领域已久,又愿意砸大钱投资研发,故此仍有机会从后追上。
AMD对AI领域的最重要投资,是2022年以500亿美元(约3,900亿港元)收购芯片设计商赛灵思(Xilinx)。赛灵思发明的可编程逻辑芯片(Field Programmable Gate Array,FPGA),适用于AI运算,尤其是逻辑推论表现更优于其他芯片类型;而且赛灵思的研发人员也被AMD收麾下,成为公司AI团队的核心。2023年5月,AMD更将内部多个AI团队重组合并,由赛灵思前执行长Victor Peng领导新团队,对AI软硬件各方面进行研究。
AMD并购赛灵思后,取得FPGA芯片的技术专利,有助强化本身的AI芯片技术。(图片来源:AMD官网)
赛灵思并入AMD后,前执行长Victor Peng获委任为AMD总裁,负责制定AI策略和发展路线图。(图片来源:翻摄AMD官方YouTube影片)
当AMD与NVIDIA在AI领域斗得如火如荼之际,昔日半导体霸主英特尔(Intel)亦蓄势待发,意图加入战局。2023年1月,针对AI运算的第四代服务器级CPU“Xeon”正式面世。它不但具备强大的推论能力,更首度加入AI模型训练功能,适用于针对特定场景、数据量不大的模型进行训练,例如客户关系管理系统的运行,可能仅需一天的训练时间。
Intel Server GPU多番推迟上市
2023年5月,Intel发表下一代服务器级图像处理器(Server GPU)“Falcon Shores”,支持288GB的HBM3存储器与8位元浮点运算,以AMD MI300、NVIDIA Grace Hopper为假想敌。同时,英特尔亦宣布,由“Ponte Vecchio”所组建的Aurora超级计算机,即将交付给美国阿贡国家实验室(Argonne National Laboratory);这颗GPU早于2021年发表,但推出日期却被多番推迟,官方宣称其性能比NVIDIA H100更为优胜。
Intel最初将Falcon Shores定位为“XPU”,采用“CPU + GPU”架构,但后来却忽然宣布,将Falcon Shores定位调整为GPU,让产业分析师感到震惊。Intel强调,并未放弃XPU项目,只是将计划向后顺延。(图片来源: Intel官网)
事实上,目前市场上最热卖的AI芯片正是NVIDIA H100,有服务器制造商表示,要等超过6个月才能拿到这款芯片。AMD MI 300则已开始向客户送样,预计2023年第四季正式出货,应可满足部分市场需求。至于Intel Ponte Vecchio,之前一直未能量产上市,以致在Server GPU领域的市占率微乎其微。
NVIDIA H100与A100被市场视为发展AI技术的最重要资产,全球各科技大厂均争相抢购,致使产品严重缺货;科技狂人马斯克甚至用“比毒品还难取得”来形容的市况。(图片来源:NVIDIA官网)
不过Intel预期,接续Ponte Vecchio推出的Falcon Shores,有望打开AI芯片市场。相比之下,AMD MI300与NVIDIA Grace Hopper均是“CPU + GPU”架构的超级芯片,而Falcon Shores原本亦是采用类似架构,但早前Intel却突然宣布改弦易辙,转向纯GPU设计,并延迟到2025年上市。
AMD与NVIDIA各有市场区隔
估计在2025年前,无论是AMD MI300、抑或NVIDIA H100与Grace Hopper,后继产品都已推出市场,让Falcon Shores还没上阵就变成落伍产品了。计算机信息网站Tom's Hardware副总编辑 Paul Alcorn认为,这样可能让Falcon Shores难以跟MI300 与Grace Hopper竞争;加上Intel因此而错过了一个重要的架构转折点,更使其AI芯片长期陷于竞争劣势。
一直到2025年的Falcon Shores上市前,Ponte Vechhio将会是Intel在高效能运算市场的主力GPU产品。(图片来源: Intel官网)
国际市调机构Jon Peddie Research发表的2023年第一季GPU市场调查显示,NVIDIA以83.7%市占率雄霸市场,AMD则为12%,而Intel仅占少得可怜的4%。由是观之,英特尔在未来几年都难以打破此市场格局。
根据瑞银(UBS)预测,在生成式AI带动下,1至2年内GPU市场规模将增加到100亿至150亿美元(约780至1,170亿港元)。市调机构Bernstein分析师斯泰西·拉斯根(Stacy Rasgon)认为,目前投资者关注AMD,只是想要平价版的NVIDIA芯片,或许AI芯片市场大到AMD根本不需要有竞争力。
换句话说,未来AI芯片市场将会形成两个区隔:财雄势大的大企业以高价抢购NVIDIA芯片,本钱不足的小公司或开发者则会采购成本较低的AMD芯片。至于Intel,在未来AI芯片市场上能否有立足之地,就难以预料了。
《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。
(点击用户名可以查看该用户所有评论) 只看作者评论 查看全部评论:↑顺序 ↓倒序 |