香港脉搏www.etnetchina.com.cn
 理财/管理智城物语
打印logo打印本文章电邮logo字体:
分享:
DeepSeek一夜爆红,极低训练成本真相大揭秘!
方展策
作者:方展策评论评论:点击率点击率:

发表时间: 2025-02-11 11:19:47

作者介绍

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

   农历新年期间,美国硅谷AI精英有如热锅上的蚂蚁,只因中国初创公司深度求索(DeepSeek)推出旗下首个思考型AI模型“DeepSeek-R1”,其效能直逼OpenAI o1,但外界估计其训练成本只有600万美元左右,不到Meta、OpenAI的十分之一,引发美国高科技股一夕暴跌。但后来逐渐发现,DeepSeek的极低训练成本“神话”却是疑点重重,其真正成本可能远比外界想象为高。究竟DeepSeek-R1是AI技术发展的新里程碑,还是精心策划的骗局?


DeepSeek-V3训练成本比对手低


   2024年12月26日,深度求索推出新版开源模型“DeepSeek-V3”,开发者可免费下载其原始程序码,任意进行研究和修改。在多项基准测试中,它比起同属开源、由Meta公司开发的Llama 3.1-405B,表现更为优秀。


   深度求索在DeepSeek-V3的论文中提及,因受到美国出口管制,只能使用英伟达(NVIDIA)为中国市场特供的低配版AI芯片H800 GPU来训练模型,其间只用了2,048颗H800,训练时长为278.8万GPU小时,训练成本为557.6万美元(约4,350万港元)。


   至于Llama 3.1-405B,训练时长为3,080万GPU小时,成本足足是DeepSeek-V3的11倍。若说到最多人使用的OpenAI GPT-4o,则使用了25,000颗高阶GPU,训练成本更是高达1亿美元(约7.8亿港元)。这意味着中国AI公司已找到高效而低成本的模型训练方式,即使手头上没有大量高阶AI芯片,同样可以建构先进的AI模型,惟当时未有引起太大关注。


DeepSeek-R1达到推理思考境界


   真正令DeepSeek一夜爆红的是,2025年1月20日释出的另一个全新模型“DeepSeek-R1”。它与OpenAI o1同属思考型AI模型,在回答用户提问前,会花更多时间进行推理思考,藉由分步骤剖析问题,识别和修正当中错误,进而提供“更深思熟虑”的答案。当深度求索竟然可以研制出思考型模型,硅谷AI精英就开始坐不住了。


   大家要知道,推理思考是AI从助理(Assistant)转型为代理(Agent),再迈进通用人工智能(Artificial General Intelligence)圣殿的关键能力,也是OpenAI、Google、Anthropic等AI先驱的终极赛道。现时这条赛道上突然冒出一家名不经传的中国AI初创,而且能以极低成本方式进行模型训练,当然震惊了整个AI业界。同时,这亦引发外界质疑美国AI公司的运作效率是否较差,或者烧钱是否过多。


   事实上,DeepSeek-R1论文中没有披露其训练成本等细节。外界只是以DeepSeek-V3论文所述的557.6万美元训练成本为基础,估计R1训练成本应该不会比V3高出多少,于是猜想可能是600万美元左右。随后,这两个金额被各大传媒应泛引用写成报道,因而造就了DeepSeek-R1极低训练成本的“神话”。


Deepseek网站因有大量用户涌入,以致服务器负荷过重,经常断线,严重影响服务质素。笔者也要两度尝试进入网站,方可拍摄到其主页画面。(图片来源:翻摄DeepSeek官网)


DeepSeek资本支出达16亿美元


   半导体研究机构SemiAnalysis认为,557.6万美元只是最终训练成本,估计深度求索拥有5万颗NVIDIA高阶到低阶芯片,包括:10,000颗H100、10,000颗H800、以及一定数量的低配版H20,芯片投资额应在5亿美元(约39亿港元)以上,再加上营运成本约为9.44亿美元(约73.6亿港元),故此该公司总资本支出可能高达16亿美元(约124.8亿港元)。


   Anthropic共同创办人达里奥·阿莫代(Dario Amodei)指出,美国AI企业在计算模型训练成本时,会纳入训练以外的研究开支,所以总额才会高达数十亿美元;他认为,仅是计算最终训练成本的做法,并不公平。


   其实,DeepSeek-V3论文中已有说明,557.6万美元只是训练正式阶段所耗的GPU使用成本,未有纳入团队研发费用,只是一直被人忽略了。因此有评论认为,对DeepSeek“神话”的炒作,只为引发美股暴跌,以便炒家放空牟利。


DeepSeek蒸馏OpenAI模型数据


   DeepSeek另一备受争议之处是,涉嫌偷用OpenAI模型的数据来训练自家模型。一般来说,OpenAI等AI公司进行模型训练,先要搜集、筛选和分类大量原始知识数据,供模型从头学起,历时需要数月,成本动辄数千万美元以上。


   DeepSeek-R1论文指出,为求降低成本,团队采用蒸馏(Distillation)技术,意指把成熟大模型的知识资料抽取出来,然后输入到新的小模型;如此一来,便可以省去搜集和整理原始数据的时间和成本。因此在蒸馏技术下,开发者可以在几个星期、甚至几天内制作出一个几乎跟成熟大模型同样好的模型。


   OpenAI于2025年1月29日表示,有证据显示DeepSeek曾使用OpenAI模型来训练自家模型,并暗示此举或许违反OpenAI服务条款。根据OpenAI服务条款,用户可以透过OpenAI提供的API界面,将其AI技术跟自家应用软件结合使用,但却严禁用户复制其任何服务或使用其输出来开发跟OpenAI竞争的模型。


   虽然深度求索涉嫌违反OpenAI服务条款,但OpenAI执行长萨姆·奥尔特曼(Sam Altman)却大方地表示,暂时未有计划控告DeepSeek,并强调会继续创造优异产品,以模型实力引领世界。


Deepseek手机App自2025年1月26日荣登Apple App Store榜首以来,18天内下载量已突破1,600万次。(图片来源:翻摄Apple App Store)


DeepSeek或有助加快AI普及化


   随着传媒不断报道DeepSeek,使用人数也与日俱增。据悉,其每日活跃用户数已达2,215万,等于ChatGPT的4成左右。但近日有不少用户投诉,DeepSeek服务器经常陷入繁忙状态,导致回答延迟,有时甚至要等上15分钟方可获得恢复。


DeepSeek创办人梁文锋(右)行事低调,鲜少在传媒镜头前曝光。他于2025年1月20日出席中国国务院总理李强主持召开的专家与企业家座谈会,才让人有机会一睹其庐山真面目。(图片来源:翻摄央视官网)


   由此看来,就算DeepSeek能以较低成本来训练模型,但当模型上线开放给用户使用,始终要有庞大的AI基建来支撑日常运作。深度求索表示,因为服务器容量不足,所以限制其API界面服务的存取,而且暂时不会提供新的折扣优惠;同时又限制新用户注册,只开放给拥有中国地区手机号码的人开设新账户。


   那么,DeepSeek-R1是否徒具虚名,不值一顾?答案当然不是。DeepSeek-R1采用了AI蒸馏、强化学习(RL)、自监督学习(SSL)、混合专家模型(MoE)、多头潜在注意力架构(MLA)等多项先进技术,让它即使搭配中低阶AI芯片运作,也可以有理想表现。虽然上述技术不算是什么新发明,但把所有技术整合于同一模型上,始终是一个创新做法。


   DeepSeek-R1的出现,打破了投入大量资金、以高阶AI芯片堆栈高运算力的迷思,预计未来很多欧美AI公司在参考DeepSeek-R1的设计后,将会推出更多低成本的AI模型,有助加速生成式AI的普及进程。


   《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

分享:
返回智城物语
上传图片
仅支持JPG、GIF、PNG图片文件,且文件小于5M
 
评论只代表会员个人观点,不代表经济通立场 
登录 后发表评论,立即 注册 加入会员。
 (点击用户名可以查看该用户所有评论)  只看作者评论  查看全部评论:↑顺序 ↓倒序
  • 暂无读者评论!
评论只代表会员个人观点,不代表经济通观点
登录 后回复评论,立即 注册 加入会员。
发表评论 查看全部评论: ↑顺序  ↓倒序
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
more on Column 
新  一个月内新增栏目