DeepSeek一夜爆红，极低训练成本真相大揭秘！-智城物语-经济通中国站

您现在所在的位置：首页 > 香港脉搏 > 理财／管理 > 智城物语 > DeepSeek一夜爆红，极低训练成本真相大揭秘！

理财／管理智城物语

打印本文章

字体:小中大

DeepSeek一夜爆红，极低训练成本真相大揭秘！

作者：方展策

评论：1

点击率：35545

发表时间: 2025-02-11 11:19:47

作者介绍

少年时，曾研习 Geographic Information System，可惜学无所成，侥幸毕业。成年后，误打误撞进入传媒圈子，先后在印刷、电子、网络媒体打滚，略有小成。中年后，修毕信息科技硕士，眼界渐扩，决意投身初创企业，窥探不同科技领域。近年，积极钻研数据分析与数码策略，又涉足 Location Intelligence 开发项目；有时还会抽空执教鞭，既可向他人分享所学，亦可鞭策自己保持终身学习。

农历新年期间，美国硅谷AI精英有如热锅上的蚂蚁，只因中国初创公司深度求索（DeepSeek）推出旗下首个思考型AI模型“DeepSeek-R1”，其效能直逼OpenAI o1，但外界估计其训练成本只有600万美元左右，不到Meta、OpenAI的十分之一，引发美国高科技股一夕暴跌。但后来逐渐发现，DeepSeek的极低训练成本“神话”却是疑点重重，其真正成本可能远比外界想象为高。究竟DeepSeek-R1是AI技术发展的新里程碑，还是精心策划的骗局？

DeepSeek-V3训练成本比对手低

2024年12月26日，深度求索推出新版开源模型“DeepSeek-V3”，开发者可免费下载其原始程序码，任意进行研究和修改。在多项基准测试中，它比起同属开源、由Meta公司开发的Llama 3.1-405B，表现更为优秀。

深度求索在DeepSeek-V3的论文中提及，因受到美国出口管制，只能使用英伟达（NVIDIA）为中国市场特供的低配版AI芯片H800 GPU来训练模型，其间只用了2,048颗H800，训练时长为278.8万GPU小时，训练成本为557.6万美元（约4,350万港元）。

至于Llama 3.1-405B，训练时长为3,080万GPU小时，成本足足是DeepSeek-V3的11倍。若说到最多人使用的OpenAI GPT-4o，则使用了25,000颗高阶GPU，训练成本更是高达1亿美元（约7.8亿港元）。这意味着中国AI公司已找到高效而低成本的模型训练方式，即使手头上没有大量高阶AI芯片，同样可以建构先进的AI模型，惟当时未有引起太大关注。

DeepSeek-R1达到推理思考境界

真正令DeepSeek一夜爆红的是，2025年１月20日释出的另一个全新模型“DeepSeek-R1”。它与OpenAI o1同属思考型AI模型，在回答用户提问前，会花更多时间进行推理思考，藉由分步骤剖析问题，识别和修正当中错误，进而提供“更深思熟虑”的答案。当深度求索竟然可以研制出思考型模型，硅谷AI精英就开始坐不住了。

大家要知道，推理思考是AI从助理（Assistant）转型为代理（Agent），再迈进通用人工智能（Artificial General Intelligence）圣殿的关键能力，也是OpenAI、Google、Anthropic等AI先驱的终极赛道。现时这条赛道上突然冒出一家名不经传的中国AI初创，而且能以极低成本方式进行模型训练，当然震惊了整个AI业界。同时，这亦引发外界质疑美国AI公司的运作效率是否较差，或者烧钱是否过多。

事实上，DeepSeek-R1论文中没有披露其训练成本等细节。外界只是以DeepSeek-V3论文所述的557.6万美元训练成本为基础，估计R1训练成本应该不会比V3高出多少，于是猜想可能是600万美元左右。随后，这两个金额被各大传媒应泛引用写成报道，因而造就了DeepSeek-R1极低训练成本的“神话”。

Deepseek网站因有大量用户涌入，以致服务器负荷过重，经常断线，严重影响服务质素。笔者也要两度尝试进入网站，方可拍摄到其主页画面。（图片来源：翻摄DeepSeek官网）

DeepSeek资本支出达16亿美元

半导体研究机构SemiAnalysis认为，557.6万美元只是最终训练成本，估计深度求索拥有5万颗NVIDIA高阶到低阶芯片，包括：10,000颗H100、10,000颗H800、以及一定数量的低配版H20，芯片投资额应在5亿美元（约39亿港元）以上，再加上营运成本约为9.44亿美元（约73.6亿港元），故此该公司总资本支出可能高达16亿美元（约124.8亿港元）。

Anthropic共同创办人达里奥·阿莫代（Dario Amodei）指出，美国AI企业在计算模型训练成本时，会纳入训练以外的研究开支，所以总额才会高达数十亿美元；他认为，仅是计算最终训练成本的做法，并不公平。

其实，DeepSeek-V3论文中已有说明，557.6万美元只是训练正式阶段所耗的GPU使用成本，未有纳入团队研发费用，只是一直被人忽略了。因此有评论认为，对DeepSeek“神话”的炒作，只为引发美股暴跌，以便炒家放空牟利。

DeepSeek蒸馏OpenAI模型数据

DeepSeek另一备受争议之处是，涉嫌偷用OpenAI模型的数据来训练自家模型。一般来说，OpenAI等AI公司进行模型训练，先要搜集、筛选和分类大量原始知识数据，供模型从头学起，历时需要数月，成本动辄数千万美元以上。

DeepSeek-R1论文指出，为求降低成本，团队采用蒸馏（Distillation）技术，意指把成熟大模型的知识资料抽取出来，然后输入到新的小模型；如此一来，便可以省去搜集和整理原始数据的时间和成本。因此在蒸馏技术下，开发者可以在几个星期、甚至几天内制作出一个几乎跟成熟大模型同样好的模型。

OpenAI于2025年1月29日表示，有证据显示DeepSeek曾使用OpenAI模型来训练自家模型，并暗示此举或许违反OpenAI服务条款。根据OpenAI服务条款，用户可以透过OpenAI提供的API界面，将其AI技术跟自家应用软件结合使用，但却严禁用户复制其任何服务或使用其输出来开发跟OpenAI竞争的模型。

虽然深度求索涉嫌违反OpenAI服务条款，但OpenAI执行长萨姆·奥尔特曼（Sam Altman）却大方地表示，暂时未有计划控告DeepSeek，并强调会继续创造优异产品，以模型实力引领世界。

Deepseek手机App自2025年1月26日荣登Apple App Store榜首以来，18天内下载量已突破1,600万次。（图片来源：翻摄Apple App Store）

DeepSeek或有助加快AI普及化

随着传媒不断报道DeepSeek，使用人数也与日俱增。据悉，其每日活跃用户数已达2,215万，等于ChatGPT的4成左右。但近日有不少用户投诉，DeepSeek服务器经常陷入繁忙状态，导致回答延迟，有时甚至要等上15分钟方可获得恢复。

DeepSeek创办人梁文锋（右）行事低调，鲜少在传媒镜头前曝光。他于2025年1月20日出席中国国务院总理李强主持召开的专家与企业家座谈会，才让人有机会一睹其庐山真面目。（图片来源：翻摄央视官网）

由此看来，就算DeepSeek能以较低成本来训练模型，但当模型上线开放给用户使用，始终要有庞大的AI基建来支撑日常运作。深度求索表示，因为服务器容量不足，所以限制其API界面服务的存取，而且暂时不会提供新的折扣优惠；同时又限制新用户注册，只开放给拥有中国地区手机号码的人开设新账户。

那么，DeepSeek-R1是否徒具虚名，不值一顾？答案当然不是。DeepSeek-R1采用了AI蒸馏、强化学习（RL）、自监督学习（SSL）、混合专家模型（MoE）、多头潜在注意力架构（MLA）等多项先进技术，让它即使搭配中低阶AI芯片运作，也可以有理想表现。虽然上述技术不算是什么新发明，但把所有技术整合于同一模型上，始终是一个创新做法。

DeepSeek-R1的出现，打破了投入大量资金、以高阶AI芯片堆栈高运算力的迷思，预计未来很多欧美AI公司在参考DeepSeek-R1的设计后，将会推出更多低成本的AI模型，有助加速生成式AI的普及进程。

《经济通》所刊的署名及／或不署名文章，相关内容属作者个人意见，并不代表《经济通》立场，《经济通》所扮演的角色是提供一个自由言论平台。