大模型同行焦虑、云厂「抢食」、芯片厂拼命,DeepSeek 效应仍在持续。
春节结束,DeepSeek 热度不减,而要说刚刚过去的春节假期,留给科技圈的印象可能是“卷上加卷”,几乎无人不在热议分析着 DeepSeek 这条“鲶鱼”。
硅谷方面迎来了空前的危机感:开源的信徒们声量再度走高,甚至连 OpenAI 都在反思闭源的决策是不是正确;低算力成本的新范式引发芯片巨头英伟达连锁反应,创下美股史上规模最大单日市值蒸发纪录;政府部门下场调查 DeepSeek 使用芯片的合规性......
DeepSeek 发布 R1 模型后上线的 APP 接到泼天流量,初步验证了应用端增长将会拉动整个 AI 生态发展。利好在于 DeepSeek 会把整个应用的可能性都打开,换言之就是以后发现 ChatGPT 不用这么贵。
这点在近日 OpenAI 的频繁动作中也可以窥见,其为应战 DeepSeek R1 首次向免费用户更好的提供推理模型 o3-mini,并也在后续升级公开了 o3-mini 的推理思维链,不少海外网友在评论中向 DeepSeek 表示感谢,不过这一思维链仅为总结版。
在其将模型降本按下加速键后,以其为圆心,上游芯片厂商、中间层云厂以及一众勇于探索商业模式的公司都在积极加入生态中,为 DeepSeek 模型使用的降本增效持续添砖加瓦。
在这背后,MoE 架构是 V3 相比 Llama 3 405B 预训练成本降低十倍最关键的原因,当前,V3 是在公开领域第一个证明 MoE 的稀疏度能做到这么高的模型。此外,MLA 同样相辅相成,这部分则大多数表现在推理侧。
“越稀疏的 MoE 在推理的时候需要越大的 batch size 才能充分的利用算力。而限制 batch size 的最重要的条件就是 KVCache 的大小,MLA 大幅度缩小了 KVCache 大小。”趋境科技研究员向 AI 科技评论分析道。
从整体上来看,DeepSeek 的成功在于各项技术的组合,而非单一技术。业内评价,DeepSeek 团队工程能力极强,其在并行训练、算子优化等方面也都做得很好,把每一个细节做到极致后才实现了最终的突破性效果。
而 DeepSeek 开源也代表着能为大模型整体发展再添一把柴,其现阶段成果还体现在语言模型,业内判断,后续如有类似路线的模型在图像、视频等领域发力,将会促进带动行业整体需求。
据数据显示,DeepSeek 自发布后,截止一月末上线 天,其日活跃用户 DAU 2215 万,达 ChatGPT 日活用户的 41.6%,超过豆包的日活用户 1695 万,成为全世界增速最快的应用,并收割了苹果应用商店 157 个国家/地区第一。
用户大量涌入之余,外网黑客也在疯狂攻击,DeepSeek APP 目前服务器繁忙已有多时,这背后在业内看来,其实也与 DeepSeek 将卡投入训练,用在推理侧的算力不太够有关。
业内人士向 AI 科技评论分析道,“服务器频繁的问题其实很好解决,收费或者融资买更多机器,不过这要看 DeepSeek 的选择了。”
这也是专注技术和产品化的抉择博弈,一直以来 DeepSeek 都在依靠幻方量化实现自我供血,几乎未接受过外部融资,在现金流方面压力不大,所以其技术氛围也相对纯粹。
当前,面对前述问题,一部分用户在社交平台呼吁 DeepSeek 增高使用门槛、加设付费项目来提升自身的使用舒适度。
另外,也有开发者选择调用官方 API 或者使用第三方 API 获得部署优化。不过,日前,DeepSeek 开放平台又公布消息称,“当前服务器资源紧张,已暂停 API 服务充值。”
近日,国内外数十家云巨头已纷纷上线了 DeepSeek 的模型 API——海外云厂两大巨头微软、亚马逊于 1 月底便抢先接入。
国内华为云率先出击,在 2 月 1 日与硅基流动合作上新 DeepSeek R1 & V3 推理服务,当前,据 AI 科技评论了解,硅基流动平台服务已被大量用户涌入“打爆”。
BAT 三巨头以及字节跳动也纷纷在 2 月 3 日陆续打出低价限免牌,这波狂欢如同回到去年 DeepSeek 在发布 V2 模型时点燃的云厂价格战,自那时起 DeepSeek 就开始被称为“价格屠夫”。
云厂的疯狂“抢食”和早些年微软云强绑定 OpenAI 的逻辑也有些相似之处:
2019 年,微软云便已早早压注 OpenAI 并注资 10 亿美元,并在 2023 年后者发布 ChatGPT 后吃到了红利。但二者的亲密关系则在 Meta 开源 Llama 后出现了裂痕,开源模型的出现意味着微软云外的其他厂商也能布局自己的大模型。
此次 DeepSeek 不仅在产品侧比 ChatGPT 当年热度更甚,更是在 o1 之后相对应推出了开源模型,这就如同当年的 Llama 开源复现 GPT-3 所引发的轰动一般。
实际上,云厂也是在压注 AI 应用的流量入口,换言之,和更为开发者深入绑定意味着能够抢占先机。据悉,百度智能云在上线 DeepSeek 模型首日,便已有超 1.5 万客户通过千帆平台做调用。
另外,也有不少小厂给出了解决方案,除硅基流动外,潞晨科技、趋境科技、无问芯穹、PPIO 派欧云等 AI Infra 厂商也已陆续上线对 DeepSeek 模型的支持。
AI 科技评论了解到,目前,针对 DeepSeek 的本地化部署优化空间主要存在于两方面:
一是针对 MoE 模型稀疏性的特性,能够采用混合推理的思路优化,在本地部署 DeepSeek 671B 大小的 MoE 模型,GPU/CPU 混合推理是很重要的方向,二是 MLA 的优化实现。
“因为模型大、参数多,优化确实有一定的复杂度,尤其需要本地化部署的话,怎么样才能做到效果和成本的最优平衡会有难度。”趋境科技研究员告诉 AI 科技评论。
其中最大难点在于如何克服显存容量的限制。“我们采用异构协同的思路是充分的利用 CPU 等其余算力,仅将非Shared 部分的稀疏 MoE 矩阵放在 CPU/DRAM 上并通过高性能的 CPU 算子做处理,剩余稠密部分放在 GPU 上。”他进一步介绍。
据了解,趋境的开源框架 KTransformers 主要是通过一套注入模板将各种策略和算子注入到原本的 Transformers 实现中,同时,通过通用的 CUDAGraph 等方法大幅度提升 Transformers 的推理速度。
DeepSeek 也为这些勇于探索商业模式的公司带来了生存空间,当前增长效益已开始初显成效,上线 DeepSeek API 后,不少厂商在与 AI 科技评论交谈中提到,其均得到了明显客户增长,许多客户找上门提出优化诉求。
有相关业者发文表示,“以往稍具规模的客户群体,往往早已被大厂的标准化服务套牢,被他们规模效应带来的成本优势牢牢绑定。然而春节前完成 DeepSeek-R1/V3 的部署后,我们突然接到多家知名客户的合作需求,连此前一度沉寂的老客户也主动联络,希望引入我们的 DeepSeek 服务。”
目前来看,DeepSeek 这波让模型的推理性能变得更重要,而且大模型普及更广泛,这会持续影响 AI Infra 行业的发展,若能够低成本地在本地落地一个 DeepSeek 级别的模型,将会对政府和企业智能化的发展有很大的帮助。
但与此同时,挑战也是存在的,也会有部分客户可能会对大模型的能力期待比较高,在实际的部署使用中,大模型的使用效果、成本这些要做到平衡的挑战更明显了。
当前,除华为外,摩尔线程、沐曦、壁仞科技、天数智芯等数十家国产芯片厂商也纷纷跟进适配了 DeepSeek 两款模型。
有芯片厂商向 AI 科技评论表示,“DeepSeek 在结构上有创新,但还是 LLM,我们适配 DeepSeek 都是聚焦推理应用,所以技术实现上并不难,实现得都很快。”
不过,MoE 这一路线对存储和分布式有更高的要求,再加上使用国产芯片部署也需要仔细考虑一些系统兼容问题,在适配过程中仍有许多工程上的难题需要解决。
“当前,国产算力在使用的便利性和稳定能力方面与英伟达仍存较大的差别,软件环境、故障排查、涉及底层的性能优化等都需要原厂参与解决推进。”从业者在实践过后告诉 AI 科技评论。
同时,“由于 DeepSeek R1 参数规模较大,国产算力也需要更加多节点的并行才能用。另外,国内在硬件规格上也还存在些许落后,例如,华为 910B 当前还不能支持 DeepSeek 所引入的 FP8 推理。”
DeepSeek V3 模型的亮点之一便是引入了 FP8 混合精度训练框架,并在超大规模模型上验证了有效性,这点作为首次公开验证具有重大意义。此前,微软、英伟达等巨头都曾提及过相关工作,但业内一直以来都有声音对此表示质疑。
据了解,相比于 INT8 而言,FP8 的最大优点是其后训练量化能轻松的获得几乎无损的精度,同时明显提升推理速度,与 FP16 相比,在英伟达 H20 上能轻松实现 2 倍的加速效果,在 H100 上可获得超过 1.5 倍的加速。
值得一提的是,近期,随着国产算力+国产模型这一趋势的讨论愈发热烈,关于英伟达是否会被颠覆、CUDA 护城河将会被绕开的声音也甚嚣尘上。
一个毋庸置疑的事实是,DeepSeek 确实凭借一己之力让英伟达市值暴跌,但这背后实则是英伟达高端算力方面受到质疑,过往受资本裹挟的算力堆砌论被打破,而目前来看,英伟达卡在训练方面被替代仍旧有难度。
从 DeepSeek 对 CUDA 的使用深度中不难发现,类似用 SM 做通信甚至直接操纵网卡这种灵活性其实不是一般的 GPU 能支持的。
业内观点也强调,英伟达的护城河是 CUDA 整个生态,并非 CUDA 本身,DeepSeek 所使用的 PTX(并行线程执行)指令仍是 CUDA 生态的一环。
“短期来看,英伟达算力还无法绕开,这点在训练层尤为明显,推理上国产卡的推行会相对容易些,所以进度也会快些。大家做国产卡适配也都是推理侧,没人能用国产卡大规模训练出 DeepSeek 这种性能的模型。”有从业者向 AI 科技评论分析。
整体从推理上来看,对于国产大模型芯片是利好的。国内芯片厂商的机会在推理会更明显,训练由于要求太高所以很难进。
业内看来,推理国产卡就可以,再不济多买一台机器,训练不一样,机器多了管理起来会累,而且失误率高会影响训练的效果。
训练对集群规模也有要求,推理对集群要求则没那么高,对 GPU 的要求也相对低,当前,英伟达 H20 单卡的性能其实并没有华为、寒武纪强,强在集群。
从算力市场的整体影响情况上来看,潞晨科技创始人尤洋告诉 AI 科技评论,“DeepSeek 这波短期内可能会打击超大训练算力集群的建设和租赁,长久来看,由于其明显降低了大模型训练、推理、应用的成本,市场需求高涨,以此为基础的AI迭代,会继续推动算力市场的持续需求。”
同时,“DeepSeek 在推理和微调侧的需求提升,也更适合国内算力建设比较散、国产算力相对弱情况,减少集群建设后的闲置浪费,这是全国产化的算力生态各层级厂商有效落地的机会。”
潞晨科技也和华为云合作推出了基于国产算力的 DeepSeek R1 系列推理 API 及云镜像服务,尤洋乐观表示,“有 DeepSeek 给大家国产化的信心,后续大家对于国产算力的热情和投入也会更多。”