万维读者网>世界军事论坛>帖子
DeepSeek新出了一个"加速器",让AI回复快了85%,还不用换芯片
送交者: 员外 2026-06-30 07:09:06 于 [世界军事论坛]

中国AI公司DeepSeek上周悄悄做了一件很有意思的事:不发新模型,只发了一套框架,但让现有模型的响应速度直接提升了85%。

这个框架叫DSpark,由DeepSeek联合北京大学共同开源发布。它瞄准的是目前大模型服务中一个被长期忽视的瓶颈,那就是AI"输出"这个动作本身。

AI说话为什么这么慢

现代大型语言模型生成文字的方式,是一个词一个词地往外"吐"。每输出一个词,就要调用一次庞大的神经网络进行一次完整的前向推理计算。这种方式在短回复里感觉还好,但遇到长篇推理、代码生成或者复杂问答,延迟就会明显积累,用户感觉AI在"卡顿"。

更糟糕的是,这种逐词输出的方式让GPU大量时间处于低利用率状态。GPU在等待串行计算的空档里其实有很多算力被白白浪费掉,这在大规模服务中意味着真实的资金损耗。

DeepSeek在研究报告中把这个问题直接定性为"AI服务的主要瓶颈",并不夸张。

DSpark的解法来自一种已有的思路,叫推测性解码(Speculative Decoding)。它的核心逻辑是:用一个小而快的"草稿模型"先猜出一批候选词,再用大模型一次性批量验证这批候选词的对错,接受正确的部分,只在出错的地方才重新计算。

理论上,这样做可以在不损失任何输出质量的前提下,用更少的计算资源完成更多的输出工作。但真正的挑战在于,如何让草稿模型猜得既快又准。

DSpark做对了哪几件事

一位程序员表示,这项新技术可以减少人工智能系统所需的计算资源。(图片来源:Shutterstock)

以往的推测性解码方案,大多面临一个两难困境。自回归草稿模型猜得准,但生成一批候选词时,计算代价会随块长度线性增长。并行草稿模型生成速度快,但因为每个位置的预测不考虑前面已经猜出的词,准确率会随块的位置深入而快速衰减。

DSpark的关键创新,是把这两种方式拼在了一起。它先用一个并行主干模型快速生成每个位置的基础预测,再叠加一个轻量级的"序列小头",让每个位置在采样时都能感知前一个词的信息,从而把准确率拉回来。

这个序列小头采用了马尔可夫结构,只看上一个词的状态,参数极少,但效果显著。实验显示,DSpark在草稿块深处的接受率,比纯并行方案高出16%到31%。

另一个被忽视的设计亮点是它的动态调度机制。DSpark内置了一个置信度评分系统,能在每次生成时判断"这批草稿词值不值得全部拿去验证"。当GPU负载较低时,系统会提交更长的验证块,充分利用空闲算力;当并发请求高峰期到来,系统会自动收窄验证范围,保护整体吞吐量。

这种随负载动态调整的策略,让DSpark在高并发生产环境中同样保持稳定,而不会因为追求速度反而拖垮服务质量。

实际生产数据印证了效果。在DeepSeek-V4-Flash和V4-Pro的真实线上流量测试中,相比原来的单词步进基线,每用户的生成速度分别提升了60%至85%,以及57%至78%,且输出内容与原来完全一致,没有质量损失。

这件事为什么现在格外重要

DSpark的发布时机,放在更大的背景下看,意义不止于技术本身。

过去两年,美国对中国的AI芯片出口管制持续升级,高端GPU的供给受限已经是中国AI企业必须长期应对的现实约束。在这种处境下,如何从现有硬件中榨出更多效能,已经不只是工程优化问题,而是关乎整个行业能走多远的战略课题。

DSpark提供的正是这样一种路径:不靠换更强的芯片,而靠更聪明地使用现有芯片。85%的速度提升意味着同等硬件规模下,可以服务更多用户、降低单次推理成本,直接影响企业的盈利模型。

目前,DSpark的代码、训练脚本和模型权重已经在GitHub和Hugging Face上完整开源,并采用MIT许可协议,任何团队都可以将其接入自己的大模型服务体系。

对于整个AI推理领域来说,这或许是一个信号:下一轮效率竞争的主战场,正在从"买更好的芯片"转向"把现有芯片用到极致"。


0.00%(0) 0.00%(0) 0.00%(0)
当前新闻共有0条评论
笔  名 (必选项):
密  码 (必选项):
注册新用户
标  题 (必选项):
内  容 (选填项):