AI说话为什么这么慢

现代大型语言模型生成文字的方式，是一个词一个词地往外"吐"。每输出一个词，就要调用一次庞大的神经网络进行一次完整的前向推理计算。这种方式在短回复里感觉还好，但遇到长篇推理、代码生成或者复杂问答，延迟就会明显积累，用户感觉AI在"卡顿"。

更糟糕的是，这种逐词输出的方式让GPU大量时间处于低利用率状态。GPU在等待串行计算的空档里其实有很多算力被白白浪费掉，这在大规模服务中意味着真实的资金损耗。

DeepSeek在研究报告中把这个问题直接定性为"AI服务的主要瓶颈"，并不夸张。

DSpark的解法来自一种已有的思路，叫推测性解码（Speculative Decoding）。它的核心逻辑是：用一个小而快的"草稿模型"先猜出一批候选词，再用大模型一次性批量验证这批候选词的对错，接受正确的部分，只在出错的地方才重新计算。

理论上，这样做可以在不损失任何输出质量的前提下，用更少的计算资源完成更多的输出工作。但真正的挑战在于，如何让草稿模型猜得既快又准。

DSpark做对了哪几件事

一位程序员表示，这项新技术可以减少人工智能系统所需的计算资源。（图片来源：Shutterstock）

以往的推测性解码方案，大多面临一个两难困境。自回归草稿模型猜得准，但生成一批候选词时，计算代价会随块长度线性增长。并行草稿模型生成速度快，但因为每个位置的预测不考虑前面已经猜出的词，准确率会随块的位置深入而快速衰减。

DSpark的关键创新，是把这两种方式拼在了一起。它先用一个并行主干模型快速生成每个位置的基础预测，再叠加一个轻量级的"序列小头"，让每个位置在采样时都能感知前一个词的信息，从而把准确率拉回来。

这个序列小头采用了马尔可夫结构，只看上一个词的状态，参数极少，但效果显著。实验显示，DSpark在草稿块深处的接受率，比纯并行方案高出16%到31%。

另一个被忽视的设计亮点是它的动态调度机制。DSpark内置了一个置信度评分系统，能在每次生成时判断"这批草稿词值不值得全部拿去验证"。当GPU负载较低时，系统会提交更长的验证块，充分利用空闲算力；当并发请求高峰期到来，系统会自动收窄验证范围，保护整体吞吐量。

这种随负载动态调整的策略，让DSpark在高并发生产环境中同样保持稳定，而不会因为追求速度反而拖垮服务质量。

实际生产数据印证了效果。在DeepSeek-V4-Flash和V4-Pro的真实线上流量测试中，相比原来的单词步进基线，每用户的生成速度分别提升了60%至85%，以及57%至78%，且输出内容与原来完全一致，没有质量损失。

DSpark的发布时机，放在更大的背景下看，意义不止于技术本身。

过去两年，美国对中国的AI芯片出口管制持续升级，高端GPU的供给受限已经是中国AI企业必须长期应对的现实约束。在这种处境下，如何从现有硬件中榨出更多效能，已经不只是工程优化问题，而是关乎整个行业能走多远的战略课题。

DSpark提供的正是这样一种路径：不靠换更强的芯片，而靠更聪明地使用现有芯片。85%的速度提升意味着同等硬件规模下，可以服务更多用户、降低单次推理成本，直接影响企业的盈利模型。

目前，DSpark的代码、训练脚本和模型权重已经在GitHub和Hugging Face上完整开源，并采用MIT许可协议，任何团队都可以将其接入自己的大模型服务体系。

对于整个AI推理领域来说，这或许是一个信号：下一轮效率竞争的主战场，正在从"买更好的芯片"转向"把现有芯片用到极致"。