万维读者网>世界军事论坛>帖子
全球首个英伟达含量为0的万亿模型,成了海外开发者的抢手货
送交者: 员外 2026-07-02 17:47:50 于 [世界军事论坛]

量子位 | 公众号 QbitAI

国产算力能不能撑起万亿参数大模型?

终于有人交卷了!美团LongCat-2.0登场。

模型采用自研MoE混合专家架构,总参数达1.6万亿,每token激活约48B参数,原生支持1M超长上下文。

从训练到推理,英伟达含量为0——

成为首个在国产算力上实现全链路训推闭环的万亿参数模型

从多项专业评测数据来看,LongCat-2.0在代码、工具调用和多步逻辑推理等任务上具备较强综合性能。

不过,这位倒也不算开发者的“新朋友”,因为人家早就披着马甲“不小心”成为了全球Agent开发者的最爱~

没错,最近在OpenRouter上挺火热的Owl Alpha,正是LongCat-2.0(面具版)。

月调用量在Hermes、Claude Code和OpenClaw分列全球第一、第二和第三位,成为开发者首选的开源模型。

所以说,这位不仅第一个在国产卡上跑通了万亿级训推,还提前通过了市场的真实流量验证??

有意思有意思,等不及了,咱也来上手测一波!

体验方式:
https://longcat.chat/platform/product

新用户认证送1000万token

技术报告:
https://longcat.ai/blog/longcat-2.0/

把LongCat-2.0扔进三个坑里

既然Hermes榜单它稳坐第一,那咱也就接入Hermes看看实力~

先拿长上下文开刀。

为了验证它是不是真的把信息读进去了,我特意没用公开的论文或者技术白皮书。

自己手动拼了一份语料,把几份不同行业的研报、不同领域的几篇论文拼到一起,中英混杂凑了好几万字,be like:

我先问了一个藏在文档中前段的信息,是一份跨境电商进出口报告。

对比一下回答,信息完全正确!

还有被我特意拆分的完整统计报告,LongCat-2.0也能准确找到,而且感觉速度挺快,就1秒……

它做分析推理也挺清晰,扛住了几万字攻击!

好,胆子大一点,让它干一件程序员最烦的事情:接盘。

我找了一个开源代码仓库,GitHub上13k star的原版2048,纯HTML+CSS+JavaScript架构的项目。

把它丢给LongCat-2.0,然后提了两个具体需求:

视觉类修改:把整个游戏的配色方案改成赛博朋克风格,要深色背景、霓虹色的方块、发光效果的数字。
功能类修改:把4x4的棋盘改成5x5,同时增加一个计步器显示在棋盘下方,记录玩家一共滑了多少步。

拿到任务后它先把关键文件挨个过了一遍,自己拆出了一个7步的修改计划。

剩下的完全不用我管,LongCat-2.0自己跑了12分钟,交付了一个完整的结果。

那咱就来试玩一把!

从效果上看,我要的计步器和5x5方格都有,而且改完配色ok。

视频地址:https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q

改个颜色加个计步器当然不算难活儿,我又加了一道题。

让它把整个项目从原生JavaScript迁移到React。

跑出来的游戏看着一样,功能全部保留,但底层代码已经完全重写了。

LongCat-2.0官宣后的这两天,看到不少朋友说它和Claude Code搭配也很香。

好好好,那咱接入Claude Code再试一局。

这次我给了一个研究主题让它帮忙调研。虽然Claude Code自带deep-research,但咱先不用,看看LongCat-2.0的实力如何。

视频地址:https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q

通过Agent原生能力自主连网搜索,LongCat-2.0独立完成了整篇结构化报告。

当然了,代码能力也不能落下,那就来个「只有一道门」魔性小游戏吧。

拿到任务后,LongCat-2.0开启了统筹能力,先把项目架构一列,然后就开始哐哐写代码。

中间的架构设计、模块拆分、技术选型,全是它自己定的。关卡逻辑、交互细节、通关动画一个没落,并主动加了个Web Audio音效。

视频地址:https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q

然后我还顺手接入LongCat-2.0的API做了个代码分析师,输入任意GitHub仓库,就能定制一份专属分析报告。

什么项目结构、核心模块、接管的潜在问题、优化建议,全被它给读懂了。

视频地址:https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q

在测试的过程中,咱还发现了一个“彩蛋”:给LongCat-2.0、GPT5.5、Opus 4.6、Opus 4.8同一段提示词让四个模型生成一套物理仿真代码。

肉眼看上去,各选手呈现效果接近。

但token用量LongCat明显是最少的,9004tokens,按美团的计费算下来都不到1毛钱。

这或许就是官方所说Cache命中不计费,Token Plan不算消耗的结果。

要说“省钱”,美团确实是一把好手。

反正这么体验一圈下来,我感觉这LongCat-2.0和主流编程工具的适配度确实挺高

当然了,支撑这些能力的背后,是LongCat-2.0在架构层面的一系列原创设计。

并且这些设计诞生在一个特殊的背景下:

LongCat-2.0从训练到推理,全程基于国产芯片完成

那么问题来了:国产卡集群是怎么hold住万亿参数模型的?

5万张国产卡撑起一个万亿模型

说到国产芯片跑AI,其实推理这一步行业里已经有所验证。

过去几年,确实有大模型和线上服务能跑在国产算力平台上运行。

训练方面,行业也陆续有模型完成了百亿、甚至千亿级的训练探索。

但仔细看这些成果,本质上都还是某个环节的单点能力验证

万亿参数级别,从预训练的第一天就跑在国产卡上的训推全链路闭环,在LongCat-2.0之前还没有出现过。

并且这么大规模跑完全流程,考验的是整个系统工程能力,国产芯片的硬件条件又让这件事难上加难。

单卡显存更小,1.6万亿参数只能拆到成千上万张卡上一起跑;

可通信带宽又不像NVLink那么充裕,跨节点通信延迟更高,大规模并行训练中计算与通信容易出现不对齐,拖慢整体吞吐。

△图片AI生成

硬件差距之外,软件生态也是个坎儿。

在英伟达平台上,很多算子、调试工具、确定性计算能力都已经非常成熟,换到国产芯片之后,很多东西都得自己重写、自己优化。

比如FlashAttention的反向梯度算子,国产原有确定性实现只能单核串行,速度慢20-70倍,无法落地生产。

所以,LongCat-2.0的意义并不只是又多了一个1.6万亿参数模型。

对于国产AI生态来说,它首次证明了国产算力已经具备了支撑先进大模型持续训练、持续部署和持续迭代的能力

另外一个值得关注的点,就是针对Agent时代重新设计的LongCat Sparse Attention(LSA)。

Agent意味着模型一次要处理大量上下文,1M上下文带来的最大压力就在注意力计算。

DeepSeek之前提出过一套稀疏注意力方案DSA,核心思路是让模型只关注关键token来降低计算量。

但这个方案实际跑起来有个问题是,筛选关键token的索引器本身成了性能瓶颈,索引计算越来越慢,显存访问越来越碎,序列越长,效率掉得越明显。

LongCat-2.0就是从这里接手,提出了LongCat稀疏注意力(LSA),对索引器做了三项针对性优化:

把零散访问整理成连续读取、让相邻层共享索引结果、再通过两阶段筛选减少计算量。

这三项优化相互独立,可以按需组合,叠在一起的效果是让1M上下文的处理速度显著提升,同时模型质量基本无损。

△LongCat稀疏注意力设计总览

另一个很有意思的设计是N-gram Embedding,继承自LongCat-Flash-Lite,并做了进一步增强。

很多MoE模型提升能力的方法都是继续堆专家,但LongCat团队反而把一部分参数“前移”到了Embedding层,让模型一开始就能识别更多高频词组和语言模式。

简单理解就是,以前很多事情要模型思考几十层才能反应过来,现在一开场就能认出来。

这样既提高了代码、指令理解等任务的准确率,也减少了专家之间频繁通信带来的额外开销。

△N-gram Embedding总览

除此之外,像ScMoE快捷连接零计算专家等设计,也都围绕着同一个目标,就是让模型把算力花在真正值得算的地方

这套架构创新让模型实现更快、更省、效果更强,但5万张国产卡大规模集群落地,还需攻克诸多工程难题。

其中最现实的问题就是,卡会坏。

在这样的规模下,几乎每天都会出现硬件故障,所以LongCat团队专门搭了一套自动化故障处理体系。

从异常检测、链路切换到自动恢复几乎全部自动完成,把日均故障率从万分之15.7降到了万分之4.4,还支持训练任务从2560张卡一路扩到5万多张卡,不用推倒重来。

另一边,他们又重写了一整套适配国产芯片的算子和并行方案,把硬件利用率(MFU)从17.8%提升到27.68%,单日Token处理能力从7170亿提升到了1.12万亿。

靠着一系列架构和工程优化,美团把国产芯片的潜力一点点释放出来。

而且这些优化叠在一起,还有一个特别现实的好处——

省钱

零计算专家减少无效计算,ScMoE减少等待时间,N-gram Embedding降低通信压力,再叠加国产芯片本身的成本优势,LongCat-2.0的训推成本比同等规模的英伟达路线低了不少。

3年等待的“国芯+国模”终上台前

从公开信息来看,美团布局国产算力已有三年。

2023年初美团成立了LongCat基座团队,起步的第一件事就是搭建国产算力集群

众所周知,用国产卡训模型意味着每个环节都要自己啃,研发周期更长,成本更高。

但国产算力集群一定是未来的主流,美团的选择就是在用“时间换空间”,接受了短期适配阵痛,提前吃透国产算力全链路以稳住大模型长期迭代节奏。

现在看来,这个判断价值正在兑现。

2023年搭集群跑通千亿参数训练流程,2024年在国产卡上验证MoE架构,2025年推出5600亿参数的LongCat-Flash,2026年落地了1.6万亿参数的LongCat-2.0。

而且OR上匿名的Owl Alpha,用两个月时间证明了一个比纸面技术指标更关键的问题:

国产芯片训出来的万亿规模模型,全球开发者也会买账。

LongCat-2.0在完全匿名、无品牌背书的情况下,在多个场景下会被当成首选,这说明模型交付的结果大家是认可的。

今年3月,美团核心本地商业CEO王莆中在内部谈到AI时曾提到过一个关键词,建设物理世界AI底座

他当时表示,美团会持续投入基础模型,做有特色、低推理成本,同时能力紧跟SOTA的模型。

从这个角度再看LongCat-2.0,全流程训推只靠国产算力的它,确实在往有特色和低推理成本的逻辑上靠;

同时它的出现也像是在给未来的物理世界AI打地基,基模能力站住了,往上搭理解层和行动层才有着力点。

那么问题来了,下次冲榜的新SOTA,会以什么新马甲出现呢?(doge)

参考链接:
[1]
https://x.com/dr_cintas/status/2071363139967291838
[2]
https://x.com/rohanpaul_ai/status/2071123605694652737
[3]
https://github.com/gabrielecirulli/2048


100%(1) 0.00%(0) 0.00%(0)
当前新闻共有0条评论
笔  名 (必选项):
密  码 (必选项):
注册新用户
标  题 (必选项):
内  容 (选填项):