军事论坛	时事论坛	汽车论坛	摄影论坛
股票论坛	游戏论坛	音乐论坛

万维读者网>世界军事论坛>帖子

全球首个英伟达含量为0的万亿模型，成了海外开发者的抢手货

送交者: 员外 2026-07-02 17:47:50 于 [世界军事论坛]

量子位 | 公众号 QbitAI

国产算力能不能撑起万亿参数大模型？

终于有人交卷了！美团LongCat-2.0登场。

模型采用自研MoE混合专家架构，总参数达1.6万亿，每token激活约48B参数，原生支持1M超长上下文。

从训练到推理，英伟达含量为0——

成为首个在国产算力上实现全链路训推闭环的万亿参数模型。

从多项专业评测数据来看，LongCat-2.0在代码、工具调用和多步逻辑推理等任务上具备较强综合性能。

不过，这位倒也不算开发者的“新朋友”，因为人家早就披着马甲“不小心”成为了全球Agent开发者的最爱～

没错，最近在OpenRouter上挺火热的Owl Alpha，正是LongCat-2.0（面具版）。

月调用量在Hermes、Claude Code和OpenClaw分列全球第一、第二和第三位，成为开发者首选的开源模型。

所以说，这位不仅第一个在国产卡上跑通了万亿级训推，还提前通过了市场的真实流量验证？？

有意思有意思，等不及了，咱也来上手测一波！

体验方式：
https://longcat.chat/platform/product

新用户认证送1000万token

技术报告：
https://longcat.ai/blog/longcat-2.0/

把LongCat-2.0扔进三个坑里

既然Hermes榜单它稳坐第一，那咱也就接入Hermes看看实力～

先拿长上下文开刀。

为了验证它是不是真的把信息读进去了，我特意没用公开的论文或者技术白皮书。

自己手动拼了一份语料，把几份不同行业的研报、不同领域的几篇论文拼到一起，中英混杂凑了好几万字，be like：

我先问了一个藏在文档中前段的信息，是一份跨境电商进出口报告。

对比一下回答，信息完全正确！

还有被我特意拆分的完整统计报告，LongCat-2.0也能准确找到，而且感觉速度挺快，就1秒……

它做分析推理也挺清晰，扛住了几万字攻击！

好，胆子大一点，让它干一件程序员最烦的事情：接盘。

我找了一个开源代码仓库，GitHub上13k star的原版2048，纯HTML+CSS+JavaScript架构的项目。

把它丢给LongCat-2.0，然后提了两个具体需求：

视觉类修改：把整个游戏的配色方案改成赛博朋克风格，要深色背景、霓虹色的方块、发光效果的数字。
功能类修改：把4x4的棋盘改成5x5，同时增加一个计步器显示在棋盘下方，记录玩家一共滑了多少步。

拿到任务后它先把关键文件挨个过了一遍，自己拆出了一个7步的修改计划。

剩下的完全不用我管，LongCat-2.0自己跑了12分钟，交付了一个完整的结果。

那咱就来试玩一把！

从效果上看，我要的计步器和5x5方格都有，而且改完配色ok。

视频地址：https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q

改个颜色加个计步器当然不算难活儿，我又加了一道题。

让它把整个项目从原生JavaScript迁移到React。

跑出来的游戏看着一样，功能全部保留，但底层代码已经完全重写了。

LongCat-2.0官宣后的这两天，看到不少朋友说它和Claude Code搭配也很香。

好好好，那咱接入Claude Code再试一局。

这次我给了一个研究主题让它帮忙调研。虽然Claude Code自带deep-research，但咱先不用，看看LongCat-2.0的实力如何。

视频地址：https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q

通过Agent原生能力自主连网搜索，LongCat-2.0独立完成了整篇结构化报告。

当然了，代码能力也不能落下，那就来个「只有一道门」魔性小游戏吧。

拿到任务后，LongCat-2.0开启了统筹能力，先把项目架构一列，然后就开始哐哐写代码。

中间的架构设计、模块拆分、技术选型，全是它自己定的。关卡逻辑、交互细节、通关动画一个没落，并主动加了个Web Audio音效。

视频地址：https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q

然后我还顺手接入LongCat-2.0的API做了个代码分析师，输入任意GitHub仓库，就能定制一份专属分析报告。

什么项目结构、核心模块、接管的潜在问题、优化建议，全被它给读懂了。

视频地址：https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q

在测试的过程中，咱还发现了一个“彩蛋”：给LongCat-2.0、GPT5.5、Opus 4.6、Opus 4.8同一段提示词让四个模型生成一套物理仿真代码。

肉眼看上去，各选手呈现效果接近。

但token用量LongCat明显是最少的，9004tokens，按美团的计费算下来都不到1毛钱。

这或许就是官方所说Cache命中不计费，Token Plan不算消耗的结果。

要说“省钱”，美团确实是一把好手。

反正这么体验一圈下来，我感觉这LongCat-2.0和主流编程工具的适配度确实挺高。

当然了，支撑这些能力的背后，是LongCat-2.0在架构层面的一系列原创设计。

并且这些设计诞生在一个特殊的背景下：

LongCat-2.0从训练到推理，全程基于国产芯片完成。

那么问题来了：国产卡集群是怎么hold住万亿参数模型的？

5万张国产卡撑起一个万亿模型

说到国产芯片跑AI，其实推理这一步行业里已经有所验证。

过去几年，确实有大模型和线上服务能跑在国产算力平台上运行。

训练方面，行业也陆续有模型完成了百亿、甚至千亿级的训练探索。

但仔细看这些成果，本质上都还是某个环节的单点能力验证。

万亿参数级别，从预训练的第一天就跑在国产卡上的训推全链路闭环，在LongCat-2.0之前还没有出现过。

并且这么大规模跑完全流程，考验的是整个系统工程能力，国产芯片的硬件条件又让这件事难上加难。

单卡显存更小，1.6万亿参数只能拆到成千上万张卡上一起跑；

可通信带宽又不像NVLink那么充裕，跨节点通信延迟更高，大规模并行训练中计算与通信容易出现不对齐，拖慢整体吞吐。

△图片AI生成

硬件差距之外，软件生态也是个坎儿。

在英伟达平台上，很多算子、调试工具、确定性计算能力都已经非常成熟，换到国产芯片之后，很多东西都得自己重写、自己优化。

比如FlashAttention的反向梯度算子，国产原有确定性实现只能单核串行，速度慢20-70倍，无法落地生产。

所以，LongCat-2.0的意义并不只是又多了一个1.6万亿参数模型。

对于国产AI生态来说，它首次证明了国产算力已经具备了支撑先进大模型持续训练、持续部署和持续迭代的能力。

另外一个值得关注的点，就是针对Agent时代重新设计的LongCat Sparse Attention（LSA）。

Agent意味着模型一次要处理大量上下文，1M上下文带来的最大压力就在注意力计算。

DeepSeek之前提出过一套稀疏注意力方案DSA，核心思路是让模型只关注关键token来降低计算量。

但这个方案实际跑起来有个问题是，筛选关键token的索引器本身成了性能瓶颈，索引计算越来越慢，显存访问越来越碎，序列越长，效率掉得越明显。

LongCat-2.0就是从这里接手，提出了LongCat稀疏注意力（LSA），对索引器做了三项针对性优化：

把零散访问整理成连续读取、让相邻层共享索引结果、再通过两阶段筛选减少计算量。

这三项优化相互独立，可以按需组合，叠在一起的效果是让1M上下文的处理速度显著提升，同时模型质量基本无损。

△LongCat稀疏注意力设计总览

另一个很有意思的设计是N-gram Embedding，继承自LongCat-Flash-Lite，并做了进一步增强。

很多MoE模型提升能力的方法都是继续堆专家，但LongCat团队反而把一部分参数“前移”到了Embedding层，让模型一开始就能识别更多高频词组和语言模式。

简单理解就是，以前很多事情要模型思考几十层才能反应过来，现在一开场就能认出来。

这样既提高了代码、指令理解等任务的准确率，也减少了专家之间频繁通信带来的额外开销。

△N-gram Embedding总览

除此之外，像ScMoE快捷连接、零计算专家等设计，也都围绕着同一个目标，就是让模型把算力花在真正值得算的地方。

这套架构创新让模型实现更快、更省、效果更强，但5万张国产卡大规模集群落地，还需攻克诸多工程难题。

其中最现实的问题就是，卡会坏。

在这样的规模下，几乎每天都会出现硬件故障，所以LongCat团队专门搭了一套自动化故障处理体系。

从异常检测、链路切换到自动恢复几乎全部自动完成，把日均故障率从万分之15.7降到了万分之4.4，还支持训练任务从2560张卡一路扩到5万多张卡，不用推倒重来。

另一边，他们又重写了一整套适配国产芯片的算子和并行方案，把硬件利用率（MFU）从17.8%提升到27.68%，单日Token处理能力从7170亿提升到了1.12万亿。

靠着一系列架构和工程优化，美团把国产芯片的潜力一点点释放出来。

而且这些优化叠在一起，还有一个特别现实的好处——

省钱。

零计算专家减少无效计算，ScMoE减少等待时间，N-gram Embedding降低通信压力，再叠加国产芯片本身的成本优势，LongCat-2.0的训推成本比同等规模的英伟达路线低了不少。

3年等待的“国芯+国模”终上台前

从公开信息来看，美团布局国产算力已有三年。

2023年初美团成立了LongCat基座团队，起步的第一件事就是搭建国产算力集群。

众所周知，用国产卡训模型意味着每个环节都要自己啃，研发周期更长，成本更高。

但国产算力集群一定是未来的主流，美团的选择就是在用“时间换空间”，接受了短期适配阵痛，提前吃透国产算力全链路以稳住大模型长期迭代节奏。

现在看来，这个判断价值正在兑现。

2023年搭集群跑通千亿参数训练流程，2024年在国产卡上验证MoE架构，2025年推出5600亿参数的LongCat-Flash，2026年落地了1.6万亿参数的LongCat-2.0。

而且OR上匿名的Owl Alpha，用两个月时间证明了一个比纸面技术指标更关键的问题：

国产芯片训出来的万亿规模模型，全球开发者也会买账。

LongCat-2.0在完全匿名、无品牌背书的情况下，在多个场景下会被当成首选，这说明模型交付的结果大家是认可的。

今年3月，美团核心本地商业CEO王莆中在内部谈到AI时曾提到过一个关键词，建设物理世界AI底座。

他当时表示，美团会持续投入基础模型，做有特色、低推理成本，同时能力紧跟SOTA的模型。

从这个角度再看LongCat-2.0，全流程训推只靠国产算力的它，确实在往有特色和低推理成本的逻辑上靠；

同时它的出现也像是在给未来的物理世界AI打地基，基模能力站住了，往上搭理解层和行动层才有着力点。

那么问题来了，下次冲榜的新SOTA，会以什么新马甲出现呢？（doge）

参考链接：
[1]
https://x.com/dr_cintas/status/2071363139967291838
[2]
https://x.com/rohanpaul_ai/status/2071123605694652737
[3]
https://github.com/gabrielecirulli/2048

100%(1) 0.00%(0) 0.00%(0)

当前新闻共有0条评论

广告：webads@creaders.net

电话：604-438-6008,604-438-6080

投稿：webeditor@creaders.net