以下是根据2026年2月的最新信息整理的世界AI大模型排名 : OpenRouter模型调用量排名| 测评类型 | 第一名 | 第二名 | 第三名 |
|---|
| 模型调用量 | Kimi K2.5 | Gemini 3 Flash Preview | DeepSeek V3.2 | | 公司市占率 | Google | Anthropic | Moonshotai | | 模型速度 | gpt-oss-safeguard-20b | Qwen3 32B | gpt-oss-120b | | 编程模型调用量 | Kimi K2.5 | MiniMax M2.1 | Claude Opus 4.6 |
各领域能力榜单| 测评类型 | 领先公司 |
|---|
| 大语言模型 Text Arena | Anthropic、Google、xAI、OpenAI | | 编程能力 Code Arena | Anthropic、OpenAI、智谱、Google、Kimi | | 编程能力 LiveCodeBench | Anthropic、OpenAI、Google | | 代码工程任务能力 SWE-bench | Anthropic、Google、OpenAI | | 图像编辑和生成能力 Image Edit Arena | OpenAI、Google、xAI、字节、腾讯 | | 文生图能力 Text-to-Image Arena | OpenAI、Google、xAI、Black Forest Labs、腾讯 | | 图像编辑和生成能力 Image Editing Leaderboard | OpenAI、Google、xAI、腾讯、字节、Black Forest Labs、阿里巴巴、Reve | | 文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、xAI、字节 | | GPQA | OpenAI、Google、Anthropic、xAI | | FrontierMath | OpenAI、Anthropic、Google、月之暗面、DeepSeek | | Humanity's Last Exam | Google、OpenAI、Anthropic | | GAIA | LR AILab of Lenovo CTO Org、JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、ShawnAgent、ZTE-AICloud |
第一梯队:国际“三巨头”ChatGPT (OpenAI):综合能力最强,无论是写诗、写代码还是逻辑推理,几乎没有短板;生态无敌,拥有海量的GPTs(插件),可以画图、数据分析、联网搜索,一站式搞定;语音模式的实时语音对话流畅度目前仍是独一档的存在 。 Claude (Anthropic):最像“人”的AI,是ChatGPT最强的竞争对手;拟人化最高,写出来的文章不仅逻辑通顺,而且文笔优美,没有“AI味”,非常适合公文写作、邮件润色;Artifacts功能能够直接在侧边栏预览代码效果(如网页、图表),是前端程序员和数据分析师的最爱;超大上下文能够一次性吃透整本书的内容 。 Gemini (Google):在多个能力榜单中表现强劲,如在大语言模型Text Arena中排名靠前,在编程能力榜单中也有出色表现 。
第二梯队:国内大模型Kimi (Moonshot):在模型调用量和编程能力榜单中表现突出,Kimi K2.5从第3名跃升至第1名,使用量翻倍增长125%,在编程场景展现统治力,市占率30.8%,远超其在通用场景的12.6%份额,同时领先第二名近20个百分点 。 智谱:在编程能力榜单中成为本期最大黑马,直接杀入前6,分数1449分,超越Google Gemini 2.5 Pro 。 百度:在大语言模型Text Arena中排名靠前 。 阿里巴巴:在大语言模型Text Arena中排名靠前 。
其他值得关注的AI模型DeepSeek:上线新模型,上下文窗口提升至1M tokens 。 Qwen:千问团队推进Qwen3.5系列模型发布 。
|