DeepSeek‑R1 和 Kimi K2 Instruct 首轮被淘汰✅ 赛事背景参赛模型包括 OpenAI 的 o3/o4‑mini、Google 的 Gemini 2.5 Pro/Flash、Anthropic 的 Claude Opus 4、xAI 的 Grok 4,以及中国开源模型 DeepSeek‑R1 和 Moonshot 的 Kimi K2 InstructYouTube+15SiliconANGLE+15TechSpot+15。 比赛规则突出:“所有对弈动作必须模型自行推理,不能调用外部工具(如 Stockfish)”,并且每次只允许生成文本棋步,不提供合法落子选项。一旦连续四次尝试非法走法,该局即被判负SiliconANGLE+1。 🎯 比赛结果一览首轮(八强赛)共四组对局,均为 4‑0 横扫,获胜方依次为 Grok 4、Gemini 2.5 Pro、o4‑mini、o3GitHub+6WinBuzzer+6Chess.com+6。 知乎专栏也指出:这两款中国模型的入选本身就备受争议,因为 Kimi K2 并不是专门针对推理设计,而 DeepSeek‑R1 发布已有半年,技术已相对滞后,所以其结果并不能全面反映中国大模型的整体实力guancha.cn。
⚙️ 技术反思:比赛透露出的更重要信息
总结 ⚖️| 模型 | 对阵对手 | 最终战绩 | 表现亮点/问题 |
|---|
| DeepSeek‑R1 | o4‑mini | 0‑4 | 开局尚可,中盘频繁错误,被抓住失误翻盘 | | Kimi K2 Instruct | o3 | 0‑4 | 连续非法落子导致多局自动判负,未能完成合法对弈 |
两款中国模型首轮被淘汰,深刻反映出当前开放模型(尤其是针对通用任务的推理模型)在特定推理赛道中尚需改进——无论是规则理解、棋盘记忆,还是 合法性判断能力,都存在普遍盲点。
展望未来如果你对 Kimi K2 或 DeepSeek‑R1 的技术背景、架构机制或其在其他 benchmark 中的能力感兴趣,也可以继续深入了解它们与热点模型在编程、数学、agent 等领域的对比成绩。我可以进一步整理资料或引用相关 benchmark 分析。
|