chatGPT对失利的报道-世界游戏论坛-军事论坛-世界论坛网（手机版）


军事论坛	时事论坛	汽车论坛	摄影论坛
股票论坛	游戏论坛	音乐论坛

万维读者网>世界游戏论坛>帖子

chatGPT对失利的报道

送交者: 火树 2025-08-06 15:14:53 于 [世界游戏论坛]

DeepSeek‑R1 和 Kimi K2 Instruct 首轮被淘汰

✅ 赛事背景

参赛模型包括 OpenAI 的 o3／o4‑mini、Google 的 Gemini 2.5 Pro／Flash、Anthropic 的 Claude Opus 4、xAI 的 Grok 4，以及中国开源模型 DeepSeek‑R1 和 Moonshot 的 Kimi K2 InstructYouTube+15SiliconANGLE+15TechSpot+15。

比赛规则突出：“所有对弈动作必须模型自行推理，不能调用外部工具（如 Stockfish）”，并且每次只允许生成文本棋步，不提供合法落子选项。一旦连续四次尝试非法走法，该局即被判负SiliconANGLE+1。

🎯 比赛结果一览

首轮（八强赛）共四组对局，均为 4‑0 横扫，获胜方依次为 Grok 4、Gemini 2.5 Pro、o4‑mini、o3GitHub+6WinBuzzer+6Chess.com+6。

DeepSeek‑R1 vs o4‑mini：对阵中 DeepSeek‑R1 开局表现尚可，但随后频繁出现严重失误和无效走步。o4‑mini 把握机会胜出，完成两次成功将死GitHub+12WinBuzzer+12blog.mathieuacher.com+12。
Kimi K2 Instruct vs o3：表现极差，全局四场皆因连试四次非法走法被判负。从而在极短时间内（每局不超过 8 步）被淘汰Reddit+7WinBuzzer+7Aibase+7。

知乎专栏也指出：这两款中国模型的入选本身就备受争议，因为 Kimi K2 并不是专门针对推理设计，而 DeepSeek‑R1 发布已有半年，技术已相对滞后，所以其结果并不能全面反映中国大模型的整体实力guancha.cn。

⚙️ 技术反思：比赛透露出的更重要信息

通用大模型的推理必然仍有明显短板。无论是 DeepSeek‑R1 还是 Kimi K2，在基本棋盘认知、规则推理与合法行棋判断上暴露出系统性缺陷，即使在其他任务中推理能力强，也不代表能在象棋这类逻辑封闭、规则严格的环境中表现均衡guancha.cnWinBuzzer。
赛事主办方也强调：这只是一个起步，未来还会纳入更多更新、更专业的模型参赛，以形成更客观的行业比较标准guancha.cnfinance.sina.com.cn。

总结 ⚖️

模型	对阵对手	最终战绩	表现亮点/问题
DeepSeek‑R1	o4‑mini	0‑4	开局尚可，中盘频繁错误，被抓住失误翻盘
Kimi K2 Instruct	o3	0‑4	连续非法落子导致多局自动判负，未能完成合法对弈