GPT-5很强，但也很无趣。-世界游戏论坛-军事论坛-世界论坛网（手机版）

500 千呼万唤始出来，奥特曼终于端出来了全世界网友都心心念念的GPT-5。

不到一天的时间，OpenAI的发布推文就获得了300万阅读，3万点赞；世超的朋友圈、群聊，也全是被GPT-5刷屏的。

500

虽然大家伙都喊着OpenAI越来越拉了，再也不用了，但每次他们发布新模型，AI圈都得震一下，关不关注AI的都会来聊上一嘴。

果然，大家还是忘不了ChatGPT。。

所以，GPT5到底咋样？用奥特曼的话来说，这是他们做过的最智能的模型，还说在任何领域，GPT-5都达到了博士级别的水平。

500

但从网友的反应看，不少人都在对这个船新版本GPT发出锐评，抱怨这玩意根本就不是GPT-5，还不如grok。

500

Polymarket上还发起了一个叫“哪家公司在八月末拥有最顶级的AI模型”的竞猜，结果就在发布会刚开完时，谷歌和OpenAI的赔率来了个两极反转。

500

500 最搞的是，在发布会的时候，OpenAI放了张柱状图，在比较大模型写代码的准确度时，52.8%画得比69.1%还高，小学生都画不出来，这一波黑子白子都洗不了了。。

500

但我觉得吧，网友反应这么大，主要还是奥特曼吹得太狠了，还没发布的时候，AI圈还没震，自己就开始震上了。

500

该说不说，GPT-5的跑分是挺强的，在大模型竞技场LMArena上夺得了大满贯，全方位第一。

500

但到底好不好用，只有用户亲身体验过才知道。在体验了一圈GPT-5后，世超得出的结论是：没那么惊艳，不如叫GPT4.6。

500 首先，让大家最称赞的，还是GPT-5的编程能力。咱就和竞技场榜二Gemini 2.5 pro掰头一下。

首先我让它模拟了下我们高中就学过的弹性碰撞。

提示词：我是一名高中生，通过物理模拟让我理解弹性碰撞。

这家伙确实做得不错，不仅在球上把速度方向标注出来了，还能在碰撞中丝滑改变球的大小。

Gemini做得也还行，但总体感觉丝滑度上不如GPT，我一改变大小，球就卡住了，让我们强迫症非常不适。

500 接着，我掏出了我最爱的多米诺骨牌，这玩意我试过很多AI，基本都很难做出来。。

首先是GPT-5，这牌做得还真有点东西，非常的有动感。。

提示词：模拟多米诺骨牌的物理过程，左键放牌，右键倒牌。

Gemini这边呢，就理解得不是很好了，虽然也能倒吧，就是给哥们把牌挂到天上去了。。

当然这只是几个好的案例，也有比较搞笑的时候。。

我简单描述了下需求，让它生成了一个开飞船的游戏，没别的，主要是想开飞机。

500

500 它写出来的，只能说很一般，尾焰和动力根本不是一个方向，我直接出门即坠机。。

除了这些，其他更新基本都是对现有能力的进一步优化。OpenAI这次的更新似乎就是朝着“节能高效”这个方向去的，完全不同于之前GPT3.5到4那样飞跃式的更新。

根据 OpenAI 官方博客的介绍，GPT-5 在思考和输出上都更加高效。它在保证准确率的同时，思考时间更短，输出的 Token 数量也减少了 50% 到 80%。

而且，GPT-5 对困扰大伙已久的幻觉问题也出了狠手，它的事实错误率比 GPT-4o 低了 45%，思考时的事实错误率更是比 GPT-4o 低了约 80%。

500

也就是说，GPT-5 变得更加诚实了。它清楚自己的能力边界，遇到不会的问题会直接说“不会”，做不到的事情会直说“做不到”，而不是像以前一样一本正经地胡说八道。

500 当然，对于俺们编辑来说，模型最重要的应该是写文章的能力，毕竟能帮我们上班（当然不是）。

但我体验了一圈下来，GPT-5给我的感觉，就像一个靠灵性吃饭的诗人，突然间失去了灵感。。

它在逻辑、推理、数学、编程这些需要严密思维的领域，达到了前所未有的高度，但文本创作这块，它却显得有些力不从心。

我先让GPT-5，撰写了一段夸自己的文字，说是得有生活气息，不能太尬。

结果我看了下，给我写了首诗，略微肉麻。。

500

接着，我们来看看Gemini怎么夸自己。（因为我让Gemini夸GPT5，它拒绝了）

500

虽然说文无第一，但我还是感觉Gemini写的，AI味道更淡一些。

500 如果要量化的话，你数一下两段话破折号和引号的数量，你就懂了。

虽然发布会上说，GPT-5大幅减少了幻觉。但结果是它的文本变得过于保守和安全，那种信手拈来的奇妙比喻，那种让人拍案叫绝的独特视角，好像少了一些。

此外，网上有很多人控诉，在发布GPT-5的同时，OpenAI还强行删除了5之前的其他模型。。

现在，你打开GPT的界面，在模型选择的下拉菜单里，你基本只能看到GPT-5选项。

500

只能说，这操作确实有点离谱。毕竟国内的模型都能让我们决定是否“深度思考”，有时候需要又快又准，有时候也需要多而广，现在OpenAI却直接替用户做主，把所有选择权都收回去了。

500 当然也有些人说好，毕竟有些人是选择困难症，就喜欢别人帮他做决定，这就仁者见仁了。

但世超发现，ChatGPT的Pro会员还是能使用之前的旧模型的，属于是有点区别对待了。。（如果你希望用回 GPT-4o/4.5，在头像-设置里勾选显示传统模型，就可以切回传统模型了）

500

不仅如此，官方的偷偷降智行为，也不是很厚道。。

就那个奥特曼在发布会上展示的做音乐的例子，如果你的GPT-5被降智了，你是复刻不出来的，感兴趣的差友可以去试试。。

500

500 总的来说，比起基础能力的巨大提升，这次 OpenAI 的更新更值得关注的是其“实用第一”的策略。

一方面，这可能意味着大模型在基座性能升级上遇到了一定的瓶颈。另一方面，这种方向的调整确实有意义。毕竟，在过去几年里，大模型为了追求性能的狂野升级，导致幻觉、成本等 AI 常见问题一直被放在次要位置。

如今，随着 OpenAI 的周活跃用户已经达到 7 亿，在性能升级有限的情况下，是时候好好打磨一下产品体验了。

但大伙还是需要一些期待的，毕竟很久没有过一个开天辟地的新模型了。

所以下一个被寄予厚望的模型是谁呢？

就决定是你们了，DeepSeek R2 和 Gemini 3.0！

图片、资料来源：

OpenAI、X、部分图源网络


军事论坛	时事论坛	汽车论坛	摄影论坛
股票论坛	游戏论坛	音乐论坛

差评XPIN
差评官方账号

当前新闻共有0条评论

差评XPIN差评官方账号

当前新闻共有0条评论

差评XPIN
差评官方账号