军事论坛 | 时事论坛 | 汽车论坛 | 摄影论坛 |
股票论坛 | 游戏论坛 | 音乐论坛 | |
万维读者网>世界游戏论坛>帖子 |
GPT-5很强,但也很无趣。 |
送交者: 火树 2025-08-09 14:58:40 于 [世界游戏论坛] |
不到一天的时间,OpenAI的发布推文就获得了300万阅读,3万点赞;世超的朋友圈、群聊,也全是被GPT-5刷屏的。 虽然大家伙都喊着OpenAI越来越拉了,再也不用了,但每次他们发布新模型,AI圈都得震一下,关不关注AI的都会来聊上一嘴。 果然,大家还是忘不了ChatGPT。。 所以,GPT5到底咋样?用奥特曼的话来说,这是他们做过的最智能的模型,还说在任何领域,GPT-5都达到了博士级别的水平。 但从网友的反应看,不少人都在对这个船新版本GPT发出锐评,抱怨这玩意根本就不是GPT-5,还不如grok。 Polymarket上还发起了一个叫“哪家公司在八月末拥有最顶级的AI模型”的竞猜,结果就在发布会刚开完时,谷歌和OpenAI的赔率来了个两极反转。
但我觉得吧,网友反应这么大,主要还是奥特曼吹得太狠了,还没发布的时候,AI圈还没震,自己就开始震上了。 该说不说,GPT-5的跑分是挺强的,在大模型竞技场LMArena上夺得了大满贯,全方位第一。 但到底好不好用,只有用户亲身体验过才知道。在体验了一圈GPT-5后,世超得出的结论是:没那么惊艳,不如叫GPT4.6。
首先我让它模拟了下我们高中就学过的弹性碰撞。 提示词:我是一名高中生,通过物理模拟让我理解弹性碰撞。 ![]() 这家伙确实做得不错,不仅在球上把速度方向标注出来了,还能在碰撞中丝滑改变球的大小。 Gemini做得也还行,但总体感觉丝滑度上不如GPT,我一改变大小,球就卡住了,让我们强迫症非常不适。 ![]()
首先是GPT-5,这牌做得还真有点东西,非常的有动感。。 提示词:模拟多米诺骨牌的物理过程,左键放牌,右键倒牌。 ![]() Gemini这边呢,就理解得不是很好了,虽然也能倒吧,就是给哥们把牌挂到天上去了。。 ![]() 当然这只是几个好的案例,也有比较搞笑的时候。。 我简单描述了下需求,让它生成了一个开飞船的游戏,没别的,主要是想开飞机。
![]() 除了这些,其他更新基本都是对现有能力的进一步优化。OpenAI这次的更新似乎就是朝着“节能高效”这个方向去的,完全不同于之前GPT3.5到4那样飞跃式的更新。 根据 OpenAI 官方博客的介绍,GPT-5 在思考和输出上都更加高效。它在保证准确率的同时,思考时间更短,输出的 Token 数量也减少了 50% 到 80%。 而且,GPT-5 对困扰大伙已久的幻觉问题也出了狠手,它的事实错误率比 GPT-4o 低了 45%,思考时的事实错误率更是比 GPT-4o 低了约 80%。 也就是说,GPT-5 变得更加诚实了。它清楚自己的能力边界,遇到不会的问题会直接说“不会”,做不到的事情会直说“做不到”,而不是像以前一样一本正经地胡说八道。
但我体验了一圈下来,GPT-5给我的感觉,就像一个靠灵性吃饭的诗人,突然间失去了灵感。。 它在逻辑、推理、数学、编程这些需要严密思维的领域,达到了前所未有的高度,但文本创作这块,它却显得有些力不从心。 我先让GPT-5,撰写了一段夸自己的文字,说是得有生活气息,不能太尬。 结果我看了下,给我写了首诗,略微肉麻。。 接着,我们来看看Gemini怎么夸自己。(因为我让Gemini夸GPT5,它拒绝了) 虽然说文无第一,但我还是感觉Gemini写的,AI味道更淡一些。
虽然发布会上说,GPT-5大幅减少了幻觉。但结果是它的文本变得过于保守和安全,那种信手拈来的奇妙比喻,那种让人拍案叫绝的独特视角,好像少了一些。 此外,网上有很多人控诉,在发布GPT-5的同时,OpenAI还强行删除了5之前的其他模型。。 现在,你打开GPT的界面,在模型选择的下拉菜单里,你基本只能看到GPT-5选项。 只能说,这操作确实有点离谱。毕竟国内的模型都能让我们决定是否“深度思考”,有时候需要又快又准,有时候也需要多而广,现在OpenAI却直接替用户做主,把所有选择权都收回去了。
但世超发现,ChatGPT的Pro会员还是能使用之前的旧模型的,属于是有点区别对待了。。(如果你希望用回 GPT-4o/4.5,在头像-设置里勾选显示传统模型,就可以切回传统模型了) 不仅如此,官方的偷偷降智行为,也不是很厚道。。 就那个奥特曼在发布会上展示的做音乐的例子,如果你的GPT-5被降智了,你是复刻不出来的,感兴趣的差友可以去试试。。
一方面,这可能意味着大模型在基座性能升级上遇到了一定的瓶颈。另一方面,这种方向的调整确实有意义。毕竟,在过去几年里,大模型为了追求性能的狂野升级,导致幻觉、成本等 AI 常见问题一直被放在次要位置。 如今,随着 OpenAI 的周活跃用户已经达到 7 亿,在性能升级有限的情况下,是时候好好打磨一下产品体验了。 但大伙还是需要一些期待的,毕竟很久没有过一个开天辟地的新模型了。 所以下一个被寄予厚望的模型是谁呢? 就决定是你们了,DeepSeek R2 和 Gemini 3.0! 图片、资料来源: OpenAI、X、部分图源网络 |
0.00%(0)
0.00%(0)
0.00%(0)
|
当前新闻共有0条评论 |
|
![]() |
![]() |
广告:webads@creaders.net | ||||||||
电话:604-438-6008,604-438-6080 | ||||||||
投稿:webeditor@creaders.net | ||||||||
|