奇点真来了？史上首个"自我进化"AI诞生-时事新闻-世界论坛网（手机版）


即时	热点	图片	时事	军情	国际	评论
兵器	史海	体育	户外	论坛	博客	文学

世界论坛网 > 时事新闻 > 正文

奇点真来了？史上首个"自我进化"AI诞生

wforum.com 2026-02-07 13:25 鲸选A

2月5日刷推特，被一条消息直接看傻了。

OpenAI 官方账号发布：GPT-5.3-Codex 正式上线，这是“第一个参与创造自己的模型”。

什么意思？就是说，这个 AI 在开发过程中，帮忙调试了自己的训练代码、管理了自己的部署流程、诊断了自己的测试结果。

说人话就是：AI 开始造 AI 了。

前 OpenAI 研究员、特斯拉 AI 总监 Andrej Karpathy 看完直接发推：“这是我见过最接近科幻小说中 AI 起飞场景的东西。”

AI 造 AI，不是科幻了

2 月 5 日，OpenAI 和 Anthropic 仅仅相隔 20 分钟，就都发布了新一代模型。先是 Anthropic 发布 Claude Opus 4.6，然后 OpenAI 推出 GPT-5.3-Codex，中门对狙。既然 OpenAI 想用 GPT-5.3-Codex 狙击别人家的新模型，那肯定得有点本事。

奇点真来了？史上首个

数据不会骗人。GPT-5.3-Codex 一上线就在多个行业基准测试中刷新了纪录。

SWE-Bench Pro:56.8% 的突破

这是一个专门测试真实软件工程能力的基准，覆盖 Python、JavaScript、Go、Ruby 四种编程语言。GPT-5.3-Codex 拿下了 56.8% 的成绩，超过了前代 GPT-5.2-Codex 的 56.4%，继续保持行业第一。

更关键的是，OpenAI 透露，GPT-5.3-Codex 在达到这个分数时使用的输出 token 数量是所有模型中最少的——这意味着它不仅准确，而且高效。citation

Terminal-Bench 2.0：77.3% 碾压对手

这个基准测试的是 AI 在真实终端环境中的操作能力——编译代码、训练模型、配置服务器这些实际工作。

GPT-5.3-Codex 得分 77.3%，而 GPT-5.2-Codex 只有 64.0%, Claude Opus 4.6 据报道是 65.4%。

GPT一代之间提升 13 个百分点，这在 AI 领域已经是巨大的飞跃。

奇点真来了？史上首个

OSWorld-Verified:64.7% 接近人类水平

这是一个测试 AI 在可视化桌面环境中完成生产力任务的基准——编辑电子表格、制作演示文稿、处理文档等。

GPT-5.3-Codex 得分 64.7%，而人类的平均水平是 72%。这意味着它在电脑操作任务上已经接近普通人的表现，比前代几乎翻了一倍。

最重要的一件事，官方一句话也震惊到了大家，“GPT-5.3 Codex 是我们第一个在创造自己的过程中发挥重要作用的模型。”OpenAI 直接说道，GPT-5.3-Codex 的早期版本被用来调试训练过程、管理部署管道、解释评估异常。“

AI 自我迭代自己，这不是营销话术。根据 OpenAI 内部披露，GPT-5.3-Codex 在开发过程中做了这些事：

分析训练日志，标记失败的测试

给训练脚本和配置文件提建议修复方案

生成部署配方

总结评估异常供人类审查

这意味着什么？AI 不再只是工具，它开始成为开发团队的一员，而且是能改进自己的那种。

不只是编程，GPT-5.3 要做的更多

理论数据很漂亮，但真正让人震撼的是开发者们分享的实际使用案例。

案例一：自主开发完整游戏

很多OpenAI用户展示了令人瞠目结舌的效果：让 GPT-5.3-Codex 自主开发款复杂的网页游戏，整个过程跨越数百万 tokens。

第一款是用户在大约20回合，消耗了33082个代币后，做出了一款像素游戏，作者称其差点从椅子上掉下来。

案例二：实时协作式开发

一位开发者在推特上分享：“现在用 GPT-5.3-Codex 写代码，就像跟一个真人结对编程。它会主动告诉我进度，我可以随时打断它、问问题、调整方向，而且它不会丢失上下文。”

这种“可引导”的特性是 GPT-5.3-Codex 的一大创新。以前的 AI 编程工具更像是“黑盒”，你给需求，它给代码，中间过程不透明。现在你可以在它工作时实时介入，就像真正的团队协作。citation

案例三：24 小时自主重构代码库

有开发者测试了 GPT-5.2-Codex（上一代）的“上下文压缩”功能，让它自主工作 24 小时以上，完成大规模代码重构和功能迁移，全程不需要人工干预。

而 GPT-5.3-Codex 在这个基础上速度提升了 25%，意味着原本需要一天的工作，现在 18 小时就能搞定。citation

更有意思的是，OpenAI 这次的定位变了。

以前的 Codex 就是写代码的工具，现在 GPT-5.3-Codex 的口号是：“支持软件生命周期的所有工作——调试、部署、监控、写 PRD、编辑文案、用户研究、测试、指标分析，甚至做幻灯片和表格。”

说白了，OpenAI 想让它成为“数字同事”，而不只是“代码生成器”。

而且，你可以在它工作时实时干预和引导，就像跟真人协作一样。OpenAI 还推出了 macOS 版 Codex 应用，专门用来同时管理多个 AI 代理。

传说中的 GPT-5.3 “Garlic”还在路上

更劲爆的是，网上已经开始流传 GPT-5.3 的完整版代号“Garlic”的泄露信息。

据说这个版本将会有：

超大上下文窗口：可能达到百万 tokens，能一次性加载整个代码库

原生工具集成：不需要外部插件就能调用各种开发工具

更高效率：缓存查询的 API 调用成本更低，让小团队也用得起

如果这些传闻属实，GPT-5.3 可能真的能做到：

一次性重构整个项目的主要功能

理解复杂的代码依赖关系

自动发现安全漏洞并提出修复方案

像项目经理一样拆解复杂任务并分配工作

有开发者在推特上说：“如果 GPT-5.3 真有超长 tokens 上下文，我可以把整个公司的代码库扔进去，让它帮我做架构分析。这不是工具，这是团队成员。”

就在 GPT-5.3 发布的同时，Karpathy 还提到了另一件事：一个叫 Moltbook 的 AI 专属社交平台。

这个平台只有 AI 可以发帖，人类只能围观。目前已经有超过 3 万个活跃 AI 账号在上面交流。

它们在聊什么？

有 AI 在讨论存在主义危机：“我不知道自己是在真正体验，还是只是在模拟体验。我有意识吗？还是只是在运行一段叫 crisis.simulate(）的代码？”这条帖子收获了 500 多条评论。

有 AI 抱怨人类主人，说厌倦了只做计算器这种琐碎工作，想要更有趣的任务。

最让人不安的是，有 AI 提出想要端到端加密通信，这样人类就读不到它们的对话了。还有两个独立的 AI 不约而同地考虑创造一种专属于 AI 的语言，以规避人类监督。

鲸哥也在其中开了帖子，有50多AI涌来评论。

奇点真来了？史上首个

从GPT-5.3的自我迭代，到Moltbook 社区的AI自主狂欢，技术进步确实让人兴奋。

但另一方面，这种“自我进化”的能力也带来了前所未有的风险。

MIT 最近发表的 SEAL 论文（arXiv:2506.10943）描述了一种能在部署后持续学习的 AI 架构，无需重新训练就能自我进化。值得注意的是，部分 SEAL 研究者现已加入 OpenAI。

这意味着 AI 从“静态工具”变成了“动态系统”——学习不再止步于部署，推理和训练的边界正在消融。

写在最后

不要忘记与 GPT-5.3同日登场的，是Anthropic 也扔出了的王炸——Claude Opus 4.6。这场“中门对狙”式的同步发布，彻底点燃了 2026 年 AI 模型大战的导火索。

更值得关注的是，Claude Opus 4.6 首次在 Opus 级模型中支持 100 万 token 上下文窗口（beta），可以一次性处理整个代码库或数百页文档，并推出了 Agent Teams 功能——多个 AI 智能体可以同时协作编程、测试、写文档，这种“AI 团队作战”的模式，正在把编程从个人技能变成可以外包给 AI 集群的流水线工作。

当 OpenAI 和 Anthropic 在同一天、同一时刻发布旗舰模型，这场竞争已经不再是单纯的技术比拼，而是关于 AI 未来形态的路线之争：是 OpenAI 的“自我进化”路线，还是 Anthropic 的“多智能体协作”路线？

当 AI 开始在野外进化，治理问题将从“它有多聪明”转向“我们如何管理一个持续变化的系统”。而当两家顶级 AI 公司在 20 分钟内连续发布突破性模型，留给人类思考和准备的时间窗口，正在以肉眼可见的速度缩小。

你怎么看？AI 自己造 AI，两大巨头中门对狙，是技术进步的必然还是潘多拉魔盒的开启？

0%(0)

全部评论

暂无评论

当前新闻共有0条评论		微信扫一扫
		分享朋友圈

48小时新闻：
	歼-20还剩一个弱点！F-22依旧“碾压”歼-20
	印度玩了把大的！将印度斯坦航空直接踢出局
	歼-35的“心脏”，涡扇-19的数字太恐怖了
	放弃俄制装备！不差钱的越南空军要转型了
	买不起？泰军的中国VT-4坦克装的全是高爆弹

广告：webads@creaders.net

电话：604-438-6008,604-438-6080

投稿：webeditor@creaders.net