就在所有人以为AI大战将暂时休战的时候,OpenAI选择在深夜甩出了一张王牌。
北京时间3月6日凌晨,OpenAI正式发布了下一代旗舰模型——GPT-5.4。这次不再是挤牙膏式的微调,而是一次真正的“代际跨越”。面对谷歌Gemini 3.1 Pro和Anthropic Claude Opus 4.6的步步紧逼,OpenAI用一款集推理、编程、原生电脑操控于一体的全能模型,宣告了谁才是真正的山顶玩家。
不止是更聪明,更是“动手干”
如果说以前的AI只是一个能说会道的超级大脑,那么GPT-5.4第一次长出了“手”。
此次更新最炸裂的功能,无疑是原生计算机使用能力(Computer-Use)。这是OpenAI首个具备该能力的通用模型。它不再仅仅依赖API接口,而是能像人类一样,看懂屏幕截图,移动鼠标,敲击键盘,在各类软件和网页间穿梭自如。
在OSWorld-Verified基准测试中,GPT-5.4操作电脑的成功率达到了惊人的75.0%。这个数据不仅远超上一代GPT-5.2的47.3%,甚至超过了人类72.4%的基准线,也略高于刚刚登顶不久的Claude Opus 4.6(72.7%)。
这意味着什么?意味着从今天起,AI不仅能帮你写邮件,还能帮你发邮件、排日程、填表格、跑流程。那些每天消耗打工人大量精力的、繁琐的点击操作,现在AI全包了。
跑分屠杀:每一科都是状元
过去,模型往往各有短板:有的能推理但不会写代码,有的能写代码但世界知识匮乏。GPT-5.4试图粉碎这种“分裂感”,而它的成绩单也确实够硬。
知识工作(GDPval):在横跨44种职业的真实工作产出测试中,GPT-5.4以83.0%的得分达到或超过了人类专家水平,相比上一代的70.9%提升了12个百分点。尤其是在模拟初级投行分析师的电子表格建模中,得分高达87.3%,把GPT-5.2的68.4%远远甩在身后。
编程能力(SWE-Bench Pro):它完整继承了GPT-5.3-Codex的编程基因,得分57.7%,略高于Codex版本的56.8%。这意味着你不再需要在“聪明的模型”和“能写代码的模型”之间切换,一个模型搞定全部逻辑。
数学与推理(FrontierMath):在研究级别的数学难题中,GPT-5.4Pro拿下了38.0%的得分。对比一年前最好的成绩只有2%,这无疑是核弹级的进步。
不仅仅是长,而是“不打断”的记忆
GPT-5.4支持高达100万Token的上下文窗口。
100万Token是什么概念?这意味着你可以直接把《三体》三部曲的全部内容,或者一个完整项目的代码库一次性扔给它,它能牢牢记住每一个细节。
更关键的是,GPT-5.4 Thinking在ChatGPT中新增了“思考过程预览”和“中途介入”功能。在处理长任务时,模型会先展示它的工作计划,如果你发现方向不对,可以随时打断并调整,不需要等到它犯错返工。这种交互体验,让AI协作真正有了“人味儿”。
效率革命:省钱省Token
强大的同时,OpenAI也在试图解决一个实际问题:贵。
GPT-5.4引入了全新的“工具搜索”机制。在处理拥有大量工具(如MCP服务器)的复杂任务时,它不再一股脑把所有工具定义塞进上下文,而是按需检索。
在Scale的MCP Atlas基准测试中,这一功能在保持准确率不变的同时,将Token消耗量砍掉了惊人的47%。
对于开发者来说,Codex中的“/fast”模式更是福音,它能让Token生成速度最高提升1.5倍,同样的智力,更快的速度。
怎么用?多少钱?
据了解,即日起,GPT-5.4 Thinking已面向ChatGPT Plus、Team和Pro用户开放,它将取代GPT-5.2 Thinking成为默认的思考模型。而性能更强的GPT-5.4 Pro则主要面向Pro和企业用户。
价格方面,GPT-5.4确实涨了。输入2.5美元/百万Token,输出15美元/百万Token。而Pro版更是高达输入30美元/百万Token,输出180美元/百万Token。
虽然贵,但考虑到它优秀的Token效率,以及比Claude Opus 4.6便宜近一半的API价格,对于企业级应用来说,可能反而更具性价比。
小结
GPT-5.4的发布,标志着一个明确的转向:大模型的竞争,已经从单纯的“参数竞赛”和“跑分刷榜”,进入了“全能执行”的新阶段。
OpenAI这次整合了推理、编程、长上下文和电脑操控,目标直指一个终极形态,AI数字员工。它不再只是一个对话框,而是一个能理解、能思考、能动手干活的智能代理。
打工人悬了吗?或许现在还不至于,但那个AI负责工作,人类负责生活的未来,确实又近了一大步。