打工人危！GPT-5.4 首次原生操控电脑，这根本不是AI，是数字打工人啊！-服务器专区

打工人危！GPT-5.4 首次原生操控电脑，这根本不是AI，是数字打工人啊！

作者：陶然编辑：陶然 2026-03-07 23:08 IT168网站原创

　　就在所有人以为AI大战将暂时休战的时候，OpenAI选择在深夜甩出了一张王牌。

　　北京时间3月6日凌晨，OpenAI正式发布了下一代旗舰模型——GPT-5.4。这次不再是挤牙膏式的微调，而是一次真正的“代际跨越”。面对谷歌Gemini 3.1 Pro和Anthropic Claude Opus 4.6的步步紧逼，OpenAI用一款集推理、编程、原生电脑操控于一体的全能模型，宣告了谁才是真正的山顶玩家。　　

　　不止是更聪明，更是“动手干”

　　如果说以前的AI只是一个能说会道的超级大脑，那么GPT-5.4第一次长出了“手”。

　　此次更新最炸裂的功能，无疑是原生计算机使用能力（Computer-Use）。这是OpenAI首个具备该能力的通用模型。它不再仅仅依赖API接口，而是能像人类一样，看懂屏幕截图，移动鼠标，敲击键盘，在各类软件和网页间穿梭自如。

　　在OSWorld-Verified基准测试中，GPT-5.4操作电脑的成功率达到了惊人的75.0%。这个数据不仅远超上一代GPT-5.2的47.3%，甚至超过了人类72.4%的基准线，也略高于刚刚登顶不久的Claude Opus 4.6（72.7%）。　　

　　这意味着什么？意味着从今天起，AI不仅能帮你写邮件，还能帮你发邮件、排日程、填表格、跑流程。那些每天消耗打工人大量精力的、繁琐的点击操作，现在AI全包了。

　　跑分屠杀：每一科都是状元

　　过去，模型往往各有短板：有的能推理但不会写代码，有的能写代码但世界知识匮乏。GPT-5.4试图粉碎这种“分裂感”，而它的成绩单也确实够硬。

　　知识工作（GDPval）：在横跨44种职业的真实工作产出测试中，GPT-5.4以83.0%的得分达到或超过了人类专家水平，相比上一代的70.9%提升了12个百分点。尤其是在模拟初级投行分析师的电子表格建模中，得分高达87.3%，把GPT-5.2的68.4%远远甩在身后。　　

　　编程能力（SWE-Bench Pro）：它完整继承了GPT-5.3-Codex的编程基因，得分57.7%，略高于Codex版本的56.8%。这意味着你不再需要在“聪明的模型”和“能写代码的模型”之间切换，一个模型搞定全部逻辑。　　

　　数学与推理（FrontierMath）：在研究级别的数学难题中，GPT-5.4Pro拿下了38.0%的得分。对比一年前最好的成绩只有2%，这无疑是核弹级的进步。

　　不仅仅是长，而是“不打断”的记忆

　　GPT-5.4支持高达100万Token的上下文窗口。

　　100万Token是什么概念？这意味着你可以直接把《三体》三部曲的全部内容，或者一个完整项目的代码库一次性扔给它，它能牢牢记住每一个细节。

　　更关键的是，GPT-5.4 Thinking在ChatGPT中新增了“思考过程预览”和“中途介入”功能。在处理长任务时，模型会先展示它的工作计划，如果你发现方向不对，可以随时打断并调整，不需要等到它犯错返工。这种交互体验，让AI协作真正有了“人味儿”。

　　效率革命：省钱省Token

　　强大的同时，OpenAI也在试图解决一个实际问题：贵。

　　GPT-5.4引入了全新的“工具搜索”机制。在处理拥有大量工具（如MCP服务器）的复杂任务时，它不再一股脑把所有工具定义塞进上下文，而是按需检索。

　　在Scale的MCP Atlas基准测试中，这一功能在保持准确率不变的同时，将Token消耗量砍掉了惊人的47%。

　　对于开发者来说，Codex中的“/fast”模式更是福音，它能让Token生成速度最高提升1.5倍，同样的智力，更快的速度。

　　怎么用？多少钱？

　　据了解，即日起，GPT-5.4 Thinking已面向ChatGPT Plus、Team和Pro用户开放，它将取代GPT-5.2 Thinking成为默认的思考模型。而性能更强的GPT-5.4 Pro则主要面向Pro和企业用户。

　　价格方面，GPT-5.4确实涨了。输入2.5美元/百万Token，输出15美元/百万Token。而Pro版更是高达输入30美元/百万Token，输出180美元/百万Token。

　　虽然贵，但考虑到它优秀的Token效率，以及比Claude Opus 4.6便宜近一半的API价格，对于企业级应用来说，可能反而更具性价比。

　　小结

　　GPT-5.4的发布，标志着一个明确的转向：大模型的竞争，已经从单纯的“参数竞赛”和“跑分刷榜”，进入了“全能执行”的新阶段。

　　OpenAI这次整合了推理、编程、长上下文和电脑操控，目标直指一个终极形态，AI数字员工。它不再只是一个对话框，而是一个能理解、能思考、能动手干活的智能代理。

　　打工人悬了吗？或许现在还不至于，但那个AI负责工作，人类负责生活的未来，确实又近了一大步。

关注我们