ChatGPT o3、o4 mini体验
更新简介
- 使用限制
ChatGPT Plus用户,o3限制: 50次/周;o4-mini限制: 150次/天;o4-mini-high: 50次/天;上下文窗口32K。
via:
https://openai.com/chatgpt/pricing/
不建议免费用户用ChatGPT,ChatGPT不付费,体验绝对糟糕,上下文窗口就只有8K,而且开放的也全是低一等的模型。
在OpenAI构建的规则内,Pro用户是上帝,Plus用户是平民,免费用户是乞丐。
也不建议上网环境代理特征明显的小伙伴使用ChatGPT,降智是真实存在的。建议远程Windows桌面/采用自建KasmWorkSpaces之类的方法【前提: 远端的VPS IP干净一些,不然依旧降智】来访问ChatGPT。
- 推理模型化身为agent,组合使用ChatGPT中的每一个工具(Web搜索、Python解释器、图像分析、文件解释、图片生成),可进行视觉推理【多模态推理】
下图展示了识图任务中的部分片段,可充分感受ChatGPT o3模型恐怖的迭代能力。
该识图任务的流程如下,具体可参见该识图任务的网页截图:
1、1m21s推理时间
找出图片中的无人机。
2、44s推理时间
初步推测拍摄图片可能的位置【推测可能的位置列表中已经包含了位置的正确答案,但可惜押一注,押的最有可能的一个位置不对。】
3、2min59s推理时间,4min41s推理时间,11min14s推理时间,12min41s推理时间,13min56s推理时间
这几部分中,o3借助互联网工具猜测可能的位置,但可能达到了推理时间限制亦或是上下文限制,导致截断,仅仅输出to=
的字样。
看不下去o3偏离正确答案,在错误方向上越走越远,我便透露出了些许提示,比如一开始的推测列表中有位置的正确答案。
4、6min51s推理时间,11min45s推理时间,13min51s推理时间
我看到o3在正确答案和错误答案中反复拉扯,再次陷入刚才的困境,仅仅输出to=
字样。继续透露一些提示信息给o3,告诉其不要执着于一个地方的高校,不要局限于图书馆这种建筑。
5、7min14s推理时间,9min31s推理时间,11min58s推理时间
o3再次陷入中断。我继续提示o3,让其综合上述分析,给出最有可能的地点。
6、10s推理时间
o3成功猜出了图片所出的位置,但小位置不正确。
7、11min56s推理时间
o3借助搜索成功猜出了小位置,但给出的回复表述中存在错误信息。
8、最后我让o3将原图转换为Ghibli风格的图片
回过头来看,不禁感慨这简直就是赖皮打法,但也确实是Agent该有的样子,借助外部工具持续迭代,直至完成任务。
这是我第一次体验到LLM能推理10分钟以上,ChatGPT是真tm卖力。
- 日常使用中选择o3还是o4-mini-high?
从OpenAI给出的基准测试来看,除了这三项基准测试(前两项考验的是数学竞赛,第三项是算法编程竞赛)方面,o4-mini-high领先于o3外,其余的均是o3获胜。
OpenAI的员工推荐对于涉及视觉的任务,建议使用o4-mini-high,而不是o3。via: https://simonwillison.net/2025/Apr/16/james-betker/
基准测试虽然都或多或少存在偏见,但大致提供了LLM通用能力强弱。OpenAI的新模型直接在livebench.ai上霸榜了,推理模型果然是刷榜的第一好手。
Plus用户,o3的额度为50次/周,尽量用吧。用光了o3,再去整o4-mini-high。
- 新模型搜索中文提问不再仅局限于中文互联网
中文提问后,OpenAI的新模型o3、o4-mini系列直接用提问的英文版本和中文版本来进行检索互联网。而GPT-4o依旧遵循中文提问,中文检索互联网。
强化学习训练模型使用工具确实牛逼,不仅教会它们如何使用工具,还教会它们推理何时使用工具。
- Codex
类似于Claude Code的玩意,我尝试申请了开源资金项目,如果能成功给我发一点API额度,我就试试,暂时不考虑尝试。海外网友认为OpenAI开窍了,开始学习Anthropic面向实际需求开发模型。
- 其余发现
1、OpenAI的新模型是token efficient(令牌效率高,,用尽可能少的token来完成同样或更优的信息表达和推理)。
这一点我觉得是未来推理模型的大势所趋。感觉目前OpenAI新出的模型已经有了推理模型和经典LLM结合的意味了。
2、Gemini 2.5 Pro依旧是性价比之王。
via: https://x.com/MahawarYas27492/status/1912577363554214214
对比aider排行榜前列的支出就可以看出Gemini 2.5 Pro确实性价比十足,DeepSeek V3的3月新版也很具有性价比,但能力方面逊于Gemini 2.5 Pro。
via: https://x.com/bongrandp/status/1912568582426198301
via: https://x.com/wintermoat/status/1912560505161400781
总结
OpenAI新模型的主要亮点在于工具调用、多模态推理。
这次OpenAI博文中的基准测试依旧只罗列出了自家的模型,这是一种自大的表现呢,即OpenAI认为自己的模型是市面上最强的存在?还是不敢与其他先进模型进行比较骈进,生怕自己海量的用户知晓其余先进LLM的存在?具体属于哪种情况只有OpenAI自己清楚。
但这次发布相较于之前的发布确实进步了不少,GPT-4.5、GPT-4.1这种发布在模型迭代迅速的当下压根就掀不起啥风浪,只有多搞类似GPT-4o原生文生图、o3、o4-mini系列模型的发布才是正途。
可以说OpenAI Is Back! 虽然我也希望能看到开源LLM更加趋近于闭源LLM,但目前来看,闭源LLM再次与开源LLM拉开了差距。
期待未来不久的Qwen3、DeepSeek R2能有更好的表现。
One more thing(还有一件事),OpenAI发布的依旧是推理模型,喜欢非推理模型的小伙伴依旧不要低估Claude 3.7 Sonnet Without Thinking!!!!!
其余
附一些其余博主的测评文章
参考资料
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享4.0许可证)