顾佳凯的网络日志 | ChatGPT o3、o4 mini体验

ChatGPT o3、o4 mini体验

2025-04-17

#chatgpt

2296 words

5 min read

更新简介

使用限制

ChatGPT Plus用户，o3限制: 50次/周；o4-mini限制: 150次/天；o4-mini-high: 50次/天；上下文窗口32K。

via:

https://help.openai.com/en/articles/9824962-openai-o3-o4-mini-and-o3-mini-usage-limits-on-chatgpt-and-the-api

https://openai.com/chatgpt/pricing/

不建议免费用户用ChatGPT，ChatGPT不付费，体验绝对糟糕，上下文窗口就只有8K，而且开放的也全是低一等的模型。

在OpenAI构建的规则内，Pro用户是上帝，Plus用户是平民，免费用户是乞丐。

也不建议上网环境代理特征明显的小伙伴使用ChatGPT，降智是真实存在的。建议远程Windows桌面/采用自建KasmWorkSpaces之类的方法【前提: 远端的VPS IP干净一些，不然依旧降智】来访问ChatGPT。

推理模型化身为agent，组合使用ChatGPT中的每一个工具(Web搜索、Python解释器、图像分析、文件解释、图片生成)，可进行视觉推理【多模态推理】

下图展示了识图任务中的部分片段，可充分感受ChatGPT o3模型恐怖的迭代能力。

该识图任务的流程如下，具体可参见该识图任务的网页截图:

1、1m21s推理时间

找出图片中的无人机。

2、44s推理时间

初步推测拍摄图片可能的位置【推测可能的位置列表中已经包含了位置的正确答案，但可惜押一注，押的最有可能的一个位置不对。】

3、2min59s推理时间，4min41s推理时间，11min14s推理时间，12min41s推理时间，13min56s推理时间

这几部分中，o3借助互联网工具猜测可能的位置，但可能达到了推理时间限制亦或是上下文限制，导致截断，仅仅输出to=的字样。

看不下去o3偏离正确答案，在错误方向上越走越远，我便透露出了些许提示，比如一开始的推测列表中有位置的正确答案。

4、6min51s推理时间，11min45s推理时间，13min51s推理时间

我看到o3在正确答案和错误答案中反复拉扯，再次陷入刚才的困境，仅仅输出to=字样。继续透露一些提示信息给o3，告诉其不要执着于一个地方的高校，不要局限于图书馆这种建筑。

5、7min14s推理时间，9min31s推理时间，11min58s推理时间

o3再次陷入中断。我继续提示o3，让其综合上述分析，给出最有可能的地点。

6、10s推理时间

o3成功猜出了图片所出的位置，但小位置不正确。

7、11min56s推理时间

o3借助搜索成功猜出了小位置，但给出的回复表述中存在错误信息。

8、最后我让o3将原图转换为Ghibli风格的图片

回过头来看，不禁感慨这简直就是赖皮打法，但也确实是Agent该有的样子，借助外部工具持续迭代，直至完成任务。

这是我第一次体验到LLM能推理10分钟以上，ChatGPT是真tm卖力。

日常使用中选择o3还是o4-mini-high?

从OpenAI给出的基准测试来看，除了这三项基准测试（前两项考验的是数学竞赛，第三项是算法编程竞赛）方面，o4-mini-high领先于o3外，其余的均是o3获胜。

OpenAI的员工推荐对于涉及视觉的任务，建议使用o4-mini-high，而不是o3。via: https://simonwillison.net/2025/Apr/16/james-betker/

基准测试虽然都或多或少存在偏见，但大致提供了LLM通用能力强弱。OpenAI的新模型直接在livebench.ai上霸榜了，推理模型果然是刷榜的第一好手。

Plus用户，o3的额度为50次/周，尽量用吧。用光了o3，再去整o4-mini-high。

新模型搜索中文提问不再仅局限于中文互联网

中文提问后，OpenAI的新模型o3、o4-mini系列直接用提问的英文版本和中文版本来进行检索互联网。而GPT-4o依旧遵循中文提问，中文检索互联网。

强化学习训练模型使用工具确实牛逼，不仅教会它们如何使用工具，还教会它们推理何时使用工具。

Codex

类似于Claude Code的玩意，我尝试申请了开源资金项目，如果能成功给我发一点API额度，我就试试，暂时不考虑尝试。海外网友认为OpenAI开窍了，开始学习Anthropic面向实际需求开发模型。

其余发现

1、OpenAI的新模型是token efficient(令牌效率高，，用尽可能少的token来完成同样或更优的信息表达和推理)。

这一点我觉得是未来推理模型的大势所趋。感觉目前OpenAI新出的模型已经有了推理模型和经典LLM结合的意味了。

2、Gemini 2.5 Pro依旧是性价比之王。

via: https://x.com/MahawarYas27492/status/1912577363554214214

对比aider排行榜前列的支出就可以看出Gemini 2.5 Pro确实性价比十足，DeepSeek V3的3月新版也很具有性价比，但能力方面逊于Gemini 2.5 Pro。

via: https://x.com/bongrandp/status/1912568582426198301

via: https://x.com/wintermoat/status/1912560505161400781

总结

OpenAI新模型的主要亮点在于工具调用、多模态推理。

这次OpenAI博文中的基准测试依旧只罗列出了自家的模型，这是一种自大的表现呢，即OpenAI认为自己的模型是市面上最强的存在？还是不敢与其他先进模型进行比较骈进，生怕自己海量的用户知晓其余先进LLM的存在？具体属于哪种情况只有OpenAI自己清楚。

但这次发布相较于之前的发布确实进步了不少，GPT-4.5、GPT-4.1这种发布在模型迭代迅速的当下压根就掀不起啥风浪，只有多搞类似GPT-4o原生文生图、o3、o4-mini系列模型的发布才是正途。

可以说OpenAI Is Back! 虽然我也希望能看到开源LLM更加趋近于闭源LLM，但目前来看，闭源LLM再次与开源LLM拉开了差距。

期待未来不久的Qwen3、DeepSeek R2能有更好的表现。

One more thing(还有一件事)，OpenAI发布的依旧是推理模型，喜欢非推理模型的小伙伴依旧不要低估Claude 3.7 Sonnet Without Thinking!!!!!

其余

附一些其余博主的测评文章

OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

参考资料

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享4.0许可证）

← 上一篇：自建Kasm Workspaces

ChatGPT o3、o4 mini体验

更新简介

总结

其余

参考资料

文档信息

Emoji Reaction