ChatGPT o3、o4 mini体验

2025-04-17
#chatgpt
2296 words
5 min read

更新简介

  • 使用限制

ChatGPT Plus用户,o3限制: 50次/周;o4-mini限制: 150次/天;o4-mini-high: 50次/天;上下文窗口32K。

via:

https://help.openai.com/en/articles/9824962-openai-o3-o4-mini-and-o3-mini-usage-limits-on-chatgpt-and-the-api

https://openai.com/chatgpt/pricing/

不建议免费用户用ChatGPT,ChatGPT不付费,体验绝对糟糕,上下文窗口就只有8K,而且开放的也全是低一等的模型。

在OpenAI构建的规则内,Pro用户是上帝,Plus用户是平民,免费用户是乞丐。

也不建议上网环境代理特征明显的小伙伴使用ChatGPT,降智是真实存在的。建议远程Windows桌面/采用自建KasmWorkSpaces之类的方法【前提: 远端的VPS IP干净一些,不然依旧降智】来访问ChatGPT。

  • 推理模型化身为agent,组合使用ChatGPT中的每一个工具(Web搜索、Python解释器、图像分析、文件解释、图片生成),可进行视觉推理【多模态推理】

下图展示了识图任务中的部分片段,可充分感受ChatGPT o3模型恐怖的迭代能力。

ChatGPT o3模型恐怖的迭代能力

该识图任务的流程如下,具体可参见该识图任务的网页截图:

1、1m21s推理时间

找出图片中的无人机。

2、44s推理时间

初步推测拍摄图片可能的位置【推测可能的位置列表中已经包含了位置的正确答案,但可惜押一注,押的最有可能的一个位置不对。】

3、2min59s推理时间,4min41s推理时间,11min14s推理时间,12min41s推理时间,13min56s推理时间

这几部分中,o3借助互联网工具猜测可能的位置,但可能达到了推理时间限制亦或是上下文限制,导致截断,仅仅输出to=的字样。

看不下去o3偏离正确答案,在错误方向上越走越远,我便透露出了些许提示,比如一开始的推测列表中有位置的正确答案。

4、6min51s推理时间,11min45s推理时间,13min51s推理时间

我看到o3在正确答案和错误答案中反复拉扯,再次陷入刚才的困境,仅仅输出to=字样。继续透露一些提示信息给o3,告诉其不要执着于一个地方的高校,不要局限于图书馆这种建筑。

5、7min14s推理时间,9min31s推理时间,11min58s推理时间

o3再次陷入中断。我继续提示o3,让其综合上述分析,给出最有可能的地点。

6、10s推理时间

o3成功猜出了图片所出的位置,但小位置不正确。

7、11min56s推理时间

o3借助搜索成功猜出了小位置,但给出的回复表述中存在错误信息。

8、最后我让o3将原图转换为Ghibli风格的图片

我让o3将原图转换为Ghibli风格的图片

回过头来看,不禁感慨这简直就是赖皮打法,但也确实是Agent该有的样子,借助外部工具持续迭代,直至完成任务。

这是我第一次体验到LLM能推理10分钟以上,ChatGPT是真tm卖力。

  • 日常使用中选择o3还是o4-mini-high?

从OpenAI给出的基准测试来看,除了这三项基准测试(前两项考验的是数学竞赛,第三项是算法编程竞赛)方面,o4-mini-high领先于o3外,其余的均是o3获胜。

o4-mini-high领先于o3的三项基准测试

OpenAI的员工推荐对于涉及视觉的任务,建议使用o4-mini-high,而不是o3。via: https://simonwillison.net/2025/Apr/16/james-betker/

OpenAI的员工推荐对于涉及视觉的任务,建议使用o4-mini-high,而不是o3

基准测试虽然都或多或少存在偏见,但大致提供了LLM通用能力强弱。OpenAI的新模型直接在livebench.ai上霸榜了,推理模型果然是刷榜的第一好手。

OpenAI的新模型直接在livebench.ai上霸榜了,推理模型果然是刷榜的第一好手。

Plus用户,o3的额度为50次/周,尽量用吧。用光了o3,再去整o4-mini-high。

  • 新模型搜索中文提问不再仅局限于中文互联网

中文提问后,OpenAI的新模型o3、o4-mini系列直接用提问的英文版本和中文版本来进行检索互联网。而GPT-4o依旧遵循中文提问,中文检索互联网。

新模型搜索中文提问不再仅局限于中文互联网-图1

新模型搜索中文提问不再仅局限于中文互联网-图2

强化学习训练模型使用工具确实牛逼,不仅教会它们如何使用工具,还教会它们推理何时使用工具。

强化学习训练模型使用工具确实牛逼

  • Codex

类似于Claude Code的玩意,我尝试申请了开源资金项目,如果能成功给我发一点API额度,我就试试,暂时不考虑尝试。海外网友认为OpenAI开窍了,开始学习Anthropic面向实际需求开发模型。

  • 其余发现

1、OpenAI的新模型是token efficient(令牌效率高,,用尽可能少的token来完成同样或更优的信息表达和推理)。

这一点我觉得是未来推理模型的大势所趋。感觉目前OpenAI新出的模型已经有了推理模型和经典LLM结合的意味了。

OpenAI的新模型面对简单提问,不再思考

2、Gemini 2.5 Pro依旧是性价比之王。

Gemini 2.5 Pro依旧是性价比之王-图1

via: https://x.com/MahawarYas27492/status/1912577363554214214

对比aider排行榜前列的支出就可以看出Gemini 2.5 Pro确实性价比十足,DeepSeek V3的3月新版也很具有性价比,但能力方面逊于Gemini 2.5 Pro。

对比aider排行榜前列的支出就可以看出Gemini 2.5 Pro确实性价比十足

Gemini 2.5 Pro依旧是性价比之王-图2

via: https://x.com/bongrandp/status/1912568582426198301

Gemini 2.5 Pro依旧是性价比之王-图3

via: https://x.com/wintermoat/status/1912560505161400781

总结

OpenAI新模型的主要亮点在于工具调用、多模态推理。

这次OpenAI博文中的基准测试依旧只罗列出了自家的模型,这是一种自大的表现呢,即OpenAI认为自己的模型是市面上最强的存在?还是不敢与其他先进模型进行比较骈进,生怕自己海量的用户知晓其余先进LLM的存在?具体属于哪种情况只有OpenAI自己清楚。

但这次发布相较于之前的发布确实进步了不少,GPT-4.5、GPT-4.1这种发布在模型迭代迅速的当下压根就掀不起啥风浪,只有多搞类似GPT-4o原生文生图、o3、o4-mini系列模型的发布才是正途。

可以说OpenAI Is Back! 虽然我也希望能看到开源LLM更加趋近于闭源LLM,但目前来看,闭源LLM再次与开源LLM拉开了差距。

期待未来不久的Qwen3、DeepSeek R2能有更好的表现。

One more thing(还有一件事),OpenAI发布的依旧是推理模型,喜欢非推理模型的小伙伴依旧不要低估Claude 3.7 Sonnet Without Thinking!!!!!

其余

附一些其余博主的测评文章

参考资料


Emoji Reaction


© 2022-2025 Made with ❤️ By Jiakai