Claude 4体验
via: https://x.com/testingcatalog/status/1925606824662679917
如果你关注AI新闻,每天都会感受到时间被压缩了。单调重复的人生在追随AI脚步的节奏中,过的异常得快。
Claude 4在今天凌晨发布,Anthropic这次选择不再以小数点的版本号递增来挤牙膏式发布模型。
这个转变其实很大程度在于近期Claude的市场被ChatGPT、Gemini蚕食严重,倘若OpenAI推出的GPT4.1、Google推出的Gemini 2.5系列模型编码能力依旧与Claude 3.7 Sonnet有较大差距,相信Anthropic会发布Claude 3.8 Sonnet,依旧把Opus模型藏起来继续用于改进Sonnet模型。
备注: 其实编码基准测试只提供了一个大方向,Claude 4没发布之前,Claude 3.7依旧能和Gemini 2.5 Pro打得有来有回,不一定每一个编码场景都是Gemini 2.5 Pro胜出,Anthropic面向现实需求开发模型,注定了Claude在基准测试和用户体验方面会有较大的反差。
Claude系列模型给我最大的感触就是回复简洁且不冗余,有时有灵性。比如近期我在复习软件设计师中级考试,回顾自己做的综合知识错题,针对其中某些自己理解不清晰的选项,依次让ChatGPT 4o/o3、Gemini 2.5 Pro、Claude 3.7 Sonnet来解答,有些时候Claude 3.7 Sonnet的解答简洁且包含细节,有些时候Claude 3.7 Sonnet则在这一众模型中表现糟糕,知识的广度不及另外两家模型。
上一次用Claude 3 Opus模型是在去年下半年,记得当时被分配给大四毕业生看开题报告的任务,我tm直接把开题报告中的所有文字按部分发送给Opus模型,让Opus模型给出对应的改进建议。之后就再也没用过了,因为发现Claude 3 Opus的写作能力有些跟不上Claude 3.5 Sonnet系列模型。
Anthropic但凡在今年2月份推出Claude 4 Opus,2025届毕业生的毕业论文就可以多一个更棒的选择。Opus模型专为写作定制,虽然没实测Claude 4 Opus的写作能力,但预计文字含人味很高。
Claude 4
1、模型截止日期最新
相较于Gemini 2.5系列模型的知识截止日期为2025年1月,Claude Opus 4、Claude Sonnet 4知识截止日期来到了2025年3月份。虽然目前的LLM大多都已经接入了互联网,但知识截止日期更新一些总归是好的。
2、Extended thinking with tool use (beta)
开了思考按钮提问Claude,Claude可以使用工具,拿到工具响应后,继续思考,最后再给出对应的回复。下图用昨天川宝整活的例子来展示该功能。
之前思考、搜索两个按钮齐开,提问Claude,Claude觉得需要检索互联网,使用搜索工具检索互联网,检索完毕后就直接给出回复,不会再根据工具调用的结果再进行思考。
Anthropic开发者关系主管Alex Albert有关该功能的推文展示: https://x.com/alexalbert__/status/1925591751118684258
3、模型新能力、Claude Code GA
更精确遵循指令等新特色总归是好的,利好Agent。Claude Code部分后文会稍加展开说说我的新体验感触。
4、新的API功能
这部分也放到后文展开讲讲。
5、定价、开放层次
Claude 4系列模型和Claude 3系列模型定价一致,这个价位即使模型再强,也很难被广泛采用。
Github Copilot中接入的Claude 4 Opus仅限Pro+用户享受,Cursor中的Claude 4 Opus需要启用Max模式。性价比之王—Gemini 2.5是Claude难以逾越的坎。
Sonnet 4向免费用户开放,Opus 4则付费用户独享,有条件想体验Opus的朋友们,建议还是开个Pro会员体验,API不值得。后续也会介绍我目前知晓的低成本体验Claude会员的途径。
6、基准测试
基准测试真好看,基准测试不好看也不会发布😁。现在每家发布LLM都自称是目前的SOTA(State Of The Art,最先进水平)。
个人较为认同Anthropic CEO有关基准测试无意义的言论,基准测试肯定存在失真,但大致比较了模型能力的强弱。
这张图展示了Claude 4在SWE基准测试上遥遥领先。
这张图则展示了Claude 4成为目前的LLM SOTA。
livebench.ai榜单上,Claude 4 Opus是目前经典LLM的第一把交椅。推理模型适合刷榜,经典LLM更适合用户日常提问。
经典LLM方面,Google已经将推理模型和经典LLM结合;OpenAI最强的经典LLM其实是官网的ChatGPT 4o,有了各大丰富工具的辅助,用户体验也是一流的存在。
目前我的经典LLM第一选择: Claude官网的Claude 4 Opus和ChatGPT官网的ChatGPT 4o模型。
Claude Code
挑选以下两个新命令来体验。
|
|
看看ChatGPT o3对于/install-github-app
命令的介绍。
可能会用到的操作命令:
|
|
专业程序员可以尝试用Claude Code GitHub Actions完成各种任务,我就不整了。
via:
https://github.com/anthropics/claude-code-action
https://docs.anthropic.com/en/docs/claude-code/github-actions#quick-start
/vibe
命令里面是一个vibe coding(氛围编码)的彩蛋。
看到Claude 4 Opus解释中包含道德经,不由得感慨中华文化的博大精深,虽然Anthropic CEO极度反华。
代码之道(The Way Of Code)网站: https://www.thewayofcode.com/
利用Claude Code给上次整的贪吃熊精进了可视化效果和音效😁。via: https://bear.gujiakai.top/
相关的操作记录截图:
我脑袋里面一片空白,代码也没审查,就一直按Enter键Yes
确认下去😂。
好好学编程吧,你越强,你加AI越强。不然用Claude Code灵感很少。
Claude Code建议在美国VPS上体验,今天的发布还包含了对于IDE工具(VS Code等)的集成,这个就不体验了。国内的机器不建议碰Claude相关的任何产品,一个不小心就把你的号扬了。分流自信且封号后有把握申诉解封的大神,尽管体验。
Claude API
1、代码执行工具
2、MCP连接器
3、文件API
4、扩展提示缓存
官方相关的推文演示: https://x.com/AnthropicAI/status/1925633118104416587
前一段时间,我在Gemini API中体验过类似的代码执行工具,只能说Anthropic推出该功能的时间有些晚。OpenAI的代码执行工具相关的API 1年前就支持了。文件API也是类似的情况。
via: https://www.anthropic.com/news/agent-capabilities-api
其余
1、Claude Invite活动
Claude新推出的拉人头活动。via: https://claude.ai/invite
拉的人头越多,中奖4个月Claude Max套餐的几率越大。
有趣的是Claude拉人头活动对于美国本土的一些地区限制。具体可见Claude 4 Opus的答疑。
看到这篇文章还没注册Claude账号的小伙伴可以考虑走一走我Aff链接,给我免费拿4个月Max套餐增加一丢丢机会🥹。via: https://claude.ai/referral/_0IX9uZm2w
其实这种抽奖活动看看就好,普通用户自己拉自己,搞几个就行(我就搞了一个entry),没必要拉满100个。肯定会有拉了100个人头的老哥没中奖,拉了1个人头的老哥中奖的情况发生,到时候拉了这么多人头,竹篮打水一场空,会很破防。
via: https://support.anthropic.com/en/articles/11408405-claude-4-invite-contest
2、Cursor、Windsurf、Github Copilot等第三方接入情况
Windsurf CEO哭死,Claude 4模型没有第一时间提供给Windsurf。估计Windsurf的用户量会略微受到影响。目前我写这篇博文所处的编辑器是Cursor,前一阵子用美国edu白嫖了一年。Cursor、Github Copilot等第一时间就接入了Claude 4模型。
via: https://x.com/_mohansolo/status/1925605908287250939
3、一些较好的链接资源、参考资料
a. Claude 4官方博文: https://www.anthropic.com/news/claude-4
b. Simon Willison大神有关Claude发布会的Live Blog: https://simonwillison.net/2025/May/22/code-with-claude-live-blog/
现场参与这场event,可以享受三个月的Max套餐,有些羡慕。
c. Agent的定义: https://simonwillison.net/2025/May/22/tools-in-a-loop/
Agents are models using tools in a loop.(智能体是循环使用工具的模型。)
d. Claude模型对比: https://simonwillison.net/2025/May/22/updated-anthropic-models/
e. Claude相关X官方账户的推文:
https://x.com/alexalbert__/status/1925591741924876781
https://x.com/AnthropicAI/status/1925591505332576377
f. Tibor Blaho有关Anthropic发布会的总结推文: https://x.com/btibor91/status/1925641897369797038
g. Vibe Check: Claude 4 Opus博文: https://every.to/chain-of-thought/vibe-check-claude-4-sonnet
h. Anthropic官方直播: https://www.youtube.com/watch?v=EvtPBaaykdo
其余直播: https://www.youtube.com/@anthropic-ai/streams
i: Claude 4 System Card: https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
推荐
如果你遇到了Claude账号封号的情况,推荐阅读之前我写过的两篇博文,最推荐利用美国Windows VPS远程桌面来降低被封号的概率。
如果你不想被Claude环境折腾,个人推荐去淘宝搜索Claude
买对应套餐,有一个名为claude克劳德小屋
的店铺,体验不错,新客可以1人民币体验24小时。
该中转站点完整地镜像了Claude官方站点,应该是借鉴了L站站长的Fuclaude项目。就比如我想体验Claude仅限Max、Team、Enterprise开放的Research功能,就在该站点上用极低的成本体验。当然这个Research肯定是比不上ChatGPT、Gemini的Deep Research的。
还有一种选择是收低价的1刀/月的Claude账号【持续3个月】。今年2月底Claude当时出过针对特定美国edu的一个1刀/月,持续12个月的教育优惠,如果上了这个活动,也是很不错的。
最棒的选择肯定是获得一个与Claude合作的edu邮箱,比如美国东北大学,免费提供Claude Enterprise账号。
总结
Claude系列模型Web端使用,一般情况下,不推荐开Extended thinking,日常使用经典LLM就够了,除非经典LLM得到的回复不理想才会考虑开启thinking。
虽然Claude 4 Sonnet的SWE基准测试要比Claude 4 Opus要好上一丢丢,以及一些基准测试的代码能力评估显示Claude 4 Sonnet要好于Claude 4 Opus,但在Claude Web端我肯定会优先考虑Claude 4 Opus without thinking。以后遇到写作、代码相关的任务,第一时间选择Claude 4 Opus绝对是一个很棒的选择,除非Claude 4 Opus给出的回复不理想,才会考虑去问Claude 4 Sonnet。
Claude 4都出了,GPT 5还会远吗?期待在2025年中后期见到GPT 5模型。
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享4.0许可证)