顾佳凯的网络日志 | Claude 4体验

Claude 4体验

2025-05-23

#claude, #anthropic

4268 字数

9 分钟

更新(2025.7.23)

Claude Code早已不再是玩具，随着Claude 4系列模型上线，Max会员搭配上Opus 4模型简直不要太爽。懂得都懂，最强的AI编程工具！！！！！短短1～2个月的时间成功将Cursor从小甜甜变为牛夫人，也只有Anthropic亲自下场才能做到。

更新(2025.5.23)

后续有关本篇Claude 4文章的更新内容移步Flarum帖子—Claude 4体验博文更新汇总

如果你关注AI新闻，每天都会感受到时间被压缩了。

via: https://x.com/testingcatalog/status/1925606824662679917

如果你关注AI新闻，每天都会感受到时间被压缩了。单调重复的人生在追随AI脚步的节奏中，过的异常得快。

Claude Opus 4对于推文的解释

Claude 4在今天凌晨发布，Anthropic这次选择不再以小数点的版本号递增来挤牙膏式发布模型。

这个转变其实很大程度在于近期Claude的市场被ChatGPT、Gemini蚕食严重，倘若OpenAI推出的GPT4.1、Google推出的Gemini 2.5系列模型编码能力依旧与Claude 3.7 Sonnet有较大差距，相信Anthropic会发布Claude 3.8 Sonnet，依旧把Opus模型藏起来继续用于改进Sonnet模型。

备注: 其实编码基准测试只提供了一个大方向，Claude 4没发布之前，Claude 3.7依旧能和Gemini 2.5 Pro打得有来有回，不一定每一个编码场景都是Gemini 2.5 Pro胜出，Anthropic面向现实需求开发模型，注定了Claude在基准测试和用户体验方面会有较大的反差。

Claude系列模型给我最大的感触就是回复简洁且不冗余，有时有灵性。比如近期我在复习软件设计师中级考试，回顾自己做的综合知识错题，针对其中某些自己理解不清晰的选项，依次让ChatGPT 4o/o3、Gemini 2.5 Pro、Claude 3.7 Sonnet来解答，有些时候Claude 3.7 Sonnet的解答简洁且包含细节，有些时候Claude 3.7 Sonnet则在这一众模型中表现糟糕，知识的广度不及另外两家模型。

上一次用Claude 3 Opus模型是在去年下半年，记得当时被分配给大四毕业生看开题报告的任务，我tm直接把开题报告中的所有文字按部分发送给Opus模型，让Opus模型给出对应的改进建议。之后就再也没用过了，因为发现Claude 3 Opus的写作能力有些跟不上Claude 3.5 Sonnet系列模型。

Anthropic但凡在今年2月份推出Claude Opus 4，2025届毕业生的毕业论文就可以多一个更棒的选择。Opus模型专为写作定制，虽然没实测Claude Opus 4的写作能力，但预计文字含人味很高。

Claude 4

1、模型截止日期最新

相较于Gemini 2.5系列模型的知识截止日期为2025年1月，Claude Opus 4、Claude Sonnet 4知识截止日期来到了2025年3月份。虽然目前的LLM大多都已经接入了互联网，但知识截止日期更新一些总归是好的。

Claude 4模型知识截止日期最新

2、Extended thinking with tool use (beta)

开了思考、搜索按钮提问Claude，Claude可以使用搜索工具，拿到搜索工具响应后，继续思考，持续迭代，最后再给出对应的回复。下图的例子展示了该功能。

Claude 4 Extended thinking with tool use (beta)

之前思考、搜索两个按钮齐开，提问Claude，Claude觉得需要检索互联网，使用搜索工具检索互联网，检索完毕后就直接给出回复，不会再根据工具调用的结果再进行思考。

Anthropic开发者关系主管Alex Albert有关该功能的推文展示: https://x.com/alexalbert__/status/1925591751118684258

3、模型新能力、Claude Code GA

模型新能力、Claude Code GA官方博文介绍

更精确遵循指令等新特色总归是好的，利好Agent。Claude Code部分后文会稍加展开说说我的新体验感触。

4、新的API功能

这部分也放到后文展开讲讲。

5、定价、开放层次

Claude 4系列模型和Claude 3系列模型定价一致，这个价位即使模型再强，也很难被广泛采用。

Github Copilot中接入的Claude Opus 4仅限Pro+用户享受，Cursor中的Claude Opus 4需要启用Max模式。性价比之王—Gemini 2.5是Claude难以逾越的坎。

Claude Opus 4对于Cursor Max模式的介绍

Sonnet 4向免费用户开放，Opus 4则付费用户独享，有条件想体验Opus的朋友们，建议还是开个Pro会员体验，API不值得。后续也会介绍我目前知晓的低成本体验Claude会员的途径。

6、基准测试

基准测试真好看，基准测试不好看也不会发布😁。现在每家发布LLM都自称是目前的SOTA(State Of The Art，最先进水平)。

个人较为认同Anthropic CEO有关基准测试无意义的言论，基准测试肯定存在失真，但大致比较了模型能力的强弱。

这张图展示了Claude 4在SWE基准测试上遥遥领先。

Claude 4在SWE基准测试上遥遥领先

这张图则展示了Claude 4成为目前的LLM SOTA。

Claude 4成为目前的LLM SOTA

livebench.ai榜单上，Claude Opus 4是目前经典LLM的第一把交椅。推理模型适合刷榜，经典LLM更适合用户日常提问。

livebench.ai榜单上，Claude Opus 4是目前的经典LLM之王

经典LLM方面，Google已经将推理模型和经典LLM结合；OpenAI最强的经典LLM其实是官网的ChatGPT 4o，有了各大丰富工具的辅助，用户体验也是一流的存在。

目前我的经典LLM第一选择: Claude官网的Claude Opus 4和ChatGPT官网的ChatGPT 4o模型。

Claude Code

挑选以下两个新命令来体验。

1
2


/install-github-app
/vibe

看看ChatGPT o3对于/install-github-app命令的介绍。

ChatGPT o3对于/install-github-app命令的介绍

可能会用到的操作命令:

1
2
3
4
5
6
7
8


# 更新包管理器并安装GitHub CLI工具
apt upate && apt install gh -y

# 使用GitHub CLI进行身份验证登录
gh auth login 

# 根据提示操作，在github里面新建一个`personal access token (classic)`，
# 勾选`repo`、`workflow`、`admin:org`、`admin:public_key`4个选项。

专业程序员可以尝试用Claude Code GitHub Actions完成各种任务，我就不整了。

via:

https://github.com/anthropics/claude-code-action

https://docs.anthropic.com/en/docs/claude-code/github-actions#quick-start

/vibe命令里面是一个vibe coding(氛围编码)的彩蛋。

/vibe命令里面是一个vibe coding(氛围编码)的彩蛋。

看到Claude Opus 4解释中包含道德经，不由得感慨中华文化的博大精深，虽然Anthropic CEO极度反华。

Claude Opus 4对于/vibe命令彩蛋的解析

代码之道(The Way Of Code)网站: https://www.thewayofcode.com/

利用Claude Code给上次整的贪吃熊精进了可视化效果和音效😁。via: https://bear.gujiakai.top/

Claude API

1、代码执行工具

2、MCP连接器

3、文件API

4、扩展提示缓存

官方相关的推文演示: https://x.com/AnthropicAI/status/1925633118104416587

前一段时间，我在Gemini API中体验过类似的代码执行工具，只能说Anthropic推出该功能的时间有些晚。OpenAI的代码执行工具相关的API 1年前就支持了。文件API也是类似的情况。

via: https://www.anthropic.com/news/agent-capabilities-api

其余

1、Claude Invite活动

Claude新推出的拉人头活动。via: https://claude.ai/invite

拉的人头越多，中奖4个月Claude Max套餐的几率越大。

有趣的是Claude拉人头活动对于美国本土的一些地区限制。具体可见Claude Opus 4的答疑。

Claude Opus 4对于Claude拉人头活动限制美国部分地区的解答

看到这篇文章还没注册Claude账号的小伙伴可以考虑走一走我Aff链接，给我免费拿4个月Max套餐增加一丢丢机会🥹。via: https://claude.ai/referral/_0IX9uZm2w

其实这种抽奖活动看看就好，普通用户自己拉自己，搞几个就行（我就搞了一个entry），没必要拉满100个。肯定会有拉了100个人头的老哥没中奖，拉了1个人头的老哥中奖的情况发生，到时候拉了这么多人头，竹篮打水一场空，会很破防。

Claude拉人头活动我搞了1个entry。

via: https://support.anthropic.com/en/articles/11408405-claude-4-invite-contest

2、Cursor、Windsurf、Github Copilot等第三方接入情况

Windsurf CEO哭死，Claude 4模型没有第一时间提供给Windsurf。

Windsurf CEO哭死，Claude 4模型没有第一时间提供给Windsurf。估计Windsurf的用户量会略微受到影响。目前我写这篇博文所处的编辑器是Cursor，前一阵子用美国edu白嫖了一年。Cursor、Github Copilot等第一时间就接入了Claude 4模型。

via: https://x.com/_mohansolo/status/1925605908287250939

3、一些较好的链接资源、参考资料

a. Claude 4官方博文: https://www.anthropic.com/news/claude-4

b. Simon Willison大神有关Claude发布会的Live Blog: https://simonwillison.net/2025/May/22/code-with-claude-live-blog/

现场参与这场event，可以享受三个月的Max套餐，有些羡慕。

c. Agent的定义: https://simonwillison.net/2025/May/22/tools-in-a-loop/

Agents are models using tools in a loop.(智能体是循环使用工具的模型。)

d. Claude模型对比: https://simonwillison.net/2025/May/22/updated-anthropic-models/

e. Claude相关X官方账户的推文:

https://x.com/alexalbert__/status/1925591741924876781

https://x.com/AnthropicAI/status/1925591505332576377

f. Tibor Blaho有关Anthropic发布会的总结推文: https://x.com/btibor91/status/1925641897369797038

g. Vibe Check: Claude Opus 4博文: https://every.to/chain-of-thought/vibe-check-claude-4-sonnet

h. Anthropic官方直播: https://www.youtube.com/watch?v=EvtPBaaykdo

其余直播: https://www.youtube.com/@anthropic-ai/streams

i: Claude 4 System Card: https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

总结

Claude系列模型Web端使用，一般情况下，不推荐开Extended thinking，日常使用经典LLM就够了，除非经典LLM得到的回复不理想才会考虑开启thinking。

虽然Claude Sonnet 4的SWE基准测试要比Claude Opus 4要好上一丢丢，以及一些基准测试的代码能力评估显示Claude Sonnet 4要好于Claude Opus 4，但在Claude Web端我肯定会优先考虑Claude Opus 4 without thinking。以后遇到写作、代码相关的任务，第一时间选择Claude Opus 4绝对是一个很棒的选择，除非Claude Opus 4给出的回复不理想，才会考虑去问Claude Sonnet 4。

Claude 4都出了，GPT 5还会远吗？期待在2025年中后期见到GPT 5模型。

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享4.0许可证）

← 上一篇：Google I/O 2025记录

下一篇：Grok 4真实体验 →