Claude 3.5 Haiku测评

2024-11-05 #claude, #anthropic 3 分钟查看 Markdown

实测 Claude 3.5 Haiku

1、aider代码排行榜排名第四。

livebench排行榜、lmarena排行榜待定，预计代码能力应该不及claude 3.5 sonnet(new)。

2、模型api定价

暂时只能通过api获取，预计后续会取代claude.ai上的claude 3 haiku。

3、claude 3.5 haiku的亮点：快速、知识截止日期更新（2024年7月，不由得吐槽openai，啥时候将模型的知识截止日期往后推一推啊，一直2023年10月，影响模型的准确度和使用体验）

备注：不支持图片输入哦。

4、官方给出的claude 3.5 haiku的主要使用案例【在lobechat中自定义模型，用上了官方api提供的最新haiku模型】：

5、benchmarks，感觉haiku就是蒸馏版的claude 3.5 sonnet(new)

6、claude 3.5 sonnet测评

知识截止日期测评【不涉及任何政治因素，仅仅用于测试用】

claude 3.5 sonnet(new)比较搞笑的点，一开始拒绝回复【政治敏感，较为谨慎】，新开一个chat，准确回复。

what happened? 感觉claude 3.5 sonnet haiku确确实实是claude 3.5 sonnet(new)的蒸馏版本啊。

为此我还特意去anthropic的控制台查看了一下日志，确确实实是请求的claude 3.5 haiku模型啊。

用英文提问试试，结果claude 3.5 haiku直接说截止日期是2024年2月份了。

瞬间不想再继续测评下去了。其实LLM的知识截止日期越靠后并不意味着LLM能学习到这段时间内的所有的知识，就比如lmarena中的知识截止日期最靠后的是cohere的command r plus（2024年8月），但是该模型对于2024年发生的事件知晓的并不全面。不由得感慨数据对于LLM训练的重要性。

也有可能是我目前还没找到claude 3.5 haiku相较于claude 3.5 sonnet(new)的优势。看Alex Albert（Anthropic公司的开发者关系主管）的描述，claude 3.5 haiku还是很有潜力的。

推理能力

一坨shit。

claude 3.5 sonnet(new)推理方面的幻觉也是存在的。

7、再来简单地看看马斯克的xai呢【年底前，每个月25刀的免费额度】。librechat这个开源项目适配xai。

老马的xai grok用的是x（原twitter）上的数据训练的，恰巧覆盖到了? xai的知识日期在lmarena上显示的是2024年3月啊，grok穿越了？还tm真就答对了。

没有继续探索下去的动力了。

继续老老实实用claude 3.5 sonnet(new)吧。真正让人兴奋的，永远是最强的LLM。

LLM这个领域注定是赢家通吃的局面，除了一些为了成本考量的应用场景，其余大部分场景谁会愿意把时间浪费在和低级别的LLM对话上？

成本上面目前的claude 3.5 haiku比gpt-4o mini贵这么多，考虑成本的条件下，找不到任何用claude 3.5 haiku的理由。

还是那句话，也有可能是我目前并没有任何使用claude 3.5 haiku的应用场景，如果你有下图描述的类似场景，可以结合prompt caching来使用使用。

当然，降本肯定会在稍后进行。

via: https://www.anthropic.com/claude/haiku

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享4.0许可证）

表情回应

评论