Claude 3.5 Haiku测评
1、aider代码排行榜排名第四。
livebench排行榜、lmarena排行榜待定,预计代码能力应该不及claude 3.5 sonnet(new)。
2、模型api定价
暂时只能通过api获取,预计后续会取代claude.ai上的claude 3 haiku。
3、claude 3.5 haiku的亮点:快速、知识截止日期更新(2024年7月,不由得吐槽openai,啥时候将模型的知识截止日期往后推一推啊,一直2023年10月,影响模型的准确度和使用体验)
备注:不支持图片输入哦。
4、官方给出的claude 3.5 haiku的主要使用案例【在lobechat中自定义模型,用上了官方api提供的最新haiku模型】:
5、benchmarks,感觉haiku就是蒸馏版的claude 3.5 sonnet(new)
6、claude 3.5 sonnet测评
- 知识截止日期测评【不涉及任何政治因素,仅仅用于测试用】
claude 3.5 sonnet(new)比较搞笑的点,一开始拒绝回复【政治敏感,较为谨慎】,新开一个chat,准确回复。
what happened? 感觉claude 3.5 sonnet haiku确确实实是claude 3.5 sonnet(new)的蒸馏版本啊。
为此我还特意去anthropic的控制台查看了一下日志,确确实实是请求的claude 3.5 haiku模型啊。
用英文提问试试,结果claude 3.5 haiku直接说截止日期是2024年2月份了。
瞬间不想再继续测评下去了。其实LLM的知识截止日期越靠后并不意味着LLM能学习到这段时间内的所有的知识,就比如lmarena中的知识截止日期最靠后的是cohere的command r plus(2024年8月),但是该模型对于2024年发生的事件知晓的并不全面。不由得感慨数据对于LLM训练的重要性。
也有可能是我目前还没找到claude 3.5 haiku相较于claude 3.5 sonnet(new)的优势。看Alex Albert(Anthropic公司的开发者关系主管)的描述,claude 3.5 haiku还是很有潜力的。
- 推理能力
一坨shit。
claude 3.5 sonnet(new)推理方面的幻觉也是存在的。
7、再来简单地看看马斯克的xai呢【年底前,每个月25刀的免费额度】。librechat这个开源项目适配xai。
老马的xai grok用的是x(原twitter)上的数据训练的,恰巧覆盖到了? xai的知识日期在lmarena上显示的是2024年3月啊,grok穿越了?还tm真就答对了。
没有继续探索下去的动力了。
继续老老实实用claude 3.5 sonnet(new)吧。真正让人兴奋的,永远是最强的LLM。
LLM这个领域注定是赢家通吃的局面,除了一些为了成本考量的应用场景,其余大部分场景谁会愿意把时间浪费在和低级别的LLM对话上?
成本上面目前的claude 3.5 haiku比gpt-4o mini贵这么多,考虑成本的条件下,找不到任何用claude 3.5 haiku的理由。
还是那句话,也有可能是我目前并没有任何使用claude 3.5 haiku的应用场景,如果你有下图描述的类似场景,可以结合prompt caching来使用使用。
当然,降本肯定会在稍后进行。
文档信息
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享4.0许可证)