最近Anthropic真是风头正盛,堪称赢麻了。
亚马逊刚刚宣布,再次对它追加27.5亿美元投资,共同加速生成式人工智能发展。加上去年9月投入的12.5亿美元,总共豪掷超过40亿美元,成为亚马逊三十年历史上最大的对外投资,也令Anthropic从去年至今的融资额一举超过100亿美元。
而公司开发的旗舰大模型Claude 3全家桶自推出20多天以来,也一路好评无数、口碑爆棚,并在最新的Chatbot Arena排行榜上正式打败GPT-4,首次登上王位。
Claude 3打趴GPT-4,跃居用户体验榜首
我们知道,每当一款新的大模型推出时,都会拿GPT-4来作比较。拉出一张包括MMLU、数学、推理、编程等各项测试的跑分对照表,证明自己哪些参数已经赶超GPT-4。但归根结底,模型终究是给人用的,到底是不是真的比GPT-4厉害,还得是实际用户体验说了算。
昨天,Chatbot Arena新鲜出炉了截至3月26日的聊天机器人对战榜成绩。
在收集了来自47.7万多野生用户对于市面上75款大模型的匿名投票后,Claude 3 超大杯Opus在群众的呼声中力压群雄,打败GPT-4 Turbo成功登顶第1名。大杯Sonnet排名第4,就连 Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral Large,位列第6名。
与此同时Google仅Gemini Pro一员大将杀入前十,来自阿里巴巴的通义千问排在第9。
如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3的确用实力证明了自己比GPT-4更能打,成为目前LLM争霸赛的最大赢家。
社区用户Peter Gostev还根据Chatbot Arena排行榜制作了从23年5月到24年3月,Top15大模型的动态演变史,清晰展现Claude 3势如破竹的“上位”全过程。
对榜单不熟悉的朋友,我们先一起来看看它是怎么打分的。
Chatbot Arena(聊天机器人竞技场)是由UC Berkley、UCSD和CMU合作研究组织LMSYS Org开发的LLM测试平台,通过众包方式进行匿名随机对战,评估和排名不同的语言模型。
具体规则是:用户向两个匿名模型输入同一个问题,然后对它们各自生成的答案进行评价,选择模型A更好、B更好、平手或都很差。它支持多轮对话,直到用户认定赢家。并且如果在对话过程中泄露了模型身份,那么投票将不会被计入。最终,Chatbot Arena会采用类似于国际象棋等竞技游戏中广泛使用的Elo评分机制,来综合评估大模型能力。
可以看出,与常见的Benchmarks跑分不同,Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈,在实用性上更具参考价值。
Chatbot Arena还放出一系列白热化的后台对战数据。