0°

Anthropic找到了打败OpenAI的方法:自己也成为OpenAI

  最近Anthropic真是风头正盛,堪称赢麻了。

  亚马逊刚刚宣布,再次对它追加27.5亿美元投资,共同加速生成式人工智能发展。加上去年9月投入的12.5亿美元,总共豪掷超过40亿美元,成为亚马逊三十年历史上最大的对外投资,也令Anthropic从去年至今的融资额一举超过100亿美元。

  而公司开发的旗舰大模型Claude 3全家桶自推出20多天以来,也一路好评无数、口碑爆棚,并在最新的Chatbot Arena排行榜上正式打败GPT-4,首次登上王位。

  Claude 3打趴GPT-4,跃居用户体验榜首

  我们知道,每当一款新的大模型推出时,都会拿GPT-4来作比较。拉出一张包括MMLU、数学、推理、编程等各项测试的跑分对照表,证明自己哪些参数已经赶超GPT-4。但归根结底,模型终究是给人用的,到底是不是真的比GPT-4厉害,还得是实际用户体验说了算。

  昨天,Chatbot Arena新鲜出炉了截至3月26日的聊天机器人对战榜成绩。

  在收集了来自47.7万多野生用户对于市面上75款大模型的匿名投票后,Claude 3 超大杯Opus在群众的呼声中力压群雄,打败GPT-4 Turbo成功登顶第1名。大杯Sonnet排名第4,就连 Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral Large,位列第6名。

  与此同时Google仅Gemini Pro一员大将杀入前十,来自阿里巴巴的通义千问排在第9。

  如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3的确用实力证明了自己比GPT-4更能打,成为目前LLM争霸赛的最大赢家。

  社区用户Peter Gostev还根据Chatbot Arena排行榜制作了从23年5月到24年3月,Top15大模型的动态演变史,清晰展现Claude 3势如破竹的“上位”全过程。

  对榜单不熟悉的朋友,我们先一起来看看它是怎么打分的。

  Chatbot Arena(聊天机器人竞技场)是由UC Berkley、UCSD和CMU合作研究组织LMSYS Org开发的LLM测试平台,通过众包方式进行匿名随机对战,评估和排名不同的语言模型。

  具体规则是:用户向两个匿名模型输入同一个问题,然后对它们各自生成的答案进行评价,选择模型A更好、B更好、平手或都很差。它支持多轮对话,直到用户认定赢家。并且如果在对话过程中泄露了模型身份,那么投票将不会被计入。最终,Chatbot Arena会采用类似于国际象棋等竞技游戏中广泛使用的Elo评分机制,来综合评估大模型能力。

  可以看出,与常见的Benchmarks跑分不同,Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈,在实用性上更具参考价值。

  Chatbot Arena还放出一系列白热化的后台对战数据。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论