LMSYS Chatbot Arena是一个众包的开放平台,用于评估大型语言模型(LLM)
Large Model Systems Organization (LMSYS Org) 是一个开放的研究组织,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创立。他们的目标是通过共同开发开放数据集、模型、系统和评估工具,让每个人都能访问大型模型。工作包括机器学习和系统方面的研究
这个排名有以下特点
LMSYS Chatbot Arena是一个开放平台,允许公众参与
该平台的目的是评估和比较不同的大型语言模型(LLM)
他们采用了"众包"的方式,即通过收集大量人类参与者的反馈和偏好投票来评估这些模型
目前已经收集了超过40万条人类偏好投票
使用elo排名系统根据这些偏好投票对不同的LLM进行排名
Elo指的是ELO rating system,是一种用于计算比赛对手实力等级的评分系统,最初由匈牙利美国物理学家阿罗·埃洛(Arpad Elo)发明
在最新全球75个顶尖的模型排行中,Claude 3 opus超越GPT4,排行第一,Claude-3 Haiku 也给所有人留下了深刻印象,甚至达到了用户偏好的 GPT-4 级别!其速度、功能和上下文长度在目前市场上无与伦比,从用户反馈来看好评如潮,很多人已经不续订GPT4了,哈哈
另外阿里的通义千问1.5表现很不错,排名第九,非常接近GPT4和 Claude 3这两个封闭模型,在开源模型中仅次于目前大热的法国明星混合大模型mistral
以下是更多统计数据
模型 A 在所有非平局 A 与 B 战斗中获胜的比例
每种模型组合的战斗计数(无平局)
模型强度的置信区间(通过 Bootstrapping)
相对于所有其他模型的平均胜率(假设均匀采样且无平局)
结语
https://colab.research.google.com/drive/1KdwokPjirkTmpO_P1WByFNFiqxWQquwH#scrollTo=tyl5Vil7HRzd
这个colab给出了一个notebook,可以直接运行,关于模型的排行统计计算整个过程都在里面,有兴趣的可以去看看
2023 年 4 月 24 日至 2024 年 3 月 13 日期间从 https://arena.lmsys.org 收集的 Chatbot Arena 数据进行了数据分析
解释模型排名的不同 Elo 计算方法(在线 Elo 和 MLE Elo,也称为 Bradley-Terry 模型)
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
Claude不负众望👇👇