国产大模型全阵容，中文大模型竞技场推出！

时间：2024-05-31 16:12 来源: 中国网阅读量：11459

LMSYS Org推出的大模型竞技场Chatbot Arena，已成为海外最具公信力的大模型榜单之一，但该榜单中文化程度相对不足。近日，上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面、Minimax、深度求索、书生·浦语等20款国产大模型出战，角逐中国大模型“最强王者”。

相比考题固定的传统测评，大模型竞技场采用盲测、开放的测评模式，可以更全面地检验模型实力。Compass Arena设置了随机、匿名对战，大模型选手们成为“蒙面唱将”，模型信息隐去后，由系统随机匹配进行PK，用户可以天马行空自由出题，并作为评委主观评判和投票。如果大模型不小心“自报家门”，则对话被过滤，不计入成绩。通过成千上万轮PK挑战和用户投票，系统将对大模型进行自动排名。

魔搭社区直播时，网友脑洞大开在线出题

Compass Arena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设，前者负责组织评测，后者负责开源模型引入及社区打造。据上海人工智能实验室OpenCompass团队介绍，Compass Arena力求体现社区用户的真实反馈，评测机制借鉴Chatbot Arena，采用Elo评分系统，即国际象棋等对弈活动评估的权威标准。在这种模式下，大模型竞技类似“在游戏中打排位”，胜率成为评估模型水平的关键指标，同时随着排位变高，系统也会自动匹配高段位选手进行对战。

与Chatbot Arena相比，Compass Arena更聚焦中文大模型，主流国产大模型全覆盖，同时评测用户大多使用中文，可以充分评估国产大模型的性能。

目前，Compass Arena已汇聚超20款商业及社区模型，包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等国内头部厂商的旗舰款大模型，并引入了Llama3、Mixtral等海外标杆模型进行参照。更多模型及厂商还在不断加入中。

上线不到一周，已有上万人访问魔搭Compass Arena页面。魔搭社区表示，欢迎广大开发者和网友参与大模型排位赛的投票，共同促进国产大模型的进步和赶超。后续，Compass Arena首期排行榜将揭晓，并将定期公布更新。

Compass Arena首批大模型名单:

Abab6.5-Chat

Baichuan 4

C4AI Command R+

DBRX-Instruct

Deepseek-LLM-67B-Chat

Deepseek-MoE-16B-Chat

Doubao-Pro-4K

ERNIE-4.0-8K

GLM4

Hunyuan-Pro

InternLM2系列

Llama3系列

Mixtral 8x22B Instruct

MoonShot-V1-32K

Qwen1.5系列

Qwen-Max

Spark3.5-Max

Yi-34B-Chat

Yi-Large

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

热点精选

《消费端碳排放研究报告2024》发布：中国为全球提供更多的绿色低碳产品2024-05-30 18:52
挚文集团业绩连跌陌陌、探探MAU下滑付费用户流失2024-05-30 18:50
意华股份002897.SZ：生产的400G等新一代高速连接器包括铜缆连接2024-05-30 18:03
2024年第一季新能源车销量年增16.9%，PHEV突围年增近五成2024-05-30 17:07
京东618发布12大AI品类加速推动AI硬件普惠2024-05-30 15:38
敢为不凡闪耀全球：TCL连续三届成为美洲杯官方合作伙伴2024-05-30 15:04
网易有道CEO周枫：‘产模一体’大势所趋有道已推出超10款大模型落地应用2024-05-30 13:18
融核造芯智创未来"亿芯公司高性能可编程SoC/SIP系列新品发布会2024-05-30 13:16
廉价算力时代即将到来！永旗科技将推出算力矩阵2024-05-30 13:14
奇境穿越X-META闪耀深圳文博会，百城争邀合作2024-05-30 13:08

频道：网站首页 > 互联快讯 > >文章内容

国产大模型全阵容，中文大模型竞技场推出！

热点精选

热门内容

推荐阅读