司南(OpenCompass2.0),一站式大模型评测体系,于1月30日发布。
专为大语言模型和多模态模型等提供全面评估,包括知识、语言、理解、推理和考试五大能力维度,为技术创新提供客观支持。
同时发布2023年大模型公开评测榜单,显示GPT-4 Turbo领先,国内模型在中文场景下表现强势。
数据见司南官网:https://opencompass.org.cn/
数据见GitHub页面: 和 https://github.com/open-compass/OpenCompass
大语言模型整体能力有待提升,特别是复杂推理能力。
开源模型表现出快速进步和潜力。
自发布以来,OpenCompass在学术和产业界引起关注,成为领先的评测体系。
目前评测覆盖超过150个大模型,超30家企业和机构已采用。
此外,OpenCompass启动“大模型评测伙伴计划”,与各行业顶尖企业合作推进大模型应用。
年度榜单中,GPT-4稳居首位,开源模型展现前景。OpenCompass2.0对多个模型进行全面评测,揭示大语言模型在多维度下仍有提升空间。国内大模型正在迅速缩小与GPT-4 Turbo的差距,开源社区同样展现出显著进步。
原文链接:https://www.bilibili.com/read/cv30618337/