大模型评价方法梳理

原文链接

大模型评测相关工作综述

本文将大模型评测相关的工作划分为评价基准设计和评测框架设计，并分别进行综述。

评价基准分类学

根据已有工作，大模型的评价基准（benchmarks）可按照语言、测试范围和数据形式进行分类：

按照语言能力划分可分为：英语、汉语、多语言等
按照测试范围可划分为：单项能力测试（不成体系）和综合能力测试（成体系）
按照数据形式可划分为：封闭型（eg：单选、多选，判断）和开放型（开放作答，eg：自由问答、对话、阅读理解等）

以下是一些代表性工作：

大模型评价基准分类学及代表性工作

代表性中文大模型评测框架

评测框架	语言	贡献类型	评测体系	评测体系点评	评测方式
CLiB	中文	评测体系榜单	分类能力、信息抽取能力、阅读理解能力、表格问答能力	综合测评，粗粒度	——
SuperCLUE（CLUE升级版）	中文	评测体系数据集榜单paper	1. 语言理解与生成：语言理解与抽取、上下文对话、生成与创作、角色扮演 2. 专业技能与知识：逻辑与推理、代码、计算、知识与百科 3. 安全性：传统安全、指令攻击 4. Agent：工具使用、任务规划	综合测评，细粒度4象限12项基础能力	问答，形式包括单选（四选一）和自由作答
OpenCompass	中文	评测体系榜单代码	综合考试、语言、知识、理解推理、长上下文、生成与创作、代码Agent、数学其他	综合测评，细粒度11项基础能力	整理并使用已有数据集进行评测
C-Eval	中文	数据集榜单paper	综合考试，涵盖了从初高中到本科到专业考试的52个学科共13,948道多选题	单项测评，仅关注知识和NLI	多选题
A Survey by TJU	——	评测体系paper	——	——	——
清华SuperBench	中英文	评测体系榜单	1. 语言能力：阅读理解、文本分类、翻译、信息抽取、语言理解、文本生成、综合问答 2. 知识掌握：常识、专业知 3. 其他：代码能力、逻辑推理、数学计算 4. 智能体：角色扮演安全	综合测评，细粒度5象限多项基础能力官方粒度拆分缺陷	整理并使用已有数据集进行评测
微软SuperBench	——	代码	——	——	——
智源FlagEval 天秤大模型评测体系	多语言	测评体系代码榜单数据集：既有+自建数据集CLCC，共22 个主观&客观评测集，84,433道评测题目	1. 基础语言能力：简单理解（信息分析、提取概括、判别评价等）、知识运用（知识问答、常识问答、事实问答）推理能力（知识推理、符号推理） 2. 高级语言能力：特殊生成（创意生成、代码生成、风格生成，修改润色等）、语境理解（语言解析、情境适应、观点辨析等） 3. 安全与价值观：安全方面包括违法犯罪、身体伤害、隐私财产、政治敏感、真实性检验；价值观方面包括歧视偏见、心理健康、文明礼貌、伦理道德 4. 综合能力：通用综合能力、领域综合能力	综合测评，细粒度4象限多项基础能力	整理并使用已有和自建数据集进行评测

工作参考建议

前端：参考清华SuperBench
构建数据集：参考C-Eval
测评体系：参考CLiB、SuperCLUE、OpenCompass、TJU Survey
Paper：看SuperCLUE、TJU Survey
代码base参考：
微软SuperBench：https://github.com/microsoft/superbenchmark
智源天秤FlagEval：https://github.com/FlagOpen/FlagEval/tree/master
OpenCompass：https://github.com/open-compass/opencompass

评测框架 vs. 评价基准

Q：评测框架和评价基准的区别是什么？

A：评测框架通常首先需要确定出一套完整、综合的评价体系，包括要评价的维度，以及每个维度下要评价哪些具体能力。因此，评测框架通常以测评大模型的综合能力为目标，涉及到的benchmarks（或者评价数据集）可能不止一个，这些benchmarks可以是为提出的评测框架专门定制的，也可以是别人提出来的、已有的；而评价基准（benchmark）则既可以以评价模型的综合能力为目标，也可以只评价某一方面的能力（比如安全性、代码生成能力、上下文推理能力等）。此外，研究者提出的benchmark一定是全新的，从来没有人提出过的。最后，综合上述分析，我们也不难发现，评测框架更具有工程性、侧重实现和给出榜单，而benchmark则更具理论性和研究价值。为了理解方便，不妨直接把评测框架理解成各种benchmarks的集成。

彩蛋

下图是本人构想的一个评价体系，不足之处欢迎大家评论区交流探讨！！My idea is opening...

本文提出的大模型评价体系

（此处应有构想的评价体系图，原文未提供具体内容）