原文链接
大模型评测相关工作综述
本文将大模型评测相关的工作划分为评价基准设计和评测框架设计,并分别进行综述。
评价基准分类学
根据已有工作,大模型的评价基准(benchmarks)可按照语言、测试范围和数据形式进行分类:
- 按照语言能力划分可分为:英语、汉语、多语言等
- 按照测试范围可划分为:单项能力测试(不成体系)和综合能力测试(成体系)
- 按照数据形式可划分为:封闭型(eg:单选、多选,判断)和开放型(开放作答,eg:自由问答、对话、阅读理解等)
以下是一些代表性工作:
大模型评价基准分类学及代表性工作
代表性中文大模型评测框架
评测框架 |
语言 |
贡献类型 |
评测体系 |
评测体系点评 |
评测方式 |
CLiB |
中文 |
评测体系榜单 |
分类能力、信息抽取能力、阅读理解能力、表格问答能力 |
综合测评,粗粒度 |
—— |
SuperCLUE(CLUE升级版) |
中文 |
评测体系数据集榜单paper |
1. 语言理解与生成:语言理解与抽取、上下文对话、生成与创作、角色扮演 2. 专业技能与知识:逻辑与推理、代码、计算、知识与百科 3. 安全性:传统安全、指令攻击 4. Agent:工具使用、任务规划 |
综合测评,细粒度4象限12项基础能力 |
问答,形式包括单选(四选一)和自由作答 |
OpenCompass |
中文 |
评测体系榜单代码 |
综合考试、语言、知识、理解推理、长上下文、生成与创作、代码Agent、数学其他 |
综合测评,细粒度11项基础能力 |
整理并使用已有数据集进行评测 |
C-Eval |
中文 |
数据集榜单paper |
综合考试,涵盖了从初高中到本科到专业考试的52个学科共13,948道多选题 |
单项测评,仅关注知识和NLI |
多选题 |
A Survey by TJU |
—— |
评测体系paper |
—— |
—— |
—— |
清华SuperBench |
中英文 |
评测体系榜单 |
1. 语言能力:阅读理解、文本分类、翻译、信息抽取、语言理解、文本生成、综合问答 2. 知识掌握:常识、专业知 3. 其他:代码能力、逻辑推理、数学计算 4. 智能体:角色扮演安全 |
综合测评,细粒度5象限多项基础能力官方粒度拆分缺陷 |
整理并使用已有数据集进行评测 |
微软SuperBench |
—— |
代码 |
—— |
—— |
—— |
智源FlagEval 天秤大模型评测体系 |
多语言 |
测评体系代码榜单数据集:既有+自建数据集CLCC,共22 个主观&客观评测集,84,433道评测题目 |
1. 基础语言能力:简单理解(信息分析、提取概括、判别评价等)、知识运用(知识问答、常识问答、事实问答)推理能力(知识推理、符号推理) 2. 高级语言能力:特殊生成(创意生成、代码生成、风格生成,修改润色等)、语境理解(语言解析、情境适应、观点辨析等) 3. 安全与价值观:安全方面包括违法犯罪、身体伤害、隐私财产、政治敏感、真实性检验;价值观方面包括歧视偏见、心理健康、文明礼貌、伦理道德 4. 综合能力:通用综合能力、领域综合能力 |
综合测评,细粒度4象限多项基础能力 |
整理并使用已有和自建数据集进行评测 |
工作参考建议
评测框架 vs. 评价基准
Q:评测框架和评价基准的区别是什么?
A: 评测框架通常首先需要确定出一套完整、综合的评价体系,包括要评价的维度,以及每个维度下要评价哪些具体能力。因此,评测框架通常以测评大模型的综合能力为目标,涉及到的benchmarks(或者评价数据集)可能不止一个,这些benchmarks可以是为提出的评测框架专门定制的,也可以是别人提出来的、已有的;而评价基准(benchmark)则既可以以评价模型的综合能力为目标,也可以只评价某一方面的能力(比如安全性、代码生成能力、上下文推理能力等)。此外,研究者提出的benchmark一定是全新的,从来没有人提出过的。最后,综合上述分析,我们也不难发现,评测框架更具有工程性、侧重实现和给出榜单,而benchmark则更具理论性和研究价值。为了理解方便,不妨直接把评测框架理解成各种benchmarks的集成。
彩蛋
下图是本人构想的一个评价体系,不足之处欢迎大家评论区交流探讨!!My idea is opening...
本文提出的大模型评价体系
(此处应有构想的评价体系图,原文未提供具体内容)