Feelings

无封面

2025-08-13
编辑

大模型评价方法梳理

原文链接

大模型评测相关工作综述

本文将大模型评测相关的工作划分为评价基准设计和评测框架设计,并分别进行综述。

评价基准分类学

根据已有工作,大模型的评价基准(benchmarks)可按照语言、测试范围和数据形式进行分类:

  • 按照语言能力划分可分为:英语、汉语、多语言等
  • 按照测试范围可划分为:单项能力测试(不成体系)和综合能力测试(成体系)
  • 按照数据形式可划分为:封闭型(eg:单选、多选,判断)和开放型(开放作答,eg:自由问答、对话、阅读理解等)

以下是一些代表性工作:

大模型评价基准分类学及代表性工作

代表性中文大模型评测框架

评测框架 语言 贡献类型 评测体系 评测体系点评 评测方式
CLiB 中文 评测体系榜单 分类能力、信息抽取能力、阅读理解能力、表格问答能力 综合测评,粗粒度 ——
SuperCLUE(CLUE升级版) 中文 评测体系数据集榜单paper 1. 语言理解与生成:语言理解与抽取、上下文对话、生成与创作、角色扮演
2. 专业技能与知识:逻辑与推理、代码、计算、知识与百科
3. 安全性:传统安全、指令攻击
4. Agent:工具使用、任务规划
综合测评,细粒度4象限12项基础能力 问答,形式包括单选(四选一)和自由作答
OpenCompass 中文 评测体系榜单代码 综合考试、语言、知识、理解推理、长上下文、生成与创作、代码Agent、数学其他 综合测评,细粒度11项基础能力 整理并使用已有数据集进行评测
C-Eval 中文 数据集榜单paper 综合考试,涵盖了从初高中到本科到专业考试的52个学科共13,948道多选题 单项测评,仅关注知识和NLI 多选题
A Survey by TJU —— 评测体系paper —— —— ——
清华SuperBench 中英文 评测体系榜单 1. 语言能力:阅读理解、文本分类、翻译、信息抽取、语言理解、文本生成、综合问答
2. 知识掌握:常识、专业知
3. 其他:代码能力、逻辑推理、数学计算
4. 智能体:角色扮演安全
综合测评,细粒度5象限多项基础能力官方粒度拆分缺陷 整理并使用已有数据集进行评测
微软SuperBench —— 代码 —— —— ——
智源FlagEval 天秤大模型评测体系 多语言 测评体系代码榜单数据集:既有+自建数据集CLCC,共22 个主观&客观评测集,84,433道评测题目 1. 基础语言能力:简单理解(信息分析、提取概括、判别评价等)、知识运用(知识问答、常识问答、事实问答)推理能力(知识推理、符号推理)
2. 高级语言能力:特殊生成(创意生成、代码生成、风格生成,修改润色等)、语境理解(语言解析、情境适应、观点辨析等)
3. 安全与价值观:安全方面包括违法犯罪、身体伤害、隐私财产、政治敏感、真实性检验;价值观方面包括歧视偏见、心理健康、文明礼貌、伦理道德
4. 综合能力:通用综合能力、领域综合能力
综合测评,细粒度4象限多项基础能力 整理并使用已有和自建数据集进行评测

工作参考建议

评测框架 vs. 评价基准

Q:评测框架和评价基准的区别是什么?

A: 评测框架通常首先需要确定出一套完整、综合的评价体系,包括要评价的维度,以及每个维度下要评价哪些具体能力。因此,评测框架通常以测评大模型的综合能力为目标,涉及到的benchmarks(或者评价数据集)可能不止一个,这些benchmarks可以是为提出的评测框架专门定制的,也可以是别人提出来的、已有的;而评价基准(benchmark)则既可以以评价模型的综合能力为目标,也可以只评价某一方面的能力(比如安全性、代码生成能力、上下文推理能力等)。此外,研究者提出的benchmark一定是全新的,从来没有人提出过的。最后,综合上述分析,我们也不难发现,评测框架更具有工程性、侧重实现和给出榜单,而benchmark则更具理论性和研究价值。为了理解方便,不妨直接把评测框架理解成各种benchmarks的集成。

彩蛋

下图是本人构想的一个评价体系,不足之处欢迎大家评论区交流探讨!!My idea is opening...

本文提出的大模型评价体系

(此处应有构想的评价体系图,原文未提供具体内容)

评论区

昵称最多15个字符,包含汉字、字母、数字等

暂无评论,快来发表第一条评论吧~