分享好友 资讯首页 频道列表

阿里云PAI大模型评测最佳实践

2024-06-19 19:3653230
 作者:施晨、之用、南茵、求伯、一耘、临在

背景信息

内容简介

在大模型时代,随着模型效果的显著提升,模型评测的重要性日益凸显。科学、高效的模型评测,不仅能帮助开发者有效地衡量和对比不同模型的性能,更能指导他们进行精准地模型选择和优化,加速AI创新和应用落地。因此,建立一套平台化的大模型评测最佳实践愈发重要。

本文为PAI大模型评测最佳实践,旨在指引AI开发人员使用PAI平台进行大模型评测。借助本最佳实践,您可以轻松构建出既能反映模型真实性能,又能满足行业特定需求的评测过程,助力您在人工智能赛道上取得更好的成绩。最佳实践包括如下内容:

•  如何准备和选择评测数据集

•  如何选择适合业务的开源或微调后模型

•  如何创建评测任务并选择合适的评价指标

•  如何在单任务或多任务场景下解读评测结果

平台亮点

PAI大模型评测平台,适合您针对不同的大模型评测场景,进行模型效果对比。例如:

• 不同基础模型对比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat

• 同一模型不同微调版本对比:Qwen2-7B-Instruct 在私有领域数据下训练不同 epoch 版本效果对比

• 同一模型不同量化版本对比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考虑到不同开发群体的特定需求,我们将以企业开发者算法研究人员两个典型群体为例,探讨如何结合常用的公开数据集(如MMLU、C-eval等)与企业的自定义数据集,实现更全面准确并具有针对性的模型评测,查找适合您业务需求的大模型。最佳实践的亮点如下:

• 端到端完整评测链路,无需代码开发,支持主流开源大模型,与大模型微调后的一键评测;

• 支持用户自定义数据集上传,内置10+通用NLP评测指标,一览式结果展示,无需再开发评测脚本;

• 支持多个领域的常用公开数据集评测,完整还原官方评测方法,雷达图全景展示,省去逐个下载评测集和熟悉评测流程的繁杂;

• 支持多模型多任务同时评测,评测结果图表式对比展示,辅以单条评测结果详情,方便全方位比较分析;

• 评测过程公开透明,结果可复现。评测代码开源在与ModelScope共建的开源代码库eval-scope中,方便细节查看与复现:

https://github.com/modelscope/eval-scope

前提条件

• 已开通PAI并创建了默认工作空间。具体操作,请参见开通PAI并创建默认工作空间

• 如果选择自定义数据集评测,需要创建OSS Bucket存储空间,用来存放数据集文件。具体操作,请参见控制台创建存储空间

使用费用

• PAI大模型评测依托于PAI-快速开始产品。快速开始是PAI产品组件,集成了众多AI开源社区中优质的预训练模型,并且基于开源模型支持零代码实现从训练到部署再到推理的全部过程,给您带来更快、更高效、更便捷的AI应用体验。

• 快速开始本身不收费,但使用快速开始进行模型评测时,可能产生DLC评测任务费用,计费详情请参见DLC计费说明

• 如果选择自定义数据集评测,使用OSS存储,会产生相关费用,计费详情请参见OSS计费概述

场景一:面向企业开发者的自定义数据集评测

企业通常会积累丰富的私有领域数据。如何充分利用好这部分数据,是企业使用大模型进行算法优化的关键。因此,企业开发者在评测开源微调后的大模型时,往往会基于私有领域下积累的自定义数据集,以便于更好地了解大模型在私有领域的效果。

对于自定义数据集评测,我们使用NLP领域标准的文本匹配方式,计算模型输出结果和真实结果的匹配度,值越大,模型越好。使用该评测方式,基于自己场景的独特数据,可以评测所选模型是否适合自己的场景。

以下将重点展示使用过程中的一些关键点,更详细的操作细节,请参见模型评测产品文档

1. 准备自定义评测集

1.1. 自定义评测集格式

       1. 基于自定义数据集进行评测,需要提供JSONL格式的评测集文件

o 文件格式:使用question标识问题列,answer标识答案列。

o 文件示例:llmuses_general_qa_test.jsonl

9.jpg

2. 符合格式要求的评测集,可自行上传至OSS,并创建自定义数据集,详情参见上传OSS文件创建及管理数据集

1.2. 创建自定义评测集

1. 登录PAI控制台

2. 在左侧导航栏选择AI资产管理>数据集,进入数据集页面

3. 单击创建数据集

4. 填写创建数据集相关表单,从OSS中选择您的自定义评测集文件

2. 选择适合业务的模型

2.1.  查找开源模型

1. 在PAI控制台左侧导航栏选择快速开始,进入快速开始页面

2. 单击快速开始提供的模型分类信息,直接进入到模型列表中,根据模型描述信息进行查看。

 

3. 单击进入模型详情页后,对于可评测的模型,会展示评测按钮。

a. 支持模型类型:当前模型评测支持HuggingFace所有AutoModelForCausalLM类型的模型

2.2. 使用微调后的模型

1. 使用快速开始进行模型微调,详细步骤请参见模型部署及训练

2. 微调完成后,在快速开始>任务管理>训练任务中,单击训练好的任务名称,进入任务详情页后,对于可评测的模型,右上角会展示评测按钮。

 

 

3. 创建评测任务

1. 在模型详情页右上角单击评测,创建评测任务

2. 在新建评测任务页面,配置以下关键参数。

111.jpg

3. 任务创建成功后,将自动分配资源,并开始运行。

4. 运行完成后,任务状态显示为已成功

4. 查看评测结果

4.1. 评测任务列表

1. 在快速开始页面,单击搜索框左侧的任务管理

2. 在任务管理页面,选择模型评测标签页。

4.2. 单任务结果

1. 在模型评测列表页,单击评测任务的查看报告选项,即可进入评测任务详情页

2. 评测报告如下图所示,选择自定义数据集评测结果,将在雷达图展示该模型在ROUGE和BLEU系列指标上的得分。此外还会展示评测文件每条数据的评测详情。

 

222.jpg

• rouge-n类指标计算N-gram(连续的N个词)的重叠度,其中rouge-1和rouge-2是最常用的,分别对应unigram和bigram,rouge-l 指标基于最长公共子序列(LCS)。

• bleu (Bilingual evaluation Understudy) 是另一种流行的评估机器翻译质量的指标,它通过测量机器翻译输出与一组参考翻译之间的N-gram重叠度来评分。其中bleu-n指标计算n-gram的匹配度。

 

 

3. 最终评测结果会保存到您指定的OSS路径中

4.3. 多任务对比

1. 当需要对比多个模型的评测结果时,可以将它们聚合在一个页面上展示,以便于比较效果。

2. 具体操作为在模型评测任务列表页,左侧选择想要对比的模型评测任务,右上角单击对比,进入对比页面。

3. 自定义数据集评测对比结果

 

 


场景二:面向算法研究人员的公开数据集评测

算法研究通常建立在公开数据集上。研究人员在选择开源模型,或对模型进行微调后,都会参考其在权威公开数据集上的评测效果。然而,大模型时代的公开数据集种类繁多,研究人员需要花费大量时间调研选择适合自己领域的公开数据集,并熟悉每个数据集的评测流程。为方便算法研究人员,PAI接入了多个领域的公开数据集,并完整还原了各个数据集官方指定的评测metrics,以便获取最准确的评测效果反馈,助力更高效的大模型研究。

在公开数据集评测中,我们通过对开源的评测数据集按领域分类,对大模型进行综合能力评估,例如数学能力、知识能力、推理能力等,值越大,模型越好,这种评测方式也是大模型领域最常见的评测方式。

以下将重点展示使用过程中的一些关键点,更详细的操作细节,请参见模型评测产品文档

1. 支持的公开数据集

目前PAI维护的公开数据集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-eval、CMMLU、TruthfulQA,其他公开数据集陆续接中。

 

555.jpg

 

      2. 选择适合的模型

      2.1.  查找开源模型

1. 在PAI控制台左侧导航栏选择快速开始,进入快速开始页面

单击快速开始提供的模型分类信息,直接进入到模型列表中,根据模型描述信息进行查看。

 


3. 单击进入模型详情页后,对于可评测的模型,会展示评测按钮。

a. 支持模型类型:当前模型评测支持HuggingFace所有AutoModelForCausalLM类型的模型

2.2. 使用微调后的模型

1. 使用快速开始进行模型微调,详细步骤请参见模型部署及训练

2. 微调完成后,在快速开始>任务管理>训练任务中,单击训练好的任务名称,进入任务详情页后,对于可评测的模型,右上角会展示评测按钮。

 

3. 创建评测任务

1. 在模型详情页右上角单击评测,创建评测任务

2. 在新建评测任务页面,配置以下关键参数。本文以MMLU数据集为例。

 

7777.jpg

 

3. 任务创建成功后,将自动分配资源,并开始运行。

4. 运行完成后,任务状态显示为已成功

4. 查看评测结果

4.1. 评测任务列表

1. 在快速开始页面,单击搜索框左侧的任务管理

2. 在任务管理页面,选择模型评测标签页。

4.2. 单任务结果

1. 在模型评测列表页,单击评测任务的查看报告选项,即可进入评测任务详情页

2. 评测报告如下图所示,选择公开数据集评测结果,将在雷达图展示该模型在公开数据集上的得分。

o 左侧图片展示了模型在不同领域的得分情况。每个领域可能会有多个与之相关的数据集,对属于同一领域的数据集,我们会把模型在这些数据集上的评测得分取均值,作为领域得分。

o 右侧图片展示模型在各个公开数据集的得分情况。每个公开数据集的评测范围详见该数据集官方介绍。

 

 

3. 最终评测结果会保存到您指定的OSS路径中

4.3. 多任务对比

1. 当需要对比多个模型的评测结果时,可以将它们在聚合在一个页面上展示,以便于比较效果。

2. 具体操作为在模型评测任务列表页,左侧选择想要对比的模型评测任务,右上角单击对比,进入对比页面。

3. 公开数据集评测对比结果

 

举报 0
收藏 0
打赏 0
钢铁巨头的"绿色账本":西门子这招让碳排放大户变减排先锋
原创 西门子Xcelerator中国河钢携手西门子如果想知道“一家企业的年用电量是多少”?拉张电费单即可一目了然,可若问“一家企业

0评论2025-08-205166

别让假客服钻空子!拨打热线请认准官方指定
遇到家电问题,很多人习惯找客服寻求帮助,但在这个过程中,一定要注意辨别真假,避免落入假冒客服的陷阱。8月14日,南京市民薛

0评论2025-08-185276

智汇和平 模创启航!天津天开和平园·模创社区开园仪式成功举办
8月13日,“智汇和平·模创启航”天开和平园·模创社区(以下简称:模创社区)开园仪式圆满举办,市相关领导出席活动并致辞。天

0评论2025-08-155437

智能门锁下半场:拼完功能拼售后,看奇兵到家如何破智能门锁下半场
解智能门锁售后痛点智能家居浪潮中,智能门锁已跃升为“刚需级”单品。然而,黑猫投诉平台数据显示,相关投诉已突破2700条,其中

0评论2025-08-156388

艾聆科技推出随身 AI 助理 Note Pro 升级版,十大升级重塑行业标杆
作为AI领域的新锐力量,艾聆科技基于其研发团队深厚的技术功底,在行业已有标杆产品的基础上,进一步打磨升级,推出其面向工作学习场景的随身AI助理 Note Pro升级版。

0评论2025-08-155790

中科慧远发布首款工业质检机器人CASIVIBOT
8月19日,国内领先的AOI(自动光学检测)专有设备制造商中科慧远将举行新品发布会,正式推出其首款工业具身质检机器人「CASIVIBOT」。

0评论2025-08-145494

酒业仓储“效率革命”来了!中力数智新仓打造酒业智能仓储新典范
当千年酒香遇上智能科技会发生什么神奇反应?中力数智携手石花酒业打造智能化酿造中心,以数智新仓【密集堆垛+前移式机器人】一举

0评论2025-08-125719

专为中国用户“量身定制”!爱普生发布LA-A系列新品机器人
8月8日,爱普生以“智在中国 劲擎共赢”为主题,在爱普生技术(深圳)有限公司(下称:爱普生深圳工厂)重磅发布首款专为中国市

0评论2025-08-115596

比利·简·金杯深圳总决赛今日20点盛大开票,郑洁担任赛事推广大使
创办于1963年的比利·简·金杯是世界上最顶级的国际女子网球团体赛事,被誉为“女子网球世界杯”。2025-2027年,比利·简·金杯

0评论2025-08-115526

VisionChina2026(上海)机器视觉展焕新登场,报名抢占黄金展位!
VisionChina2026(上海)机器视觉展将于2026年3月25-27日在上海新国际博览中心W4W5馆盛大启幕!从核心零部件到智能系统集成,从2

0评论2025-08-075878