2024人工智能 预训练模型 第2部分:评测指标.docx
《2024人工智能 预训练模型 第2部分:评测指标.docx》由会员分享,可在线阅读,更多相关《2024人工智能 预训练模型 第2部分:评测指标.docx(24页珍藏版)》请在优知文库上搜索。
1、人工智能预训练模型第2部分:评测指标与方法前SII引HI1范围12规范性引用文件13术语和定义14缩珞语15评测指标15.1 评测维度15.2 理解能力评测指标15.3 生成能力评刈指标115.4 安全性评测指标156评测要求156.1 评测数据集156.2 评测环境156.3 评测执行156.4 评测工具166.5 评测实施16附录A(资料性评测指标计算方法17参考文依21训练模型已成为人工智能发展的重要技术手段.在引额产业变革中发挥重要作用.出内外人工智能相关机构相继研究开发百余种预训练模型产品和评海榜以,林较用户难以有效评价业内人工智能产品的技术水平和服务能力。GBTXXXXX旨在规定通
2、用预训练模型的技术要求、评测指标和服务能力,拟由三部分构成.一一笫I部分:通用要求,目的在于定义制务或使用大规模预训练模型的人工智能系统的技术参考架构和相关方活动,并提出通用技术要求.一一第2部分:评测指标与方法。目的在于定义预训练模型可支持完成的任务、评测指标以及评溺方法.一一第3部分:服分能力成熟度评估.F1.的在于定义大规愎预训练模型服务能力成熟度评估框架,规定大规模预训练模型服务的能力要求、成熟度等级及评估方法.HI人工智能第2部分:评测指标与方法1葩围本文件规定了预训练模型评测内容、指标设置和评测方法.本文件适用于模型提供者、应用服务苻和应川消费音等对预训练模型能力进行评估与测试,也
3、可以为预训练模型的设计、开发、应用提供参考,2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款,其中,注11期的引用文件,仅该H期时危的版本适用于本文件:不注H期的引用文件,其最新版本(包括所有的修改单)适用于本文件.GB/T41867-2022信刖技术人工智能术语GB/T42755-2023人工智能面向机器学习的数据标注规程GB/TXXXXX.1XXXX人工智能预训练模型第I部分:通用要求3术语和定义GB/T41867-2022和GB/TXXXXX.1-XXXX界定的术语和定义适用于本文件。4缩珞语下列缩略语适用于本文件。B1.EU:双i书评估替补(BiIingU
4、a1.EYaIUatiOnUndenuUdy)API:应用编程接口(App1.icationProgrammingInterface)5评测指标5.1 评测维度本文件对位训练模型通用能力进行评测.主要分为理耨、生成、安全3个评测维度.共44个典型任务-针对每一个典型任务,本文件规定了对应的评测内容和评测方法.5.2 理解能力评测指标5.3 1概述预训练模型理解能力评测主要分为单模态和多模态维度,电模态维度主要包括文本、图像、音频3个二级维度。多模态维度主要包括图文、文音、图书、图文有4个二级维度。理解能力评测维度和典型任务见表1.表1理解能力评测维度和说明序号一级维度二级推度典里任务说明1单模
5、态文本文本分类将文本划分为不同的类别或标签.可以应用于垃圾邮件过浓、情感分析、新闻分类等应用场景。2命名实体识别识别文本中的实体,如人名、地名、组织机构、1期等。3信息抽取指模型能将根据文本内容,完成内容、实体、千件、国性、关系等信息的抽取.4数学推理指理解和应用数学慨念、原理来解决涉及数学运算问题的能力,如解析表达式、图形识别、公式推导等。5因果推理指模里在文本模态中识别和计算因果关系的能力.6常识推理模型能对不会显式阐述的何SSiS行理解分析,给出正确的回答。7任务分解指模型能娜将复杂任务分解为多个步骡,并合理规划任务的执行顺序.8文本问答指模型能膨根据用户提出的向3,提供合理、准确、实用
6、的答案.9代码理解指模型能弗对绐定的编程代码,给出相应的文本解择说明.10.长文本理解指模型能够对长文本内容深入理解和分析,并提取其中信息。11.图像静态图像分类指模型能防理解图片的语义内容,并输出其对陶的类别标签.12.静态图像分制把图片分成若干个特定的、具仃独特性筋的区域并提取感兴趣目标的技术和过程。13.目标检测在图片中检测和定位特定的目标物体。14.动态图像分类给定一个动态图像.为其划分到指定的类别中.15.行为识别对视频数据进行分析,识别出视顿中包含的人或物体的动作或行为,并对其进行分类和识别.16.音频声纹识别将声信号转换成电信号,再通过计算机进行识别,包括说话人辨认和说话人确认.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024人工智能 预训练模型 第2部分:评测指标 2024 人工智能 训练 模型 部分 评测 指标