人工智能数据集工作介绍-20240429.docx
《人工智能数据集工作介绍-20240429.docx》由会员分享,可在线阅读,更多相关《人工智能数据集工作介绍-20240429.docx(24页珍藏版)》请在优知文库上搜索。
1、大模型时代,数据成为新一轮人工智能竞争的壁垒与制高点QMa中国信通院人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量.高质量、多样化的训练数据集,成为拉开能力差距的关键要素。数量:万级别类型:单一质V:一般数量:类型:千万级单一(9777少7/,1OIJ0/54质量:较高ImageNet(100OW)数量:类型:质量:亿级多样极高ROOTS(1.6T)59种语言(46种自然感言,13种编程语言)I浅层学习时期(-2012)深度学习时期(2012-2018)预训练模型时期(2019-)2022年起f人工智能正在由模型中心”转向数据为中心QMCT中国信通院2022年产学研提出
2、“以数据为中心的人工智能(Data-centricAI),高质量的训练数据集、完备的数据应用策略将会更好的服务于模型的开发与应用。11人工智能领域的权威学者吴恩达,发起了以数据为中心的AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。通过添加数据标记.清洗和转换数据、数据缩减、增加数据多样性.持续监测和维护数据等手段,形成优质的标准化数据集和完备的数据全生命周期管理体系。吴恩达:80%的高质量数据与20%的模型训练构成了更好的AI模型。2021年举办了首届“以数据为中心的人工智能竞赛,比赛仅允许通过改进数据来提升模型的性能。80%20%PREPACTIONSou
3、rceandpreparehighqualityingredientsCookamealSourceandpreparehighqualitydataTrainamodel80%的高质量数据与20%的模型训练构成了更好的Al模型。李飞飞团队:实现可信AI,数据的设计、完善、质量评估是关键iniclligcncc网IMTAdvances,challengesandopportunitiesincreatingdatafortrustworthyAlWeixin1.iang1,GirmawAbebeTadesse2,DanielHo,Fei-Fei1.i,MateiZaharia,CeZhang4
4、andJamesZou三三数据集贯穿于大模型全生命周期,输出高质量数据集CftICT中国信通院公开获取管理节点获取节点获数据质量管理-FPft-.1数据训练工程数据标注PrOmPt工程数据过滤数据合理分布和配、分批训练第1批:百科1+书籍1+行业l+第2批:网页2+书籍2+期刊2+行业2+.第n批:百科n+书籍n+期刊n+行业n+.标注平台PromPt期辅助撰写1任务管理高阶撰写低质过滤I有毒过滤I规则清洗模型清洗深度过滤内容分类规则过滤分类器毒性评估内容分类预训练数据集预训练SFT数据集随抽检多人可视PromPt数据集专家标注行业数据集数据清洗微调激发Rank标注微调!lS7t楫型清洗深度过
5、滤内容分类预训练大模型微调大模型通用大模型R1.HF行业大模型数据质量提升数据质量评估数据毒性评估数据数量评估数据分布评估数据内容评估优化优化优化优化我国Al数据发展仍落后美国,处于全面追赶的地位CAlCT中国信通院与美国相比,我国AI数据发展在数据集数量、数据集质量、数据发展顶层设计、Al数据产业链和生态服务四个方面仍落后于美国。中文数据集数量不足全球流量靠前的100o万个网站中,网站语言为中文的仅占1.4%,远低于英语接近60%的水平。全球最大的人工智能开源社区HUggingfaCe已发布开源数据集超过5万个,其中中文数据集仅有150多个,CC中的中文只占4%,且大部分是励卜网页。Al数据
6、集质量低现有公开数据集与大模型预训练需求不匹配,多数无法直接使用缺乏对高质量数据集的定义和规范要求数据质量评估方法和体系缺失数据治理技术发展尚不完善AI数据发展顶层设计不完善打造开放数据资源、布局公共数据集一直是美方政策布局的重点。美国家人工智能研究和发展战略计划中,提出将“开发用于人工智能训练及测试的公共数据集和环境O我国目前尚缺乏国家层面推动公共数据集建设的顶层设计,目前仅有北京、上海两地在政策文件中明确提出了要建设高质量数据集。Al数据产业链和生态服务不成熟数据毒性检测、数据偏见检测、数据优化等技术发展仍不成熟自动化数据治理、数据标注、数据合成、数据质量评估、数据纠偏等工具平台缺失统一的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 数据 工作 介绍 20240429