2024大模型训练数据白皮书.docx
《2024大模型训练数据白皮书.docx》由会员分享,可在线阅读,更多相关《2024大模型训练数据白皮书.docx(24页珍藏版)》请在优知文库上搜索。
1、目录CONTENTS训坂敕三对大理型友联的要性03科学理解高质量数家的含义与作用06023J-.-.-032.1训l大语言模型的财0322训防多候卷松堂的数玄HS空的标准07321高质量数理型的三富不调定性073.22同芟数格的评住标准并不完全一致08合成划作为解决训嫉勤:18供的不足的新方案“094.1 训母螭供给不足帝来的思学094.2 台图雌的定义1043台磁据的必要性104.4 合成蚊纪的生成方法及分类H45合蝴不在模型训练中的作用124-5.1预训练语料的新嚷卿12452提升对齐语料次取效率的DRia器134.6 解决训每到靛供给不足的新方案H054.7 在发痕中告理的合成数先165
2、.1 大MJ型对训降睢的使用特点175.2 大程型训结激笈合期的治理之智1806政府与杜金力除同的训博做据生表196.1 (196.2 中国的现状21肋】甲巴巴,警闭在大横母10ll(.与应网的染索23以更开放和辑卖的方式解决高质训炼数据供给2401训练数据对大模型发展的重要性业界认为,一法.Il力与睢,是支獐大模邕发厘的三大基石.史丰1的数据是以GpI为例的生成式人工解大班至成功的期动力.GPT模势架由从第1代到第4代均较为相似,而用来训期.敷酬故不观横相质娟很大的不S).GPT-IIg由48G耒过冷原结:以练,GPT-2是由姓人笑过淀后的40GBffiiIIIS.GPT-3是由从45T原始
3、政据中过该的S70G0R讥缘,而ChatGPT/GPTY则是在馁星砒上JlXO入了高0人版注.以又题达(AndrewNg)为代表的学者观点认为,人工愉器以SftS为由的,而不是以横型为40.”有标注的高质数据力矮放人工智能的价值,如果业界将更多精力放在班蹶上.人工智的发展会更快,.三数据在Al模型中发挥的重要作用-以CMrGQr为例YnMurtvu3arcQ*rcturMMjrT13quab11r1!.BxittutttBMaCPTMSIMnnBiCZ)02模型训练所需的数据类型政掘作为大慢型训练的基剑.就供7大发型所必需的知识和信S区别于以往授糕统、个性化推荐等所需的大用户行为和IB好数笈,
4、Je技术的演进,大理出所需隹激枇层对知识性内容百条需求,忍f斯的类部,2.1 训练大语言模型的数据大模型所需要的蚊38根麻嗯的阶段有所不均.以ChatGPT为代表的大滂音便型(1.1.M)为轨其训练过程分为项lift(Pre-training).监:锹调(SFT),厦于人类反!S的强化学习(R1.HF)三个阶段,后两部分又则为=大模型训练需要IW些数据?.MKA三WF)WWAr?VV*行双的行业型,10,11HWHlMArfta犬,ft&食xr.Wlm*OM-Wg11gglM.MrrrJt9uCf.MTMVA、Ifl、对齐(Anment)舱段.第THS预训缪所需的iSHfi!各种奏型的世界知识
5、,包话网页、书JR.Siffl.论文JB刊.对话文本.代码等形式,通过大量学习世界知五.构itt三的基批能力,理*客观世界的楣*,该阶段的语料特征可以Cl括为r.第二阶段SFT,通过标注人员设计问答,我与正确答案.格伤懒投峨给建型,并需里蝇在没有见过的任务中,-fi三,提升泛化族力.X三尬段R1.HF,训IS目标是让侬的恰值现与人类灼齐.需要人类对慢生的回答进行打分.雉序,让模嬖知通,怎么说更好.第二和第三吩段的数SE茯跳要求姣品,需要条自人类的惠展量反1,法*例征可以假恬为-JF.妁果将模型褥耙后部宕史用于特定的场H形成行业大建型(如工业.金咫、医疗等),则需亥满足该场景专业需求的特定飒知识
6、做Kl训陈和对齐,需要同各一定专业深度,妁行业Sm年.专业文档.专业网诂等.这部分的iSWft.专”.2.2 训练多模态模型的数据大国自模里迅速发牌的间时,Transform”开始迁移副班像.嬲而语3等HM8离故除城.并与大语言横型跆,形成绯JiS大模型.多模态慢里模以人类大珞处攫信息的方式.据各樽悉如慢态恬合起来.以更全面.合的方式理解和生成值息,最经实现更丰京的任务和应用.从以Midjcumey和Sora为例的多祖杰大理出看,在口购输段需要大图像-文本对、ffl-文本对黜标注睢Ii1.ia彳式1也图像-文本对是包含T长图惴11-yg述设网像内砌文本的S陶,让横si学习组成国像的像素之傅.文
7、字与国像的关球.则i文本对包括TaJ机知和一段描述根侬中发生事件的文本,让模型不仅学习单个画面,还砥理X期中的时间序列f呦&变化.2.3 训练数据的常见疑问和误解2.3.1 大慢到Il陲并不依核用户个人信息人工智能经历了从有监管学习到无监辞学习的防阶段,神坡网堵等茂术游动了数糜动的应用短式,传统的决策类人工智径在需求仰通过学习和分析海量的用户行为激露,刘断用户的偈好和需丧在供给则通过学习内容的特征,借助燧机排序等机制实现需求和内容的四K.并根富用户的行为反切遂行优化,a三ll法的浅稀1.以个性化搜索为例,以大的用户使用记录、用户面算内容画像等原始散照为星碑,提媪客群和内自标签等不同维电的假g.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 模型 训练 数据 白皮书