2023大语言模型前世今生与未来.docx
《2023大语言模型前世今生与未来.docx》由会员分享,可在线阅读,更多相关《2023大语言模型前世今生与未来.docx(19页珍藏版)》请在优知文库上搜索。
1、大语言模型前世今生与未来内容目录1大语言模型:NLP技术的奇点时刻41.1 技术探索:深度学习加速推进数据的无损压缩41.2 技术应用:预训练语言模型成为NLP主流51.3 技术跃迁:大语言模型可能打开通往AGl之路52 OPenAl与GPT:算法、工程、商业的融合62.1 GPT系列模型的发展历程:千锤百炼,终见“涌现”62.2 如何训练一个ChatGPT:预训练获得“智商”,指令微调提升“情商”72.3 模型智能的“涌现”是生成式AI浪潮的充要条件83 大模型应用:数据感知与代理(Agent)能力103.1 外部数据:三条融合垂域数据打造大模型的技术路径103.1.1 Fine-Tunin
2、g与In-ContextLearning的实现方式案例113.2 代理(Agent):为大模型加上四肢,强化复杂任务处理能力133.2.1 与计算机内部交互:插件(PIUginS)与代码解释器(COdClnterPreter)133.2.2 与物理世界交互:RoboticsTransformer2(RT-2).143.3 上下文长度:应用创新的关使靶点153.4 “大”模型“小”型化:应用落地的降本之道164 应用分析框架:通用能力与外部能力的组合175 投资建议186 风险提示19图表目录图1.人工智能底层算法的探索历程(19582017年)4图2.自然语言处理(NLP)发生的三次技术范式转
3、移5图3.本次以GPT为代表的生成式Al技术进步路线图6图4.OpenAI的GPT系列模型发展历程7图5.GPT模型训练流程8图6.当模型规模达到一定程度时将会出现“涌现”现象9图7.思维链提示可以显著提升大语言模型的性能9图8.打造垂域模型的三种基本方法10图9.Delta-Tuning是对LLM参数高效的微调范式12图10.LangChain+向量数据库打造企业专属知识库问答系统12图H大模型驱动的自主代理系统13图12.OpenAI发布首批70余款GPT-4插件14图13.执行逻辑计算的代码解释器插件示例14图14.机器人控制与思维链推理结合示例15图15.大模型驱动的自主代理系统16图
4、16.模型小型化的主要实现路径16图17.参数量化能够显著降低大模型的推理成本171大语言模型:NLP技术的奇点时刻1.1 技术探索:深度学习加速推进数据的无损压缩人类对机器智能的探索由来已久。如何让机器像人类一样思考,获得与人类相当的智能,一直是全球人工智能学者毕生追求的圣杯。自英国数学家阿兰图灵在1950年提出了“机器能思考吗”这一跨世纪的命题以来,人类就从未停止对机器智能的探索。从最简单的统计规则方法,到借鉴人类大脑生物结构的神经网络模型,再到如今拥有千亿级参数的超大规模预训练模型,深度学习因其能够实现非线性空间的有效变换,并能利用GPU等硬件实现加速计算,因而成为人工智能研究领域的核心
5、主线。无论是早期的RNN,还是其改进后的变体LSTM,亦或是本轮生成式Al浪潮的起源TranSformer,它们本质上都是用一个更有效的神经网络去实现数据的无损压缩,而数据的压缩能力或许就是机器智能的一种展现O图1.人工智能底层算法的探索历程(1958-2017年)时间事件1958年计算机科学家罗森布拉特提出了由两层神经元构成的神经网络,这种网络被称为感知机(Perceptron),是最基本的神经网络结构1982年约翰霍普菲尔德提出了一种具有记忆存储能力的Hopfield网络,开启了循环神经网络(RecurrentNeuraINetwork,RNN)的时代,也是LSTM(LongShort-T
6、ermMemory)、Transfomer模型的奠基者1986年“Al教父”杰弗里辛顿发明了适用于多层感知器的反向传播算法,它成为了日后训练深度神经网络的基础1989年杨立昆(现任FaCebook首席人工智能科学家)等人提出了卷枳神经网络(CNN,ConvolutionaINeuraINetworks),被广泛应用于计算机视觉的图像处理领域2012年AIexNet(一种卷积神经网络模型)引入了利用GPU并行运算,以压倒性的准确率夺得了当年ImageNet图像识别大赛的冠军。这一成果带来了深度神经网络的又一次复兴(其中,论文的第二作者是未来OpenAI的首席科学家IIyaSutskever)20
7、16年AIphaGo,这台由谷歌DeePMind开发的先进的人工智能棋手,出人意料地击败了强大的围棋世界冠军李世石,体现了人工智能在围棋这项历史悠久、被誉为人类智慧皇冠上的明珠的棋类运动中,取得了巨大的突破2017年谷歌机器翻译团队在发表的一篇具有里程碑意义的论文AttentionisAlIYouNeed中,精确提出了种米用Attention机制的全新模型TransformeroBert、GPT等预训练模型随之孕育而生1.2 技术应用:预训练语言模型成为NLP主流从单一小模型到预训练模型的范式转移。语言模型的本质是对任意一段文本序列进行概率建模,用一个高维向量来表示一个token的全部特征。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 语言 模型 前世 今生 未来