大模型应用专题报告:多模态大模型催生产业应用革新.docx
《大模型应用专题报告:多模态大模型催生产业应用革新.docx》由会员分享,可在线阅读,更多相关《大模型应用专题报告:多模态大模型催生产业应用革新.docx(14页珍藏版)》请在优知文库上搜索。
1、大模型应用专题报告:多模态大模型催生产业应用革新GPT-4V迈向多模态,打通图像与文本的语义空间多模态技术的一小步将带来产业应用落地的一大步ChatGPT带来大模型能力的变革式提升,GPT-4V推动大模型加速跨入多模态。ChatGPT使用了InstructGPT(GPT-3.5)架构,在GPT-3基础上基于人工反馈训练奖励模型,再使用奖励模型训练学习模型,使得其具备准确理解人类意图和自然语言语义挖掘能力。ChatGPT相较于GPT-3,在文本生成等方面展现出了非常强大的能力,与人类对话的智能感大幅提升,可以完成许多相对复杂的语言任务,包括文本生成、自动问答、多轮对话等。此外,它还能编写和调试计
2、算机程序。在海量数据和超大规模参数量的支撑下,大模型的涌现与思维链等能力开始出现。GPT-4则在各项能力上有了质的突破,根据OPenAl官网,GPT-4的最大token数达到32768个,在创作能力方面可以能够编写歌曲、剧本并学习用户写作风格,同时在GREsSAT等考试中也获得了更加优异的测试成绩。而2023年9月25日发布的GPT-4V则是从语言模型迈向能力更加全面且强大的多模态模型。GPT-4V的最大变化为能够接受图像及语音的输入,并且在图像及语音的识别与理解方面表现出色。IJ与大语言模型对比:多模态大模型增加了输入信息模态,大幅扩展大模型的应用范围。模态指表达或感知事物的方式,每一种信息
3、的来源或形式都可以称为一种模态。视觉模态是直接从现实世界获取的初级模态,数据源丰富且成本低廉,相比语言模态更直观易于理解。此外,当前英文文本在互联网和自然科学论文索引中的数量具有优势,这也导致多数大模型数据训练集以英文语料为主。多模态模型旨在模拟人类大脑处理信息的方式,通过预训练+调参,大幅提升信息输入规模和信息流密度,有效打破语言模态的限制。多模态模型能力的提升还体现在提高信息交互效率,降低应用门槛。大语言模型需要通过输入文本prompt来激发模型的文本回应,然而,编写精准的prompt往往需要一定的技巧和思考。纯文本的交互方式有时会受到文本表达能力的限制,使得复杂的概念或需求难以传达。相较
4、之下,多模态模型的图像交互方式门槛更低,更为直观。用户可以直接提供图像或视觉信息,从而提升信息交互的效率。与传统机器视觉模型对比:多模态大模型泛化能力更强,对知识、逻辑理解更具深度。传统机器视觉模型只能处理图像数据,无法处理文本信息,也不具备逻辑推理能力。由于这些模型仅对图像数据进行表征编码,通过提取视觉特征如颜色、纹理和形状等来识别图像,没有涉及语言模态。这是由于多数视觉模型是针对特定任务设计的,因此在处理不同任务或数据集时,其可迁移性受到限制。而多模态大模型通过联合训练各种感知模态如图像、文本和声音等,能够学习到更通用和抽象的特征表示。这种预训练使得多模态模型在各种应用中都具备强大的基础性
5、能,因此具有更高的泛化能力,进而赋予了更强的可迁移性和更广泛的应用范围。多模态的扩展不一定是技术主线的重大突破,但对产业应用落地的影响可能十分巨大。从技术视角看,回顾AI的发展历程可以大致分为四个阶段,分别为基于规则的系统、经典机器学习技术、深度学习、使用RF或其他技术的下一阶段深度学习。整体来看在发展进程中,越来越多的训练环节被替换为可学习模块,可学习模块越多的模型能适应的任务越抽象,这也赋予模型逐步从单一模态向多模态发展的能力。OPenAl科学家HyungWonChung认为损失函数逐步变成系统中的可学习部分将会是未来的下一个范式,对抗生成网络(GAN)和人类反馈强化学习(RLHF)都是这
6、一范式下的成功案例,这让AI系统可以学习去做那些正确行为难以形式化的任务。在未来发展趋势中,范式转变可能在可学习的损失函数,带来下一阶梯式技术跨步。从产业视角看,大模型输入模态从文本向语音和图像等模态的扩充,将进一步提升产业应用的适应性,更多语音、视觉信息占比较高的场景将接入多模态大模型,并带来产业应用效率的提升,例如日常生活中视觉模态的信息占比约为70%o图1:Al技术的进步伴随着可学习模块逐渐增多RuIe-IMisedsystemsIBM DeepBIueLearna ble part ofthe systemClassical machine learninggTH嚷:丁Mapping
7、from features- OuIPUt aHand- designedloss functionDwp learning; (self)supervsed learningInpm j aLearned featuresMapping fromfeatures Output HHand designedloss functionGT3ET温:黑”卜0UaDeeplearningotherRLformulationsinputLearned featuresMapping fromfeaturesOutpul B?视觉模态:GPT-4V打通图像模态与文本模态的语义空间,凸显图片逻辑与语义理解
8、GPT-4V具备丰富的模态输入模式,并在多个应用领域中展现出了超群的能力。根据官方文档介绍,GPT-4V的输入方式共有5种分别为输入图像images)、子图像(sub-images)、文本(texts)、场景文本(scenetexts)和视觉指针(visualpointers)。GPT-4V同时支持三种能力,分别为指令遵循(instructionfollowing)、思维链(chain-of-thoughts)和上下文少样本学习(in-contextfew-shotlearning)。GPT-4V应用领域中包含开放世界视觉理解(open-worldvisualunderstanding)、视觉
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模型 应用 专题报告 多模态大 催生 产业 革新
