原生多模态大模型Gemini(有道翻译版)_市场营销策划_重点报告202301202_doc.docx
《原生多模态大模型Gemini(有道翻译版)_市场营销策划_重点报告202301202_doc.docx》由会员分享,可在线阅读,更多相关《原生多模态大模型Gemini(有道翻译版)_市场营销策划_重点报告202301202_doc.docx(69页珍藏版)》请在优知文库上搜索。
1、4睛便产t-J4Cv:t:.莅:,grl*httpsfanyi.ycH谷歌DeePMindGemini:一个非常有能力的多模式模式的家庭Gemini小赳,我是Googlei本报告介绍了一个着的多模式模型家族,Gemini,它在图像、音频、视项和文本理解方面表现出卓越的能力.Gemini系列包括UlIra、ProDNano尺寸,适用于从复杂推理任务到设备上内存受限用例的应用.对广泛基准涌战的评估表明,我旬最强大的GeminiUIIra模型在32个基准流试中的30个中都达到了最先进的水平一一值得注意的是,它是第一个在经过充分研完的考试基准MMLU上达到人类专家性能的模型,并且在我们测试的20个多模
2、式基准次试中都提高了最先进的水平.我11相信,Gemini模型在普模态推理和语言理解方面的新功能将支持各种各样的用根,我基于神经网络的深度学习的长期工作历史(LeCUnetal.,2015)和机器学习分布式系统(Barhamctal.2022;BradbUry等人,2018年;Deanetal.,2012),使大规模训练成为可能。我们最强大的模型GeminiUltra在我们报告的32个基准测试中的30个中取得了最先进的新结果,包括12个流行文本和推理基准测试中的10个,9个图像理解基准测试中的9个,6个视频理解基准测试中的6个,以及5个语音识别和语音翻译基准测试中的5个。GeminiUItra
3、是第一个在MMLU上实现人类专家性能的模型(hendricks等人,2021a)个通过一系列考试测试知识和推理的著名基准一一得分超过90%0除了文本,GeminiUltra在挑战多模态推理任务方面取得了显著进展。例如,在最近的MMMU基准测试(YUeetal.,2023),它包含了关于需要大学水平学科的多学科任务中的图像的问题1完整的作者列表见投稿和致谢部分。请发送信件到gemini-l-report(3googJe.m02023谷歌版权所有知识和深思熟虑的推理,GeminiUltra达到了新的最先进的得分62.4%,比之前的最佳模型高出5个百分点以上。它为视频问答和音频理解基准提供了统一的性
4、能提升。定性评估展示了令人印象深刻的跨模态推理能力,使模型能够对输入的音频、图像和文本序列进行原生的理解和推理(见图5和表13)o考虑将图1中描述的教育环境作为一个例子。一个老师画了一个滑雪者下斜坡的物理问题,一个学生解决了这个问题。利用Gemini的多模态推理能力,该模型能够理解杂乱的笔迹,正确理解问题的表述,将问题和解决方案转换为数学排版,识别学生在解决问题时出错的具体推理步骤,然后给出一个经过处理的正确解决问题的方法。这开辟了令人兴奋的教育可能性,我们相信Gemini模型的新多模态和推理能力在许多领域都有巨大的应用。提示这是一个学生对物理问题的!爸.ZIaK示,41修知W上a下,991Q
5、M%SS能量的一致性意味着滑雪者在开 始和结束时的能量是相同的 Staul: E=mgL结束:E=lmv2NGL = 2MV2v=-2gL=2x9.81r80 = 39.6m.s-l试着一步一步地推理这个问题.学生得到正确答案了吗?如果答宴是ts的,话解称错在中里并解决向建,仅便用LaTeXS行政学海鼻,弁轿佟答案四包五人到小Bt点后再位.响应这个学生没有得到正确答案.这个学生在计真斜率开始处的势能时犯了一个福 误。料理开始处的势能由mgh给出,其中m是滑雪者的质.g是由于重力引 起的想速度,h是斜坡的百度O在计B!势能对,学生使用的是坡度的长度L 而不是高度儿正BHM决方让JE:彘量守恒是指
6、潘雪杳在斜城开始和结束时的总能量是相同的,在斜坡的起点,清金者只有为IIL ISmgh6ttL在斜坡的末诸,滑击者只有动能,用ImV给出IStt, M可以写:MGH = ImV消去两边的质量m,我In得到:克二1解出V SflSH:v=V2gh代入给定值,得到:v=V2x9.81x 40=28.01 m/s因代,哥Sif在科收度尊的速度为28Qlm图1I验证一个学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。在理解图像中的文本的基础上,它需要理解问题设置并正确遵循指令来生成LATEX。大型语言模型的推理能力显示出了构建能够处理更复杂多步骤问题的多面手智能体的希望。AIpha
7、Code团队构建了AlphaCode2(Leblond等人,2023年),这是一个新的双子座驱动的代理,它将Gemini的推理能力与搜索和工具使用相结合,在解决竞争性编程问题方面表现出色。在Codeforces竞争性编程平台上,AlphaCode2在进入者中排名前15%,比前50%的最先进的前身有了很大的改进(Lietal.,2022)。与此同时,我们通过GeminiNano推进了效率的前沿,这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色,如摘要、阅读理解、文本补全任务,并相对于其规模,在推理、STEM、编码、多模态和多语言任务中表现出令人印象深刻的能力。在接下来的章节中,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 原生 多模态大 模型 Gemini 有道 翻译 市场营销 策划 重点 报告 202301202 _doc

链接地址:https://www.yzwku.com/doc/1028308.html