2024年斯坦福AgentAI论文.docx

资源ID：1128866 资源大小：1.37MB 全文页数：82页
资源格式： DOCX 下载积分：9金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要9金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2024年斯坦福AgentAI论文.docx

人工智能代理：调查多模式交互的前景TheEmergingAgentAlParadigmforMulti-modalandCross-RealityAGIPhysical WorldVirtual WorldAgent ParadigmEmbodimentProductCamerasAmbient IntelligenceService Robots Virtual RealityMid Reality Virtual AvatarAugmered Reality GUI AppMuhi*moda sensors Social networksGencralistAgentsAssistantAutonomous VehicleGamingAutonomousVehiclesManufacturingEmbodied SystemAl CopilotsAl for HealthInfra- StrUetUre Microphones IOTMuItbGPUVideolAudio SimulatorsPlanning capabilitiesPrirtiveaction ystemActuatorsSecurityCloud ServersWeb>searcKnowledgeReasoning systemhoboticsdontrollerHumanInteractionMechanical armGenerative AlMemoryrainComipiltcr Interface) Objects / EnvironmentOser/Agent Input2D lmaSpeechPhysicsEnvironmentControllerPhysical ExperimentsPhilosophy of mindTextBig dataI ObservationsInferenceTrainingAgent ActionPerception Task-SpecificInfoSmartsensorsData CompressionMLTheoryInformaticsTask-Planning and Skill-ObservationPerceptionReasoningIntuitionConsciousness Intelligence!Cognitkmc ScienceTactileensorsControl TheoryMechanicsOptimizationSystem EfficiencyActionCognition(Thinking, Consciousness,Sensing, Empathy, andoverall Cognitive System)/ Agent、 I Interactive J I Closed-loop/ XiJ.Learning(PretrainZero-shot, few-shotfrom LLM and VLM, etc.)Memory(Knowledge, Logic, Reasoning, and Inference)图1:可以在不同领域租期幅序中够由采取行动的智铜W系统概述一大壬智能伸蚯在成为通用天王智能（AGI序f有前途的途径。i智能代理Uii练警展示了对物理世界的多模式理解的能力。它叫怀IJm生成式人工智能以及多个独立数据源为导赎无随培训提供了一个框架当针对跨现翔据进行练时针对代理手呦作相关任务说刊练的大型基础模型可以应用于物理和虚拟世界。物摘绍了智能体人工智能系统的总体概述该螭可以在许多不同的领域和应用程序中感知和行动可能作为使用智能僦隧现AGl的途径抽象的多模式人工智能系统可能会在我们的日常生活中无处不在。一个有前途的使这些系统更具交互性的方法是将它C麻现为物理中的代理和虚拟环境.目前系统利颠有的幽的甦作为基5出用于创建具体代理的构建块。在此类环境中嵌入代理促进模型处理和解释视觉和上下文数据的能力,这一点至关重要用于创建更复杂和上下文感知的人工智能系统。矽如一个系统可以感知用户动作、厩行为、环境物体、敲隔番喋体场景的情绪可用于通知和指导代理在给定环境中的响应。为了力睡基于代理的多模态智能的研究我的uAgentAIw定义为T交互系统可以感知视觉激、语言输入和其他基于环境的数据并可以产生有意义的具体行动。悔屉我门探索系统旨在通过结合外部来改进基于下一个具体动作预测的智能体知识'多感官输入和人类反馈。我们认为通过开发代理人工智能接地环境中的系统,还可以减轻大型基础的幻觉模型及其产生环境不正确输出的倾向。代理新兴领域人工智能包含了多模式交互的更广泛的体现和代理方面。超越代理商在物理世界中行动和互动,我彳门设想未来人门可以轻松地创腌任何虚拟现实或模拟场景并与虚拟环境中体现的代理进行交互。AgentAI分类通才代理领域5.2。20实体代理。GOO。OooOOOOQaOaoo201.1.1 "T1t9oo*oevooo*20理°21.1.2 弋*veooooo*evovoo理。一°25.3 模拟和环境代.0°.0。°01理。°°°°°°°°°°°°°o°o°°°°°ooo°°°°°°25.4 生成代理。.。.1。°。°0°。°25.4.1 AR/VR/2混合现实代理.0°<,°0°.°(I(I(I°0°.°°<,°0°.°°°<l°2、知识和逻辑推理主2体。°OO.OOO.O.0.0.0.0。23“逻辑代理。情感推理代2理°234神经象征齐Il°。23独蚪M和VLMN46苦能代理应用任务6.1游戏代理245.4.2 NPC行为245.4.3 人与NPC交互255.4.4 基于代理的.25博弈分析。25.4.5 游戏场景合.7成.i三三三2°°°°°°°°281.LM/VLM机器人代30理3实验和结果31.医疗保健35.当前的医疗保健能力36.多模式代理。.图像语言理。36解和生成。ooooooooooooo.«视频和语言36理解和生成.实验和结果376.5视频语言实验。39OOOOOOO41.NLP代理N一般LLM代理.法学硕士.遵循指令的LLM代理代理。实验与结果4545°.°.0°°<>°°°°°45。46467跨模态'领域和现实的智彘体7.1跨模态理解的智能体48“跨域理解代理48,跨模态和跨现实的交互代理49.模拟到真实的传输OOooo*oooooooooo*oo*oooooo8AgentAI的持续自我完善&1人机交互数据49。498.2基桃模型生成的数据509代理数据集和排行榜9.1用于多代理游戏的uCuisineWorIdw数据集。50509.1.1基准9.1.2任务9.1.3指标和判断。51519.1.4评价519.2音频-视频-语言预训练数据51集,10更广泛的影响声明52道德考虑S3领印本12多元彳W明53参考55附录69GPT-4V代理提示详切佶息69BGPT-4V尖端技术69CGPT-4V用于微软战斗模以筹69DGPT-4V适用于刺客信条奥德赛69域用于（战争机器4EGPT-4V69FGPT-4V任用于星空751简介1.1 动机从历史上看人工智能系统在1956年达特茅斯会议上被定义为人工生命形式，可以从环境中收集信息并以有用的方式与之交互。个定义的！发,明斯基的麻省理工学院J'组于1970年构建了一个名为“复制演示"的机器人系统该系缴嚓"块世界"场景并成功重建了观翎的多面隔相构。该系融膘、规划W限懈成表明每个子间瞬湘具挑战性蠲注一步研究。人工智能领域分为专门的子领域这些子领或在解决这些问题和其他问题方面基本上独立地取得了巨大进展M强度还原论哪了人工智能研究的总体目标，为了超越现状有必要回归亚里士多德整体论驱动的人工智能基础。幸运的是,最近大型语言模型（LLM前视觉语言模型（VLM的革命使得创建符合整体理想的新型人工智能代理成为可能。抓住这个机会本文探讨了整合语言能力、视觉认知、情境记忆'直犍野嗨应性的魁。它探讨了使用LLM和VLM完成这种整体综合的可能性。在我们掰稼中我（i比重斯审视了基于亚里士多德最终胭的系统设计即目的论"系统为何存在n几轮人工智能发展中可捱被忽视随着强大的预训练法学硕士和VLM的出现自然语言处理和计算机视觉领域的更兴解!1了促进法学硕士现在展现出令人印象深刻破译现实世界语言数据细微差别横力通常能物挺I归人类专业知iR相当甚至随雌力（OpenAI-2023）最近研究人员表明法学硕士可以扩展到在各种环境中充当代理与特定领域的知识和模块配合使用时执行复都臊作和任务（Xi等人2023）这些场景的特点是杂的推理'对智能体角色及小腐漉解以及多步骤规划测试智能体在其环微雅（1内做出高度细致和复杂的决策的能力（Wuetal.,2023;MetaFundamentalA三究（FAIR外交团队等,2022）在这些初步努力的基础上人工智能社区正处于重大范式转变的风A浪从为被动、结构fbff务仓腱人工智能模型过海蛇够在多样化和复杂的环境中承担动态、代理角色的!磔在It情景下,本文财了使用LLM和VLM作为代理的巨大潜力强国7融合了语言能力、视觉认口、情境记忆、直碘野腌应曲外睡mLLM和VLM作为代理,尤其是在游戏、机器人和园7保健等领域不仅可以为最先进的人工智能系僦供严格的评估6台,而且还预示着以代理为中心的人工智能将产生的变革性影响社会和行亚。当充邠岬时田野镂可以重新定义人类体验并提靛营标准。这些模型带来的全面自动（冰J潜力预示着行业和社会经济动态的巨大转变。这些进步将与多方面的排行榜型R在一起不仅是技术方面的而且是道德方面的IB瞰们将在第11节中详细阐述的那样。我们深入研究智能体这些子领域的重叠领域并在图1中说明它们的相互关联性。1.2 12我们现在将介绍支持智能体的概念、理论前景和现代实现的相关研究论文大型基础模型：LLM和VLM一直在推动通用智能机器的开发（BUbeCk等人2023;MirChandani等人2023）尽管他们是使用大型文本语料库进行训练的但他们酬问题

注意事项

本文（2024年斯坦福AgentAI论文.docx）为本站会员（王**）主动上传，优知文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知优知文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。