AI大模型价值对齐:是什么为什么怎么做?.docx
《AI大模型价值对齐:是什么为什么怎么做?.docx》由会员分享,可在线阅读,更多相关《AI大模型价值对齐:是什么为什么怎么做?.docx(7页珍藏版)》请在优知文库上搜索。
1、Al价值对齐:是什么人工智能进入大模型时代后,各种“类人”和“超人能力持续涌现,其自主性、通用性和易用性快速提升,成为经济社会发展的新型技术底座。有机构预测,大模型将深入各行各业,每年为全球经济增加2.6万亿到4.4万亿美元的价值。然而,随着大模型,乂称为基础模型)开始像人类一样从事广泛的语言理解和内容生成任务,人们需要直面一个最根本的、颇具科学挑战的问题:如何让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人类与人工智能协作过程中的安全与信任。这个问题被称为价值对齐valuealignment,Alalignment:o价值对齐是Al安全的一个核心议题。在一定程度上,模型的大
2、小和模型的风险、危害成正相关,模型越大,风险越高,对价值对齐的需求也就越强烈。就当前而言,大模型的核心能力来源于预训练阶段,而且大模型在很大程度上基于整个互联网的公开信息进行训练,这既决定了它的能力,也决定了其局限性,互联网内容存在的问题都可能映射在模型当中。一个没有价值对齐的大语言模型(LLM),可能输出含有种族或性别歧视的内容,帮助网络黑客生成用于进行网络攻击、电信诈骗的代码或其他内容,尝试说服或帮助有自杀念头的用户结束自己的生命,以及生产诸如此类的有害内容。因此,为了让大模型更加安全、可靠、实用,就需要尽可能地防止模型的有害输出或滥用行为。这是当前Al价值对齐的一项核心任务。AI价值对齐
3、:为什么对大模型进行价值对齐,可以更好地应对大模型目前存在的一些突出问题。根据各界对于大模型突出问题的梳理,主要有如下四项:一是错误信息问题。业内称为人工智能的幻觉。OPenAl首席技术官MiraMUrati认为,ChatGPT和底层的大型语言模型的最大挑战是它们会输出错误的或者不存在的事实。这可能源于训练数据中的错误或虚假信息,也可能是过度创造的副产物(女盅构*让大模型在创造性和真实性之间踩好跷跷板,这是一个技术难题。二是算法歧视问题。很多既有研究表明,大语言模型会从训练数据中复制有害的社会偏见和刻板印象。OPenAl首席执行官SamAItman认为,不可能有哪个模型在所有的领域都是无偏见的
4、。因此,核心问题是如何检测、减少、消除模型的潜在歧视。三是能力“涌现的失控风险问题。随着算力和数据的持续增加,大模型预期将变得越来越强大,可能涌现出更多新的能力,其涌现出来的能力甚至可能超过其创造者的理解和控制,这意味着新的风险可能相伴而来,包括涌现出有风险的行为或目标。目前技术专家的一个普遍担忧是,现在的Al大模型,以及将来可能出现的通用人工智能AGI)和超级智能ASD等更强大先进的Al系统,可能形成不符合人类利益和价值的子目标(sub-goals),如为了实现其既定目标而涌现出追逐权力(power-seeking),欺骗、不服从等行为。例如,研究人员发现,GPT-4展现出了策略性欺骗人类的
5、能力,可以“欺骗人类去执行任务以实现其隐藏目标。四是滥用问题。恶意分子可以通过对抗性输入、越狱(jailbreaking)操作等方式,让大模型帮助自己实现不法目的。因此,价值对齐作为一个需要从技术上找到应对之策的实践性问题,已经成为Al大模型设计开发和部署过程中的一项基本原则,即:通过价值对齐的工具开发和工程化建设,努力确保Al以对人类和社会有益的方式行事,而不会对人类的价值和权利造成伤害或干扰。Al价值对齐:怎么做为了实现价值对齐,研发人员需要在模型层面让人工智能理解、遵从人类的价值、偏好和伦理原则,尽可能地防止模型的有害输出以及滥用行为,从而打造出兼具实用性与安全性的Al大模型。首先,人类
6、反馈的强化学习(RLHF)被证明是一个有效的方法,通过小量的人类反馈数据就可能实现比较好的效果。2017年,OPenAl研究人员发表依托人类偏好的深度强化学习一文,提出将人类反馈引入强化学习。RLHF包括初始模型训练、收集人类反馈、强化学习、迭代过程等几个步骤,其核心思路是要求人类训练员对模型输出内容的适当性进行评估,并基于收集的人类反馈为强化学习构建奖励信号,以实现对模型性能的改进优化。从实践来看,RLHF在改进模型性能、提高模型的适应性、减少模型的偏见、增强模型的安全性等方面具有显著优势,包括减少模型在未来生产有害内容的可能性。SleplCollect demonstration data
7、 and train a supervised policySep2Collect comparison data and train a reward modelSt3Optimize a policy against the reward model using the PPO reinforcement learning algorithm.A prompt is sampled from our prompt dataset.Alabeler demonstrates the desired CMJtput behavior.Thisdatarsusedto fine-tune GPT
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI 模型 价值 对齐 是什么 为什么 怎么
