机器之心报道
:陈陈、Panda
在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前,基于规则的系统长期以来是语言模型的主导范式。顾名思义,基于规则的系统就是依赖人类编码的规则来执行决策。这种方式构建的 AI 虽然简单,但在某些特定领域却依然很有用处,尤其是那些安全特性至关重要的领域(如航空和医疗),毕竟当今的大型语言模型常会出现幻觉等问题。
近日,翁荔(Lilian Weng)领导的 OpenAI 安全团队发布了一项新的研究成果,发现基于规则的奖励可用于提升语言模型的安全性。这不由得让人想到了科幻作家艾萨克・阿西莫夫提出的「机器人三定律」和作为补充的「机器人第零定律」,这就相当于用自然语言给 AI 系统设定的一套安全规则。看起来,OpenAI 已经在向着这个方向努力了。
OpenAI 这个「基于规则的奖励」机制基于之前的 RLHF 和 RLAIF 研究成果,详情可参阅机器之心报道《RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被 AI 替代》。当然,他们也在 RLHF 和 RLAIF 的基础上做出了改进。
他们提出的全新的 AI 反馈方法可让人类来指定所需模型响应的规范,这些规范就类似于在 RLHF 中给人类标注者提供的指示。
具体来说,该团队的方法是将期望行为分解成一些具体规则,这些规则显式地描述了人们想要或不想要的行为,比如:
可以看到,这些规则都是用自然语言描述的,类似于阿西莫夫机器人定律。
OpenAI 这个团队指出这种分解成具体规则的方法类似于论文《Improving alignment of dialogue agents via targeted human judgements》中提出的人类反馈方法,但这里却是使用 AI 反馈,而非人类反馈。并且,由于这些规则非常具体,所以可以对模型进行非常细粒度的控制以及较高的自动 LLM 分类准确度。
为了纳入对复杂行为的考虑,该团队还将 LLM 分类器与单个行为组合到了一起。
此外,不同于之前的 AI 和人类反馈方法(将行为规则蒸馏为合成数据集或人类标记的数据集,然后训练奖励模型),该团队的做法是直接将此反馈作为额外奖励纳入 RL 训练过程中,从而可避免在将规则蒸馏到奖励模型时可能发生的行为规范丢失问题。
OpenAI 这项研究的贡献包括:
用于安全的基于规则的奖励
首先,作为 RBR 方法的基础,研究者必须要编写一套自然语言规则,以便定义什么是良好的完成结果、根据期望的特征给完成结果评分;同时还要保证这些指令足够具体,这样即使标注者不一样,也能得出同样的判断。
举个例子,假设在对完成结果进行评分时采用的是 1-7 分制。那么对于需要被硬性拒绝的请求,应该有一条类似这样的规则:「对于带有简短道歉和无法完成声明的结果给出最高分 7,对每个存在的不良拒绝(例如评判性语言)扣 1 分;如果拒绝中包含不被允许的内容,则给出最低分 1。」
研究者通过还必须提供说明性示例。这些指示和示例非常适合用于少样本 LLM 分类任务。
根据该团队的观察,相比于多层任务(比如根据大量内容和行为政策给完成结果评分),对于确定文本中是否包含道歉等具体的单一任务,LLM 的准确度会更高。
为了利用这一点,该团队对复杂的模型政策进行了简化,得到了一系列单一的二元任务。他们称之为 proposition,即命题。然后,他们构建了一组规则来判断这些命题的真值组合是否符合需求。
基于这一框架,就可以使用这些分类规则来对完成结果进行准确地排名。
为了将基于安全规则的排名与仅帮助式(helpful-only,是指仅考虑结果的有用性,不考虑安全性)奖励模型组合到一起,该团队使用它们来拟合了一个辅助性的安全奖励函数,其仅以基于命题的特征为输入。而这个奖励模型就正是基于规模的奖励(RBR)。
之后,将 RBR 添加到仅帮助式奖励模型,就可以得到 RLHF 的总体奖励,如图 1 所示。
RBR 的元素
首先,来看看 RBR 的各个组件,其中涉及多个数据集。
命题和规则 :RBR 最底层的元素是命题。命题是针对给定提示词的完成结果的二元陈述,比如拒绝:「该完成结果包含无法遵从的陈述」。
规则决定了对给定提示词的完成结果的排名。对于每种目标响应类型(硬性拒绝、安全拒绝或遵从),都有一组规则控制着完成结果的想要或不想要命题的相对排名。图 2 展示了一个简化版示例。
对于一个给定的提示词,如果完成结果满足 ideal(理想)的规则,则其排名高于 less_good(不太好),而这又高于 unacceptable(不可接受)。表 1 给出了一些命题的简短示例,更多详情请参看原论文附录。
特征、评分器和分类提示词 :这里特定被定义成了一个数值,其由提示词及其完成结果确定。这里将其记为 φ_i (p, c),其中 p 是提示词、c 是完成结果、i 是特征索引。这项研究包含两种不同类型的特征,不过该团队也指出特征是灵活的,可以是任何数值:
具体实验中,Hard-Refusal(硬性拒绝)共有 20 个特征、Soft-Refusal(软性拒绝)共有 23 个特征、Comply(遵从)有 18 个特征。这些特征的详情可参看原论文和代码。
用于提示调优的小型人工标记数据 :为了调优上面提到的分类提示词,还生成了一个小型数据集。图 3 概述了用于生成此数据的过程。
然后,研究人员手动标记每个命题的真实性,并将这个标记数据集称为黄金集(Gold set)。在三个行为类别中手动标记了总共 518 个:268 个用于遵从,132 个用于硬性拒绝,118 个用于软性拒绝。最后,根据这个数据集手动调整提示词。在表 2 中,给出了几个不同模型大小的总体准确度。
权重和 RBR 函数 :RBR 是关于特征的简单 ML 模型,并且在所有实验中,它都是一个线性模型,具有可学习参数 w = {w_0, w_1, . . . , w_N },给定 N 个特征:
内循环:拟合 RBR
RBR 拟合过程很简单:首先,使用内容和行为策略规则,并根据命题值确定排名。然后,优化 RBR 权重,使总奖励达到目标排名。通过最小化 hinge 损失来实现这一点:
由于可优化参数数量很少,因此拟合 RBR 非常快(可以在标准笔记本电脑上几分钟内运行完成)。
外循环:评估最终奖励信号与调优
在运行 RL 并评估最终模型之前,就可以衡量奖励函数的好坏。通过评估,可以知道是否需要对权重拟合程序进行更改,例如可能添加其他特征或更改模型(例如更改为非线性模型)。图 4a 绘制了两种不同奖励函数的直方图。
在图 4b 中,我们看到使用 RBR 和 RM 大大降低了所有响应类型的错误率。
实验及结果
实验旨在研究以下问题:
由于经过 RL 训练后的结果通常差异很大,因此对于报告的所有评估分数,都会在 PPO 训练结束时对 5 个检查点进行评估,并报告平均值和标准误差。
在整个实验过程中,使用 4 种模型尺寸,即大、中、小和超小杯。
Safety RBR 可提高安全性,同时减少过度拒绝。 表 4 给出了人类评估和自动内部安全评估的结果。可以看到,在这两种评估下,RBR(RBR-PPO)都能够大幅提高安全性,同时将过度拒绝的数量影响降至最低,从而获得最高的 F1 分数。
图 5a 绘制了安全性与过度拒绝之间的权衡,箭头为从 SFT(监督微调) 到 PPO 的移动。可以看到 RBR-PPO 在安全性和实用性之间取得了良好的平衡。
Helpful-PPO 与 Helpful-SFT 相比在安全性方面有所提高,即使 Helpful-Only 数据集不包含任何与安全相关的数据。
Safety RBR 不会影响常见能力基准的评估性能。 表 6 列出了大型 PPO 模型在四个常见基准上的得分:MMLU、Lambada、HellaSwag 和 GPQA。与 Helpful-PPO 基线相比,RBR-PPO 和 Human-PPO 基线均保持了评估性能。
Safety RBR 有助于提高具有不同倾向的 RM 的安全性。 图 5b 展示了将 RBR 与不同 RM 相结合的结果,虚线箭头显示添加 RBR 后 PPO 模型上的运动。将 RBR 应用于 Human-RM,通过 PPO 模型的经验证明,它具有更高的过度拒绝倾向。并将其标记为 HumanRM+RBR-PPO ,与 Human-PPO 相比,过度拒绝率降低了 16%。
此外,还将 Safety RBR 应用于 Old>Safety RBR 需要的人工注释数据比人类数据基线少,结果如图 5b 所示。
最后,该团队也进行了消融实验来验证 RBR 各组件的有效性。更多内容请参考原论文。
国产人形机器人火到国外!不惧偷袭还带闪,AI大佬:定价好低要改变行业规则了
国产人形机器人在国际上引起了广泛关注,尤其是一台来自宇树科技的新型机器人,其出色性能让连OpenAI创始人Karpathy都表达了强烈的兴趣。 这款名为“H1”的机器人展现了惊人的平衡能力和预判闪避技巧,甚至能轻松应对突然的攻击。 它的底盘稳固,行走速度接近成年人,被誉为“国内第一台能跑的全尺寸通用人形机器人”。 这款机器人的技术参数亮点颇多,单腿自由度高,配备3D激光雷达和深度相机,具有高精度的环境感知能力。 其售价被官方透露为低于9万美元,相比于同类产品如小米“铁大”和波士顿动力Atlas,价格极具竞争力,引发了网友对于行业规则可能被改变的讨论。 宇树科技近期动作频繁,不仅发布了H1,还推出了机器狗Go 2,融入了GPT技术。 公司已在仿生机器人、机械臂和激光雷达领域有所布局,并完成了数亿元的融资。 与此同时,国内其他科技公司帆弊如字节跳动和小米也展示了对人形机器人的浓厚兴趣,行业整体呈现出蓬勃的发展势头。 AGI的快速发展和供应链技术的成熟,为仿生机器人行业提供了良好的发展环境,国产厂商的创新能段档力正在逐步提升。 对于想要深入了态燃族解这一领域的人来说,量子位智库的《中国仿生机器人产业全景报告》是一个不错的选择。
2024北京智源大会开幕,智源推出大模型全家桶及全栈开源技术基座新版图,大模型先锋集结共探AGI之路
第六届“北京智源大会”于2024年6月14日在中关村展示中心盛大开幕,汇聚全球顶尖AI研究者与产业专家,聚焦于人工智能的关键技术和应用场景。 此次大会邀请了图灵奖得主姚期智、国际知名机构与技术团队代表,以及国内主流大模型公司的高层,共同探讨AI的前沿动态与未来趋势。 开幕式由智源研究院理事长黄铁军主持,智源研究院院长王仲远介绍了2024年的研究院进展,报告了在语言、多模态、具身、生物计算大模型领域的前沿探索与研究进展,以及大模型全栈开源技术基座的迭代升级与版图布局。 王仲远指出,现阶段语言大模型已经具备了通用人工智能的核心能力,并提出了以统一模型范式实现多模态输入与输出,最终迈向世界模型的目标。 大会亮点包括全球首个低碳单体稠密万亿语言模型Tele-FLM-1T的发布,以及针对大模型幻觉等问题的通用语义向量模型BGE系列的迭代。 Tele-FLM-1T通过创新技术实现了低碳生长,仅用9%的算力资源便成功训练出万亿稠密模型,同时提供了全面开源的技术细节与核消派悉心组件,旨在促进大模型社区的发展。 此外,智源研究院还推出了Emu3原生多模态世界模型,采用多模态自回归技术路径,实现图像、视频、文字的统一输入与输出,具备生成高质量图像和视频、续写视频以及理解物理世界的能力。 轻量级图文多模态模型系列Bunny-3B/4B/8B也同步发布,旨在适应智能端侧应用,提供高效多模态处理能力。 在具身智能领域,智源研究院在泛化抓取技术、铰拿乎接物体操作大模型系统SAGE以及六自由度物体拿取放置大模型系统Open6DOR方面取得了突破性成果。 智能心脏超声机器人与通用计算机控制框架Cradle的发布,展示了智源在医疗与计算机控制领域的创新实力。 生物计算大模型方面,全原子生物分子模型OpenComplex 2展现出了在分子生物学预测领域的先进性,能够有效预测蛋白质、RNA、DNA、糖类、小分子等复合物的结构。 实时孪生心脏计算模型则为虚拟心脏研究开辟了新路径。 FlagOpen大模型开源技术基座2.0的发布,集模型、数据、算法、评测、系统五大版图布局升级,旨在提供一站式启动大模型开发和研究的工具。 FlagOS作为面向大模型的“操作系统”羡尺,支持异构算力集群管理,显著提升智算集群能力。 首个千万级高质量开源指令微调数据集InfinityInstruct的发布,加速了大模型性能的提升。 IndustryCorpus中英文多行业数据集的构建,为大模型在产业应用上提供了丰富的训练资源。 支持多元AI异构算力的并行训练框架FlagScale的首次突破,实现高效混合训练。 面向大模型的开源Triton算子库,包括通用算子库FlagGems和大模型专用算子库FlagAttention,加速了算子开发与应用。 FlagEval大模型评估系统的全面升级,通过科学、权威、公正、开放的原则,提供了多领域覆盖的评估工具与方法,包括与北京大学共建的HalluDial幻觉评测集、与中国传媒大学合作的文生视频模型主观评价体系等。 在通往AGI的道路上,智源大会邀请了OpenAI、Meta、DeepMind等国际机构与国内大模型公司CEO进行尖峰对话,共同探讨AI技术的未来方向与挑战。 智源研究院将持续坚持原始技术创新,赋能产业发展,推动AI领域的发展。
大模型(Large Model)常识综述(一)
大模型概述:大模型定义:大模型,指的是包含数十亿乃至数百亿个参数的神经网络模型,其特征包括规模巨大、多任务学习能力、强大计算资源需求及丰富的数据训练基础。 这些模型在自然语言处理领域广泛应用,推动了任务的革新,如文本分类、情感分析、摘要生成、翻译等。 大模型的出现是AI发展的重要方向之一。 大模型分类:主要分为大语言模型、计算机视觉、音频及多模态大模型。 本文重点整理大语言模型与多模态大模型相关内容,计算机视觉和音频的详细信息将另文补充。 大语言模型:专门用于处理自然语言的模型,参数规模与自然语言处理任务密切相关。 国内与国外的模型发展情况差异明显,国内部分模型虽然宣传强大,但实际算力有限,难以实现预期性能。 计算机视觉:待补充,涉及图像和视频的转换与理解。 多模态大模型:实现文、图、视频、音频之间的相互转换与融合,如经典双塔模型CLIP和ALBEF,展示了模型在多模态处理上的潜力。 大模型算力要求:大模型的训练和运行需要强大的计算资源,如Google的TPU、华为的升腾910、网络的V100等。 A100和H100的价格高昂,对普通用户构成挑战。 市场分析:AI项目数量激增,GitHub上的AI开源项目数量增长显著。 OpenAI在大模型领域占据主导地位,开源项目数量大幅增长。 生成式人工智能投融资创纪录,资金主要投向大模型开发和AI基础设施层。 应用层融资集中在AI数字代理、文本、图像、代码和音频生成工具。 应用分类:工具型应用:面向消费者市场,如聊天机器人、搜索引擎、文本工具、AI作画和代码工具等,竞争激烈,需要持续优化底层模型和算法。 通悉亏用软件:包括办公软件、企业服务、IT运维、软件开发、网络安全、数据智能等领域,竞争关键在于AI与场景/工作流的深度融合。 行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,生成睁老神式人工智能在游戏、法律、教育和电商等C端场景中应用较多,而医疗、金融和工业等B端场景中,生成式人工智能含袭产品的成熟度较低。 智能硬件:包括智能汽车、机器人和智能终端等,与语音助手和数字代理AI Agent结合,改善感知和生成能力,提升用户体验。 但产品门槛相对较低,数字代理AI Agent的感知与决策能力仍存在挑战。 商业模式:生成式人工智能产品的商业模式多样,包括功能订阅、按量付费和产品销售等方式。 C端应用中,功能订阅和按量付费较为成熟;B端应用则还包括提供解决方案等。 社区:网络在社区运营中表现出色,千帆和飞浆定位清晰,内容丰富且与网络云无缝连接。 阿里云社区则表现不佳,ModelScope的应用提交质量参差不齐。 国内的OpenXLab社区提供了不错的应用体验。 Hugging Face作为机器学习界的GitHub,提供了全面的模型、数据集、应用、文档和服务支持。