OpenAI发布o1大模型:强化学习引领LLM推理新纪元
OpenAI发布o1大模型:强化学习引领LLM推理新纪元
技术突破:OpenAI引领大语言模型新发展
从今天起,大模型技术的发展迎来了全新纪元。
OpenAI再一次证明了其在大语言模型领域的领先地位。
在北京时间9月13日午夜,OpenAI正式推出了一系列全新的AI大模型,旨在解决更具挑战性的问题。这一重磅发布标志着技术的重大突破,新模型能实现复杂推理,成为一个通用模型,解决比之前的科学、代码和数学模型更难的任务。
OpenAI表示,今天在ChatGPT和大模型API中发布的就是该系列中的第一款模型——o1-preview。此外,OpenAI也展示了正在开发的后续更新的评估版本。
o1模型创造了诸多历史记录。
首先,o1是OpenAI从山姆·奥特曼到科学家们一直在宣传的草莓大模型。它拥有真正的通用推理能力,并在一系列高难度基准测试中表现出色,较GPT-4o有了显著提升,使得大模型的能力从“不可想象”提升至优秀水平,甚至在博士级别的科学问答环节超越人类专家。
奥特曼指出,尽管o1的表现仍有改进空间,但用户在首次使用时将会感到震撼。
其次,o1在大模型的规模扩展与性能的关系中实现了新的突破。它重现了当年AlphaGo强化学习的成功——在增加计算能力的同时,输出更多智能,最终超越人类水平。
o1大模型首次证明了语言模型能够进行真正的强化学习。
开发出首个AI软件工程师Devin的Cognition AI表示,过去几周与OpenAI紧密合作,使用Devin评估o1的推理能力。结果显示,o1系列模型在处理代码方面是对GPT-4o的重大进步。
最后,o1上线后,ChatGPT能够在回答问题时更加深思熟虑,而非立即给出答案。就像人类大脑的系统1和系统2,ChatGPT已经从仅使用系统1(快速、自动、直观、易出错)进化到了能够使用系统2(缓慢、深思熟虑、有意识、可靠)思维,从而解决更复杂的问题。
从今天ChatGPT的用户体验来看,这是一种小幅提升。在简单的提示下,用户可能不会注意到明显差异,但当涉及复杂的数学或编码问题时,区别变得显而易见。更重要的是,未来的发展方向已经初现端倪。
总的来说,今晚OpenAI发布的这一重磅消息让整个AI社区震惊,大家纷纷表示无法入睡,开始紧急学习。接下来,让我们深入探讨OpenAI o1大模型的技术细节。
OpenAI o1的工作机制
在技术博客《Learning to Reason with LLMs》中,OpenAI详细介绍了o1系列语言模型的技术背景。
OpenAI o1是经过强化学习训练的新型语言模型,旨在执行复杂推理任务。其最大特点在于,o1在回答用户问题前,会进行深入思考——它能够生成一个详细的内部思维链。
该模型在做出反应之前,像人类一样花费更多时间思考问题。通过训练,o1学会了优化思维过程,尝试不同策略,并识别自身错误。
在OpenAI的测试中,该系列后续更新的模型在物理、化学和生物学等具有挑战性的基准任务中的表现与博士生相当。OpenAI还发现其在数学和编码方面的能力也相当出色。
在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅答对了13%的问题,而o1模型的正确率达到了83%。
模型的编码能力也在比赛中得到了验证,在Codeforces竞赛中排名为89%。
OpenAI提醒,作为早期模型,o1目前仍不具备ChatGPT的许多实用功能,例如网页浏览和文件上传等。
但对于复杂推理任务来说,这标志着人工智能能力的新高度。因此,OpenAI重置了计数器,给该系列模型命名为OpenAI o1。
关键在于,OpenAI的大规模强化学习算法教会模型如何在数据密集的训练过程中利用其思维链进行高效思考。换句话说,类似于强化学习的扩展法则。
OpenAI发现,随着更多的强化学习(训练时计算)及更多思考时间(测试时计算),o1的性能持续提升。而扩展这种方法的限制与大模型预训练的限制显著不同,OpenAI仍在深入研究中。
性能评估
为了突出o1模型在推理性能上的进步,OpenAI在一系列人类考试和机器学习基准测试中对其进行了评估。实验结果显示,在绝大多数推理任务中,o1的表现远超GPT-4o。
o1在具有挑战性的推理基准上比GPT-4o有了显著改进。
o1在多个基准测试中较GPT-4o有所提升,包括54/57 MMLU子类别,图示了7个示例。
在许多推理密集型基准测试中,o1的表现与人类专家相当。最近的一些前沿模型在MATH和GSM8K上的表现极为出色,以至于这些基准在区分模型方面不再有效。因此,OpenAI在AIME上评估了数学成绩,这是旨在测试美国最聪明高中生的考试。
在一次官方演示中,o1-preview成功解答了一个复杂的推理问题:当公主的年龄是王子的两倍时,公主的年龄与王子一样大,而公主的年龄是他们现在年龄总和的一半。王子和公主的年龄是多少?提供这个问题的所有解。
在2024年AIME考试中,GPT-4o平均只解答了12%(1.8/15)的问题,而o1在每个问题仅有一个样本的情况下,平均为74%(11.1/15),在64个样本之间达成一致的情况下为83%(12.5/15),在使用学习的评分函数对1000个样本重新排序时为93%(13.9/15)。这个分数使其跻身全美前500名,并且高于美国数学奥林匹克竞赛的分数线。
OpenAI还在GPQA Diamond基准上评估了o1,这是一个用于测试化学、物理和生物学方面专业知识的困难智力基准。为了将模型与人类进行比较,OpenAI聘请了拥有博士学位的专家来回答GPQA Diamond基准问题。
实验结果显示:o1超越了人类专家的表现,成为第一个在该基准测试中做到这一点的模型。
这些结果并不意味着o1在所有方面都比博士生更有能力——仅仅是该模型在解决某些博士生应能解决的问题时表现得更为出色。在其他多个机器学习基准测试中,o1实现了新的SOTA(状态最优)。
启用视觉感知能力后,o1在MMMU基准上得分为78.2%,成为第一个与人类专家相当的模型。o1还在54个MMLU子类别中超过了GPT-4o。
思维链(CoT)
与人类在回答复杂问题前长时间思考的方式类似,o1在尝试解决问题时也会使用思维链。通过强化学习,o1学会了优化思维链并改进使用策略。o1能够识别和纠正错误,并可以将复杂步骤分解为更简单的步骤。当当前的方法不起作用时,o1还学会了尝试不同的解决方案。这一过程大大增强了模型的推理能力。
编程能力
基于o1进行了初始化并进一步训练的编程模型(o1-ioi)显示出了强大的编程能力。该模型在2024年国际信息学奥林匹克(IOI)赛题上获得213分,达到了前49%的水平。同时,该模型在与2024 IOI的参赛者相同条件下完成比赛:在10小时内解决6个高难度算法问题,每个问题提交不超过50个答案。
对于每个问题,这个经过专门训练的o1模型会生成多个候选答案,然后根据测试时选择策略提交其中50个。选择标准包括在IOI公共测试案例、模型生成的测试案例以及一个学习得到的评分函数上的表现。
研究表明,这一策略是有效的。因为如果直接随机提交一个答案,平均得分为156。这说明在该竞赛条件下,该策略至少能提高60分的成绩。
OpenAI发现,如果放宽提交限制,模型的表现将显著提升。如果每个问题允许提交1万个答案,即使不使用上述测试时选择策略,该模型也能获得362.14分——足以获得金牌。
最后,OpenAI模拟了Codeforces主办的编程竞赛,以展示该模型的编码能力。使用的评估标准与竞赛规则十分接近,允许提交10份代码。GPT-4o的Elo评分为808,在人类竞争者中处于前11%的水平。而o1的Elo评分为1807,表现优于93%的竞争者。
在编程竞赛上进一步微调使得o1能力又增,并在2024年国际信息学奥林匹克竞赛(IOI)规则下排名前49%。
下面的官方示例直观地展示了o1-preview的编程能力:一段提示词便让其写出完整可运行的游戏。
人类偏好评估
除了考试和学术基准,OpenAI还在多个领域的具有挑战性的开放式提示上评估了人类对o1-preview和GPT-4o的偏好。
在此次评估中,人类训练者对o1-preview和GPT-4o的提示进行了匿名回答,并投票选出偏好的回答。**在数据分析、编程和数学等推理能力较强的类别中,o1-preview的受欢迎程度远高于GPT-4o。**然而,在某些自然语言任务上,o1-preview的表现则不如GPT-4o,这表明其并不适合所有用例。
在需要更强推理能力的领域,人们更青睐o1-preview。
安全性
思维链(CoT)推理为安全与对齐提供了新的思路。OpenAI发现,将模型行为策略整合到推理模型的思维链中,可以有效而稳健地传授人类价值观及原则。通过向模型灌输自身的安全规则及如何在特定上下文中进行推理,OpenAI发现推理能力与模型的稳健性存在直接联系:o1-preview在关键越狱评估和用于评估模型安全拒绝边界的严格内部基准上取得了显著的改进。
OpenAI认为,使用思维链可以为安全和对齐带来重大进展,因为1)它能清晰地展现模型的思维过程,2)关于安全规则的模型推理在应对分布外场景时更具稳健性。
在发布前,OpenAI根据自身的安全准备框架进行了多轮安全测试和红队测试。结果显示,思维链推理有助于在整个评估过程中提升模型能力。值得注意的是,OpenAI观察到了一些有趣的奖励黑客攻击实例。
安全准备框架链接:OpenAI安全
隐藏思维链
OpenAI认为,隐藏思维链提供了监控模型的独特机会。假设其忠实且清晰,隐藏思维链使得人们能够“解读”模型的思维并理解其过程。未来,人们可能希望监控思维链以寻找操控用户的迹象。
然而,要做到这一点,模型必须能够自由表达其思想,因此不能在思维链方面经过任何政策合规性或用户偏好性训练。OpenAI也不希望用户直接看到不一致的思维链。
因此,在权衡用户体验、竞争优势与思维链监控等多种因素后,OpenAI决定不向用户展示原始思维链。OpenAI承认这一决策存在缺陷,因此努力通过教导模型在答案中重现思维链中的任何有用想法来部分弥补。同时,对于o1模型系列,OpenAI展示了模型生成的思维链摘要。
可以说,o1显著提升了AI推理的最新水平。OpenAI计划在不断迭代中发布该模型的改进版本,并期望新推理能力将提升模型与人类价值观和原则结合的能力。OpenAI相信,o1及其后续产品将在科学、编程、数学及相关领域为AI解锁更多新用例。
OpenAI o1-mini
o1是一个系列模型。这次OpenAI还发布了o1-mini版本。该公司在博客中给出了preview和mini版的不同定义:“为了给开发者提供更高效的解决方案,我们也发布了OpenAI o1-mini,这是一个尤其擅长编程的更快、更便宜的推理模型。”总体来看,o1-mini的成本比o1-preview低80%。
由于o1等大型语言模型是在大量文本数据集上预训练,尽管具备广泛的世界知识,但在实际应用中可能成本高昂且速度较慢。
相比之下,o1-mini是一个较小的模型,专门针对STEM推理进行了优化。在使用与o1相同的高计算强化学习(RL)管道进行训练后,o1-mini在许多有用的推理任务中表现出色,同时显著提高了成本效益。
例如,在需要智能和推理的基准测试中,o1-mini表现良好,但在需要非STEM事实知识的任务上则表现较差。
数学能力:在高中AIME数学竞赛中,o1-mini(70.0%)与o1(74.4%)表现相近,但成本大幅降低,并优于o1-preview(44.6%)。o1-mini的得分(约11/15个问题)大致位于美国前500名高中生之列。
编码能力:在Codeforces竞赛网站上,o1-mini的Elo得分为1650,表现与o1(1673)相近,且高于o1-preview(1258)。此外,o1-mini在HumanEval编码基准和高中网络安全夺旗挑战(CTF)中也表现出色。
STEM:在部分需要推理的学术基准上,例如GPQA(科学)和MATH-500,o1-mini的表现优于GPT-4o。然而在MMLU等任务上的表现不及GPT-4o,并因缺乏广泛的世界知识而在GPQA基准上落后于o1-preview。
人类偏好评估:OpenAI让人类评分员在多个领域的挑战性开放提示上比较o1-mini和GPT-4o。与o1-preview类似,在推理密集型领域,o1-mini比GPT-4o更受欢迎;但在以语言为中心的任务中,o1-mini并不比GPT-4o受欢迎。
在速度方面,OpenAI比较了GPT-4o、o1-mini和o1-preview在回答单个推理问题时的表现。结果显示,GPT-4o回答错误,而o1-mini和o1-preview均回答正确,且o1-mini得出的答案速度快了约3-5倍。
如何使用OpenAI o1?
ChatGPT Plus和Team(个人付费版与团队版)用户可以立即在ChatGPT中开始使用o1模型。用户可以手动选择使用o1-preview或o1-mini,但使用量有限。
目前,每位用户每周仅能给o1-preview发送30条消息,给o1-mini发送50条消息。
是的,消息数量很少!不过OpenAI表示正在努力增加用户的使用额度,并让ChatGPT能够自动选择合适的模型来响应给定的提示。
对于企业版和教育版用户,这两个模型将在下周开放使用。
至于通过API访问的用户,OpenAI表示达到5级API使用量的开发者可以立即开始使用这两个模型进行应用原型开发,但同样受限于速率:20 RPM。什么是5级API使用量?简单来说,就是已经消费了1000美元以上并且成为付费用户超过1个月的用户。请参见下图:
OpenAI表示,这两个模型的API调用不包含函数调用、流式传输、系统支持消息等功能。同时,OpenAI也在努力提升这些限制。
未来展望
OpenAI表示,未来除了模型更新,还将增加网页浏览、文件和图像上传等功能,以提高这些模型的实用性。
“除了新发布的o1系列模型,我们计划继续开发和发布GPT系列模型。”
参考内容:
https://openai.com/index/introducing-openai-o1-preview/
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/