DPT德扑之星锦标赛当前位置：首页 > DPT德扑之星锦标赛

德扑圈下载Scaling Law撞墙AI圈炸锅了！OpenAI旗舰Orion被曝

发布时间：2025-06-22 11:12:39来源：德扑之星机械集团有限公司

　　几天前◈ღ，Sam Altman在YC独家专访中大胆预言◈ღ，2025年AGI降临◈ღ，并期待在同年要一个孩子◈ღ。

　　据称◈ღ，下一代旗舰模型Orion并不像前代实现巨大的飞跃◈ღ，虽然性能会超越OpenAI现有模型◈ღ，但相较于从GPT-3到GPT-4的迭代◈ღ，改进幅度要小得多◈ღ。

　　不仅如此◈ღ，这种提升也基本局限在了语言能力上——Orion的代码能力甚至不如旧模型◈ღ，但成本却更高◈ღ。

　　这篇文章直击OpenAI痛点◈ღ，提出Scaling Law逐渐放缓◈ღ，原因之一是高质量文本数据越来越少◈ღ。

　　为此◈ღ，OpenAI成立专门的基础团队◈ღ，去研究如何解决训练数据匮乏问题改进模型◈ღ，以及Scaling Law还能适用多久◈ღ。

　　为了扭转这一局面◈ღ，多位OpenAI研究人员当场急了◈ღ，纷纷现身为一直以来坚守的LLM定律辩护◈ღ。

　　德扑之父Noam Brown直接追问网友原因◈ღ，对方回复称◈ღ，「都已经过去一年半了◈ღ，Scaling并没有给大模型带去显著的改善」◈ღ。

　　俄勒冈州立大学名誉教授表示◈ღ，「o1-preview是否是一个Scaling的实例？如果是◈ღ，具体是什么在Scaling？在过去◈ღ，『Scaling』指的是同时扩大数据规模◈ღ、神经网络参数和计算资源」◈ღ。

　　OpenAI团队2020年提交的arXiv论文中最先提出这一概念德扑圈俱乐部官网◈ღ，◈ღ，是指LLM性能与计算量◈ღ、参数量◈ღ、数据量三者呈现幂律关系◈ღ。

　　传统的Scaling Law◈ღ，专注于用更长时间（预）训练更大的模型◈ღ，绝对仍然是一个重要因素德扑圈下载◈ღ。而且◈ღ，这种规模仍是基础◈ღ。

　　用强化学习训练后的o1在给出回答前◈ღ，会通过一个私有的CoT进行「思考」◈ღ。模型思考时间越长◈ღ，在推理任务上表现的越好◈ღ。

　　这种方法开创了模型scaling的新维度◈ღ，模型性能不再仅仅受限于预训练阶段◈ღ，现在可以通过增加推理计算资源来提升模型表现◈ღ。

　　与此同时◈ღ，Jason Wei昨天发长文更生动地解释了◈ღ，o1思维链前后存在着细微但重要的差异◈ღ。

　　在o1范式之前◈ღ，思维链的实际表现和人类期望它达到的效果之间存在差距◈ღ。它更像是先有了答案◈ღ，再去对答案进行解释◈ღ，列出步骤德扑圈下载◈ღ。

　　实际上◈ღ，模型只是模仿了它在预训练中见过的推理路径◈ღ，比如数学作业解答◈ღ，而不是一步步推理得到答案◈ღ。

　　这些数据的问题在于◈ღ，它是作者在其他地方完成所有思考后才总结出来的解答◈ღ，而不是真正的思维过程◈ღ。所以这些解答通常信息密度很差◈ღ。

　　一个明显的例子就是「答案是5◈ღ，因为...」这样的表述◈ღ，其中「5」这个数字突然包含了大量新信息◈ღ。

　　这些思维链更像是「内心独白」或「意识流」◈ღ。你可以看到模型在不断调整思路◈ღ，说一些像「另外◈ღ，让我们试试」或「等等◈ღ，但是」这样的话◈ღ。

　　虽然我没有直接测量过◈ღ，但我敢打赌（我的心理语言学朋友们可能能够确认）女王信息◈ღ，思维链中的信息密度比互联网上的普通文本要均匀得多◈ღ。

　　OpenAI产品副总Peter Welinder表示◈ღ，「人们低估了测试时计算能力的强大◈ღ：它可以持续更长时间的运算◈ღ，进行并行处理◈ღ，甚至能够任意地fork和branch——这就像是将你的思维复制1000份◈ღ，然后从中挑选出最好的想法◈ღ。」

　　OpenAI研究人员Clive Chan对此表示同感◈ღ：自一月份加入OpenAI以来◈ღ，我的观点已经从「这些都是无谓的炒作」转变为「AGI基本上已经到来了」◈ღ。

　　依我拙见◈ღ，接下来需要的并不是太多新的科学理论◈ღ，而是需要多年辛苦的工程优化◈ღ，去尝试在这个新范式下所有明显可行的想法◈ღ，扩大Scaling并提升速度◈ღ，同时找到方法来教会AI那些无法直接从网上学习的技能◈ღ。

　　这感觉就像◈ღ，2022年Autopilot范式转变——「端到端机器学习」解决了以前难以解决的问题◈ღ，但同时带来的新的挑战◈ღ，即投入多年时间不断微调架构◈ღ，并在全新的数据问题类型上玩「打地鼠游戏」◈ღ。

　　或许你会说◈ღ，OpenAI提出的Scaling Law◈ღ，当前要坚守辩护了◈ღ。那么德扑圈下载◈ღ，其他人怎么看？

　　xAI研究员Hieu Pham用调侃的语气表示◈ღ，我实在忍不住说出这几天一直萦绕在我脑海中的那个俏皮话◈ღ：「技术力」问题◈ღ。

　　那些说大模型Scaling Law已经放缓的人◈ღ，就像再说摩尔定律在硬件领域已经放缓一样◈ღ。从某种意义上说◈ღ，虽然每个人都这么说◈ღ，但总有公司能找到办法突破这些限制◈ღ。

　　抨击Information◈ღ，为什么被一些人称为The [Mis]information的原因

　　随着OpenAI在o1和CoT（思维链）方面的突破◈ღ，发展似乎看不到尽头◈ღ。Q*（代号Strawberry）是带领我们迈向AGI突破性进展◈ღ，这也是Sam Altman如此有信心的原因◈ღ。

　　ChatGPT等其他AI产品的用户数◈ღ，肉眼可见地增长◈ღ。奥特曼最近称◈ღ，ChatGPT已经成为全球第八大网站◈ღ。

　　今年5月◈ღ，Altman曾告诉员工◈ღ，他预计下一代Orion很可能会比一年前发布的最后一个旗舰产品模型显著提升◈ღ。

　　一位人士透露◈ღ，尽管OpenAI仅完成了Orion训练过程的20%◈ღ，但其在智能◈ღ、完成任务◈ღ、回答问题的能力方面已经与GPT-4相媲美◈ღ。

　　但据OpenAI员工测试后发现◈ღ，虽然Orion性能最终优于之前的模型◈ღ，但与GPT-3和GPT-4之间的飞跃相比◈ღ，性能提升要小得多◈ღ。

　　另外◈ღ，一位知情人士表示◈ღ，Orion可能比OpenAI最近发布的其他模型◈ღ，在数据中心的运行成本更高◈ღ。

　　就在昨天◈ღ，科学家Yam Peleg爆料◈ღ，「听说从某个前沿实验室（老实说不是OpenAI）传出消息◈ღ，他们在尝试通过延长训练时间◈ღ，使用越来越多数据来强行提升性能时◈ღ，遇到了一个意想不到的巨大收益递减瓶颈」◈ღ。

　　为了应对GPT改进放缓◈ღ，对基于训练的Scaling Law提出的挑战◈ღ，业界似乎正在转向改进训练后的模型◈ღ，这可能会产生不同类型的Scaling Law◈ღ。

　　一些首席执行官德扑圈下载◈ღ，包括小扎在内◈ღ，表示即使在最坏的情况下◈ღ，即使当前技术没有改进◈ღ，仍然有很大的空间可以在其基础上构建消费者和企业产品◈ღ。

　　比如◈ღ，OpenAI正忙于在其模型中嵌入更多代码编写功能◈ღ，对抗最大劲敌Anthropic的重大威胁◈ღ。

　　它还在开发能够控制个人电脑的软件◈ღ，通过点击◈ღ、移动光标◈ღ、文本输入◈ღ，以及其他人类在使用不同应用程序时进行的操作◈ღ，来完成网页浏览或应用程序的白领任务◈ღ。

　　这些产品◈ღ，是朝着处理多步任务AI智能体发展的一个组成部分◈ღ，可能会像最初推出的ChatGPT一样具有革命性◈ღ。

　　此外◈ღ，小扎◈ღ、Altman◈ღ，以及其他AI巨头的首席执行官们也公开表示◈ღ，尚未达到传统Scaling Law的极限◈ღ。

　　这也就不难理解◈ღ，包括OpenAI在内的公司仍在开发昂贵的◈ღ、耗资数十亿美元的数据中心◈ღ，以尽可能多地从预训练模型中获取性能提升女王信息女王信息◈ღ。

　　然而◈ღ，OpenAI研究员Noam Brown在上个月的TEDAI会议上表示女王信息◈ღ，「开发更先进的模型德扑圈下载◈ღ，可能在经济上变得不可行」◈ღ。

　　他又表示◈ღ，「毕竟◈ღ，我们真的要训练那些耗资数千亿美元或数万亿美元的模型吗？在某个时候女王信息◈ღ，Scaling Law会崩溃」◈ღ。

　　有员工表示◈ღ，当OpenAI在明年年初发布Orion时◈ღ，可能会不同于其传统的「GPT」命名惯例◈ღ，进一步强调了大语言模型改进的不断变化◈ღ。

　　LLM在预训练期间会处理这些数据◈ღ，以理解世界和不同概念之间的关系◈ღ，从而解决诸如撰写博客文章◈ღ、解决编码错误等问题◈ღ。

　　过去几年中◈ღ，LLM使用了各种公开可用的文本以及来自网站◈ღ、书籍◈ღ，以及其他来源的其他数据进行预训练◈ღ。

　　众所周知女王信息◈ღ，互联网数据已经耗尽hh扑克线上◈ღ，◈ღ。另有Epoch AI研究佐证◈ღ，2026年前全网高质量数据几近用完◈ღ。

　　为此◈ღ，OpenAI组建了一个基础团队◈ღ，由之前负责预训练Nick Ryder领导◈ღ，以探索如何应对训练数据短缺以及Scaling Law还会持续多长时间◈ღ。

　　据一位OpenAI员工透露◈ღ，Orion部分训练是通过由其他OpenAI模型（包括GPT-4和最近发布的o1推理模型）生成的AI数据进行训练的◈ღ。

　　然而◈ღ，他又表示◈ღ，这种所谓的「合成数据」导致了一个新问题——即Orion最终在某些方面可能与那些旧模型相似◈ღ。

　　虽然数据暂时无解◈ღ，但OpenAI的研究人员正在通过改进模型处理特定任务的方式◈ღ，来提升它们在后训练过程中的表现◈ღ。

　　具体来说◈ღ，他们让模型从大量已正确解决的问题（如数学或编程问题）中学习◈ღ，这一过程被称为强化学习（RL）◈ღ。

　　他们还要求人类评估员在特定的编程或问题解决任务上◈ღ，测试预训练模型并对答案进行评分◈ღ，这有助于研究人员微调模型◈ღ，以改进其对某些类型请求（如写作或编码）的回答◈ღ。

　　这一过程称为人类反馈强化学习（RLHF)◈ღ，也在以往AI模型性能改进方面德扑圈下载◈ღ，可以看到该方法的有效性◈ღ。

　　为了处理这些评估◈ღ，OpenAI和其他AI开发者通常依赖于◈ღ，诸如Scale AI和Turing这样的初创公司来管理成千上万的合同工◈ღ。

　　此外◈ღ，o1推理模型◈ღ，在给出答案前需要更多时间进行「思考」LLM训练过的数据◈ღ，这一概念被称为测试时计算（Test-Time Compute）◈ღ。

　　这意味着o1的响应质量可以继续提高◈ღ，当模型在回答用户问题时◈ღ，提供额外的计算资源◈ღ，即使不对基础模型进行更改◈ღ。

　　知情人士称◈ღ，如果OpenAI能够继续提高基础模型的质量◈ღ，即使速度较慢◈ღ，也可以产生更好的推理结果◈ღ。

　　Brown在TEDAI会议上表示◈ღ，「这为Scaling打开了全新的维度◈ღ，研究人员可以通过从『每次查询花费一分钱到每次查询花费十美分』来改善模型的响应」◈ღ。

　　与此同时◈ღ，Altman在伦敦开发者日上◈ღ，强调了OpenAI推理模型的重要性◈ღ，这些模型可以与LLM结合使用◈ღ。

　　「我希望『推理』能够解锁我们等待多年的许多事情——例如德扑圈下载◈ღ，让这样的模型能够为新科学做出贡献◈ღ，帮助编写更多复杂的代码」◈ღ。

　　在最近与YC首席执行官Garry Tan的采访中◈ღ，Altman表示◈ღ，「我们基本上知道该怎么去做」才能实现与人类能力相当的通用人工智能——其中一部分涉及「以创造性的方式使用当前模型」◈ღ。

　　他在一个YouTube视频中表示◈ღ，「我们正以同样的速度增加用于训练AI的GPU数量◈ღ，但我们根本没有从中获得智能上的改进」◈ღ。

　　Horowitz的同事Marc Andreessen在同一个视频中表示◈ღ，有很多聪明的人正在努力突破渐近线◈ღ，想办法达到更高水平的推理能力◈ღ。

　　Databricks企业软件公司联合创始人兼主席◈ღ，同时也是一个允许应用程序开发者评估不同大模型的网站的共同开发者Ion Stoica表示◈ღ，大模型的性能可能在某些方面进入平台期◈ღ，但在其他方面则没有◈ღ。

　　他继续表示◈ღ，虽然AI在编码和解决复杂的多步问题等任务上继续改善◈ღ，但在执行一般任务的能力上◈ღ，如分析文本的情感◈ღ、描述疾病症状◈ღ，进展似乎放缓◈ღ。

　　对于一般知识问题◈ღ，你可以说目前我们在LLM的表现上看到了一种平台期◈ღ。我们需要更多的事实数据◈ღ，而合成数据的帮助有限◈ღ。

　　未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台◈ღ，收藏的资料范围包括人工智能◈ღ、脑科学◈ღ、互联网◈ღ、超级智能德扑圈◈ღ。◈ღ，数智大脑女王信息◈ღ、能源◈ღ、军事HHPOKER下载◈ღ，◈ღ、经济◈ღ、人类风险等等领域的前沿进展与未来趋势◈ღ。目前拥有超过8000篇重要资料◈ღ。每周更新不少于100篇世界范围最新研究资料◈ღ。

德扑之星 - DPT德扑之星锦标赛

德扑圈下载Scaling Law撞墙AI圈炸锅了！OpenAI旗舰Orion被曝