奥特曼首度披露GPT-4.5比4聪明10倍的研发内幕

PT-4.5发布已有一个多月,但其背后的研发历程,直到今天才首次公开。 OpenAI CEO奥特曼携三位核心研发负责人,在最新的官方播客中,完整还原了GPT-4.5从设想到落地的全过程。 这是关于AI工程实践、技术突破、算力管理、数据瓶颈,以及研发文化的深度案例。

奥特曼首度披露GPT-4.5比4聪明10倍的研发内幕

PT-4.5发布已有一个多月,但其背后的研发历程,直到今天才首次公开。

OpenAI CEO奥特曼携三位核心研发负责人,在最新的官方播客中,完整还原了GPT-4.5从设想到落地的全过程。

这是关于AI工程实践、技术突破、算力管理、数据瓶颈,以及研发文化的深度案例。


GPT-4.5:用两年时间,实现比GPT-4聪明10倍的目标

早在两年前,OpenAI便为GPT-4.5设定了极具挑战性的研发目标:在有限的算力资源下,构建一个综合能力远超GPT-4的下一代模型。

最终,他们认为GPT-4.5在多个维度上达成了预期效果,其智能水平、语言理解力、交互体验均远超前代。

「GPT-4.5的出现,远远超出了我们对用户体验的预期。」——奥特曼

研发团队特别强调,在GPT-4.5之前,AI大模型的研发主要受制于算力。但从GPT-4.5开始,真正的限制已经转移到了数据。

换句话说:

算力瓶颈正在被突破,而数据效率与算法创新,才是未来竞争的核心。

超大规模模型训练的两大工程挑战

OpenAI在本次分享中坦言,GPT-4.5的研发难度,远超团队最初的判断,尤其是在以下两大方面:

1. 大规模GPU扩展的系统稳定性挑战

GPT-4.5的训练规模,从最初的1万个GPU扩展到10万个GPU,放大了所有系统的不确定性。

小概率事件在这种规模下频繁爆发,硬件、网络架构、加速器系统的稳定性,都成为工程团队必须应对的风险。

「大规模算力不是线性挑战,它是系统性的不确定性叠加。」

2. 数据效率成为制约AI能力提升的关键瓶颈

OpenAI的研发负责人坦言,未来想将模型能力再提升10倍甚至100倍,仅仅堆算力已不现实。

必须依赖算法创新与数据效率提升,让模型从有限的数据中学习到更多。

这一转变,将决定AI未来的发展上限。


GPT-4水平模型现在只需要5人可复刻

奥特曼团队在播客中透露了一个重要信息:

如果今天重新训练一个GPT-4水准的模型,OpenAI内部只需要5~10人即可完成。

这是因为:

  • 技术经验与最佳实践已全面沉淀
  • 自动化流程与工具链已高度完善
  • 最大的难点是「第一次做成」,而不是「复现」

这意味着,AI基础能力正在快速普及,而差异化竞争将回归到数据与产品体验层面。


一行Bug引发10万个GPU宕机:torch.sum事件复盘

GPT-4.5研发过程中,有一个极具代表性的技术事件——「torch.sum Bug」。

事件概述:

在训练后期,研发团队频繁遭遇系统不稳定的问题,但始终无法定位根因。

他们一度怀疑是多种Bug叠加导致,甚至围绕Bug数量进行了团队投票。

最终,他们发现问题居然源于一行代码:PyTorch库中的torch.sum函数出现罕见Bug。

这行代码的Bug触发概率极低,可能在训练的数百步、数千步中才会偶尔暴露。

但在10万个GPU同时运行的大规模环境下,这种低概率Bug的影响被无限放大,直接引发了系统级的宕机。


工程文化的体现:

即便这个Bug极为隐蔽,OpenAI团队仍坚持「零容忍原则」,必须彻底解决所有潜在隐患。

Bug修复后,他们甚至将Slack频道命名从「多Bug理论」改为「单Bug理论」,庆祝这次关键突破。

「大规模AI系统研发,不仅考验技术,更考验团队的韧性与文化。」

Scaling Law的长期有效性与未来的研究方向

OpenAI团队在本次对谈中重申了一个重要观点:

Scaling Law(规模规律)依然在当前阶段成立,AI模型能力与算力投入之间,存在明确的正相关关系。

但未来的关键突破,将是提高数据效率与算法优化,让有限数据与算力创造无限可能。


结语:GPT-4.5背后的工程文明

GPT-4.5的研发,不只是一个技术进步的故事,更是全球AI工程文明的缩影。

  • 大规模计算的基础设施挑战
  • 数据瓶颈下的算法创新
  • 工程文化的坚守与突破
  • 知识经验的快速沉淀与复用

这些元素,共同塑造了AI产业的当代底色。

真正能参与下一代AI竞争的企业,必然是在算力、数据、算法、工程文化上,全面准备好的组织。

未来AI世界的竞争,早已不是单点技术的比拼,而是系统性能力的全面对决。

Read more

谷歌发布69页提示词工程全解析:普通人也能玩转AI的秘密武器

谷歌发布69页提示词工程全解析:普通人也能玩转AI的秘密武器

三年来我一直写科技内容,但真让我“上头”的,是提示词工程(Prompt Engineering)。 用得好,AI可以写代码、讲故事、解数学题;用得差,结果就像你让狗去捡球,它叼回来一只袜子。 这就是提示词工程的本质:不是编程,而是“学会怎么跟AI讲话”。 这篇内容我参考了 Google 技术专家 Lee Boonstra 写的《Prompt Engineering白皮书》,用超简单的方式带你上手。

By Leo Pang
免费试用已死,你应该换这招

免费试用已死,你应该换这招

长期以来,免费试用(Free Trial)被视为SaaS产品获客的标准配置。但随着行业竞争的加剧、AI工具的普及,以及用户对软件价值体验的期待日益提高,传统的免费试用策略正面临系统性失效。 越来越多的创业公司和市场领先者,正在主动放弃“7天试用”“无需信用卡”的传统打法,转而采用以“结果承诺(Outcome Guarantee)”为核心的产品定价与营销策略。这背后不仅是用户行为的改变,更是SaaS行业对价值交付逻辑的重构。

lock-1 By Leo Pang