OpenAI

奥特曼首度披露GPT-4.5比4聪明10倍的研发内幕

PT-4.5发布已有一个多月，但其背后的研发历程，直到今天才首次公开。 OpenAI CEO奥特曼携三位核心研发负责人，在最新的官方播客中，完整还原了GPT-4.5从设想到落地的全过程。这是关于AI工程实践、技术突破、算力管理、数据瓶颈，以及研发文化的深度案例。

Leo Pang

13 Apr 2025 — 5 min read

PT-4.5发布已有一个多月，但其背后的研发历程，直到今天才首次公开。

OpenAI CEO奥特曼携三位核心研发负责人，在最新的官方播客中，完整还原了GPT-4.5从设想到落地的全过程。

这是关于AI工程实践、技术突破、算力管理、数据瓶颈，以及研发文化的深度案例。

GPT-4.5：用两年时间，实现比GPT-4聪明10倍的目标

早在两年前，OpenAI便为GPT-4.5设定了极具挑战性的研发目标：在有限的算力资源下，构建一个综合能力远超GPT-4的下一代模型。

最终，他们认为GPT-4.5在多个维度上达成了预期效果，其智能水平、语言理解力、交互体验均远超前代。

「GPT-4.5的出现，远远超出了我们对用户体验的预期。」——奥特曼

研发团队特别强调，在GPT-4.5之前，AI大模型的研发主要受制于算力。但从GPT-4.5开始，真正的限制已经转移到了数据。

换句话说：

算力瓶颈正在被突破，而数据效率与算法创新，才是未来竞争的核心。

超大规模模型训练的两大工程挑战

OpenAI在本次分享中坦言，GPT-4.5的研发难度，远超团队最初的判断，尤其是在以下两大方面：

1. 大规模GPU扩展的系统稳定性挑战

GPT-4.5的训练规模，从最初的1万个GPU扩展到10万个GPU，放大了所有系统的不确定性。

小概率事件在这种规模下频繁爆发，硬件、网络架构、加速器系统的稳定性，都成为工程团队必须应对的风险。

「大规模算力不是线性挑战，它是系统性的不确定性叠加。」

2. 数据效率成为制约AI能力提升的关键瓶颈

OpenAI的研发负责人坦言，未来想将模型能力再提升10倍甚至100倍，仅仅堆算力已不现实。

必须依赖算法创新与数据效率提升，让模型从有限的数据中学习到更多。

这一转变，将决定AI未来的发展上限。

GPT-4水平模型现在只需要5人可复刻

奥特曼团队在播客中透露了一个重要信息：

如果今天重新训练一个GPT-4水准的模型，OpenAI内部只需要5~10人即可完成。

这是因为：

技术经验与最佳实践已全面沉淀
自动化流程与工具链已高度完善
最大的难点是「第一次做成」，而不是「复现」

这意味着，AI基础能力正在快速普及，而差异化竞争将回归到数据与产品体验层面。

一行Bug引发10万个GPU宕机：torch.sum事件复盘

GPT-4.5研发过程中，有一个极具代表性的技术事件——「torch.sum Bug」。

事件概述：

在训练后期，研发团队频繁遭遇系统不稳定的问题，但始终无法定位根因。

他们一度怀疑是多种Bug叠加导致，甚至围绕Bug数量进行了团队投票。

最终，他们发现问题居然源于一行代码：PyTorch库中的torch.sum函数出现罕见Bug。

这行代码的Bug触发概率极低，可能在训练的数百步、数千步中才会偶尔暴露。

但在10万个GPU同时运行的大规模环境下，这种低概率Bug的影响被无限放大，直接引发了系统级的宕机。

工程文化的体现：

即便这个Bug极为隐蔽，OpenAI团队仍坚持「零容忍原则」，必须彻底解决所有潜在隐患。

Bug修复后，他们甚至将Slack频道命名从「多Bug理论」改为「单Bug理论」，庆祝这次关键突破。

「大规模AI系统研发，不仅考验技术，更考验团队的韧性与文化。」

Scaling Law的长期有效性与未来的研究方向

OpenAI团队在本次对谈中重申了一个重要观点：

Scaling Law（规模规律）依然在当前阶段成立，AI模型能力与算力投入之间，存在明确的正相关关系。

但未来的关键突破，将是提高数据效率与算法优化，让有限数据与算力创造无限可能。

结语：GPT-4.5背后的工程文明

GPT-4.5的研发，不只是一个技术进步的故事，更是全球AI工程文明的缩影。

大规模计算的基础设施挑战
数据瓶颈下的算法创新
工程文化的坚守与突破
知识经验的快速沉淀与复用

这些元素，共同塑造了AI产业的当代底色。

真正能参与下一代AI竞争的企业，必然是在算力、数据、算法、工程文化上，全面准备好的组织。

未来AI世界的竞争，早已不是单点技术的比拼，而是系统性能力的全面对决。