OpenAI 发布 gpt-oss 开放权重模型 (gpt-oss‑120B, gpt-oss‑20B)

AI开发工具基础设施

关键更新

OpenAI 发布了两个开放权重模型,gpt-oss‑120B 和 gpt-oss‑20B,采用 Apache‑2.0 许可,提供可下载的权重(原生 MXFP4 量化)、参考推理代码,以及 Harmony 提示格式和渲染器。较大的模型适合在单个 80GB GPU 上运行;较小的模型可以在约 16GB 的机器上运行,两者都支持非常长的上下文窗口(高达 ~128k 令牌)。OpenAI 正在提供参考运行时,并与供应商(Hugging Face、vLLM、Ollama、ONNX/Azure 等)合作,使这些模型能够在本地、云和边缘设置中使用。 (openai.com)

为什么这很重要

这是首次在时间和精力上可行的发布,实质性地改变了高级推理和编码助手的运行方式:团队现在可以在自己的基础设施(甚至高端开发机器)上托管一个有能力的、支持思维链的模型,而不必被锁定在托管的 API 中。实际上,这意味着交互式开发工具的延迟更低,能够将代码和遥测保留在本地以满足合规要求,并对微调和工具集成(IDE 插件、本地推理服务和代理框架)有更大的控制权。

工程权衡是直接但重要的:120B 模型仍然需要大量的 GPU RAM(≈80GB)和优化的运行时以实现生产吞吐量,而 20B 模型则开启了现实的本地和边缘场景(16GB RAM)。预计在两个领域会立即开展工作:(1)操作/工具 — 标准化推理堆栈(量化运行时、vLLM/ONNX 管道、适配器/微调工具)和部署自动化(Kubernetes + GPU 节点大小、推理的自动扩展);(2)安全/流程 — 加固的微调管道、红队和模型安全审计,以及围绕模型更新和提示清理的操作控制。对于构建代码助手或自动化管道的前端和后端开发者来说,此次发布减少了对模型推理的云依赖,但提高了对 MLOps、可观察性(延迟、漂移、幻觉跟踪)和安全模型治理的投资需求。 (openai.com)

来源

继续阅读