OpenAI выпустила открытые модели gpt-oss (gpt-oss‑120B, gpt-oss‑20B)

AIDevToolsInfrastructure

Основное обновление

OpenAI опубликовала две открытые модели, gpt-oss‑120B и gpt-oss‑20B, под лицензией Apache‑2.0 с загружаемыми весами (квантование MXFP4), эталонным кодом вывода и форматом подсказок Harmony и рендерерами. Большая модель предназначена для работы на одном 80GB GPU; меньшая может работать на машинах с ~16GB, и обе поддерживают очень длинные контекстные окна (до ~128k токенов). OpenAI предоставляет эталонные времена выполнения и сотрудничает с провайдерами (Hugging Face, vLLM, Ollama, ONNX/Azure и др.), чтобы сделать эти модели доступными для локальных, облачных и крайних настроек. (openai.com)

Почему это важно

Это одно из первых выпусков, которые с точки зрения времени и усилий значительно изменяют, где могут работать продвинутые помощники по рассуждению и программированию: команды теперь могут размещать способную модель с поддержкой цепочки размышлений на своей собственной инфраструктуре (или даже на высокопроизводительных разработческих машинах) без привязки к хостинговым API. Практически это означает более низкую задержку для интерактивных инструментов разработки, возможность хранить код и телеметрию на месте для соблюдения норм, а также гораздо больший контроль над тонкой настройкой и интеграцией инструментов (плагины IDE, локальные сервисы вывода и фреймворки агентов).

Инженерные компромиссы просты, но значительны: модель 120B все еще требует значительного объема GPU RAM (≈80GB) и оптимизированных времен выполнения для производственного потока, в то время как модель 20B открывает реалистичные сценарии для локальных и крайних решений (16GB RAM). Ожидайте немедленной работы в двух областях: (1) операции/инструменты — стандартизированные стеки вывода (квантованные времена выполнения, конвейеры vLLM/ONNX, инструменты адаптации/тонкой настройки) и автоматизация развертывания (Kubernetes + размер узлов GPU, автоматическое масштабирование для вывода); и (2) безопасность/процессы — защищенные конвейеры тонкой настройки, аудит безопасности моделей и оперативный контроль обновлений моделей и очистки подсказок. Для разработчиков фронтенда и бэкенда, создающих помощников по программированию или автоматизированные конвейеры, этот выпуск снижает зависимость от облака для вывода моделей, но увеличивает необходимость инвестиций в MLOps, наблюдаемость (задержка, дрейф, отслеживание галлюцинаций) и безопасное управление моделями. (openai.com)

Источник

Читать дальше