OpenAI ने gpt-oss ओपन-वेट मॉडल (gpt-oss‑120B, gpt-oss‑20B) जारी किए

AIDevToolsInfrastructure

प्रमुख अपडेट

OpenAI ने दो ओपन-वेट मॉडल, gpt-oss‑120B और gpt-oss‑20B, Apache‑2.0 लाइसेंस के तहत डाउनलोड करने योग्य वेट्स (नैटिव MXFP4 क्वांटाइजेशन), संदर्भ इनफेरेंस कोड, और एक हार्मनी प्रॉम्प्ट फॉर्मेट और रेंडरर्स के साथ प्रकाशित किए हैं। बड़ा मॉडल एकल 80GB GPU पर चलाने के लिए आकार में है; छोटा मॉडल ~16GB वाले मशीनों पर चल सकता है, और दोनों बहुत लंबे संदर्भ विंडो (लगभग ~128k टोकन) का समर्थन करते हैं। OpenAI संदर्भ रनटाइम भेज रहा है और स्थानीय, क्लाउड, और एज सेटअप में इन मॉडलों का उपयोग करने के लिए प्रदाताओं (Hugging Face, vLLM, Ollama, ONNX/Azure, आदि) के साथ साझेदारी कर रहा है। (openai.com)

यह क्यों महत्वपूर्ण है

यह पहली बार समय और प्रयास के लिए व्यावहारिक रूप से उपलब्ध रिलीज़ में से एक है जो उन्नत तर्क और कोडिंग सहायकों को चलाने के स्थान को महत्वपूर्ण रूप से बदलता है: टीमें अब अपनी खुद की अवसंरचना (या यहां तक कि उच्च-स्तरीय डेवलपर मशीनों) पर एक सक्षम, चेन-ऑफ-थॉट सक्षम मॉडल होस्ट कर सकती हैं बिना होस्टेड APIs में लॉक हुए। व्यावहारिक रूप से, इसका मतलब है इंटरैक्टिव डेवलपमेंट टूल्स के लिए कम विलंबता, अनुपालन के लिए कोड और टेलीमेट्री को ऑन-प्रिमाइसेस रखने की क्षमता, और फाइन-ट्यूनिंग और टूल इंटीग्रेशन (IDE प्लगइन्स, स्थानीय इनफेरेंस सेवाएं, और एजेंट फ्रेमवर्क) पर बहुत अधिक नियंत्रण।

इंजीनियरिंग ट्रेडऑफ स्पष्ट लेकिन महत्वपूर्ण हैं: 120B मॉडल को अभी भी उत्पादन थ्रूपुट के लिए पर्याप्त GPU RAM (≈80GB) और अनुकूलित रनटाइम की आवश्यकता होती है, जबकि 20B मॉडल वास्तविक ऑन-प्रिमाइसेस और एज परिदृश्यों (16GB RAM) को खोलता है। दो क्षेत्रों में तत्काल कार्य की अपेक्षा करें: (1) ऑप्स/टूलिंग — मानकीकृत इनफेरेंस स्टैक्स (क्वांटाइज्ड रनटाइम, vLLM/ONNX पाइपलाइन्स, एडाप्टर/फाइन-ट्यून टूलिंग) और तैनाती स्वचालन (Kubernetes + GPU नोड आकार, इनफेरेंस के लिए ऑटोस्केलिंग); और (2) सुरक्षा/प्रक्रिया — मजबूत फाइन-ट्यूनिंग पाइपलाइन्स, रेड-टीमिंग और मॉडल-सेफ्टी ऑडिट, और मॉडल अपडेट और प्रॉम्प्ट सैनिटाइजेशन के चारों ओर संचालन नियंत्रण। कोड सहायकों या स्वचालित पाइपलाइनों का निर्माण करने वाले फ्रंटेंड और बैकेंड डेवलपर्स के लिए, यह रिलीज़ मॉडल इनफेरेंस के लिए क्लाउड-निर्भरता को कम करती है, लेकिन MLOps, अवलोकन (विलंबता, ड्रिफ्ट, हॉल्यूसीनेशन ट्रैकिंग), और सुरक्षित मॉडल गवर्नेंस में निवेश करने की आवश्यकता को बढ़ाती है। (openai.com)

स्रोत

आगे पढ़ें