गुरुवार को, OpenAI ने आधिकारिक तौर पर बुनियादी मॉडलों की एक नई पीढ़ी, GPT‑5.4 जारी की, इसे "आज तक पेशेवर काम के लिए सबसे शक्तिशाली, कुशल, अत्याधुनिक मॉडल" के रूप में पेश किया। मानक संस्करण के अलावा, ओपनएआई ने एक साथ दो वेरिएंट लॉन्च किए: जीपीटी‑5.4 थिंकिंग, जो जटिल तर्क क्षमताओं पर जोर देती है, और जीपीटी‑5.4 प्रो, जो उच्च-प्रदर्शन एप्लिकेशन परिदृश्यों पर लक्षित है।

मॉडल क्षमताओं के संदर्भ में, GPT‑5.4 का एपीआई संस्करण 1 मिलियन टोकन तक की संदर्भ विंडो का समर्थन करता है, जो OpenAI द्वारा पहले प्रदान किए गए किसी भी मॉडल से कहीं अधिक है, जो लंबी श्रृंखला वर्कफ़्लो जैसे लंबे दस्तावेज़ों, जटिल परियोजनाओं या बहु-राउंड कार्यों को संसाधित करने के लिए फायदेमंद है। OpenAI ने टोकन उपयोग दक्षता में सुधार पर भी जोर दिया और कहा कि GPT-5.4 पिछली पीढ़ी के मॉडल के समान कठिनाई वाले कार्यों को काफी कम टोकन के साथ पूरा कर सकता है, जिससे लागत और प्रतिक्रिया गति में लाभ होता है।

नवीनतम बेंचमार्क परीक्षण परिणाम बताते हैं कि GPT‑5.4 ने कई आधिकारिक मूल्यांकनों में महत्वपूर्ण बढ़त हासिल की है, जिसमें OSWorld‑Verified और WebArena Verified के दो "कंप्यूटर ऑपरेशन" परिदृश्य परीक्षणों में नए रिकॉर्ड स्थापित करना और OpenAI के स्वयं के ज्ञान कार्य मूल्यांकन सेट GDPval पर 83% का उच्चतम स्कोर प्राप्त करना शामिल है। GPT‑5.4 को कानून और वित्त जैसे पेशेवर कौशल के लिए स्टार्टअप मर्कोर द्वारा निर्धारित APEX‑Agents बेंचमार्क में भी पहला स्थान दिया गया है।

मर्कोर के सीईओ ब्रेंडन फ़ूडी ने एक बयान में कहा कि GPT‑5.4 प्रेजेंटेशन, वित्तीय मॉडल और कानूनी विश्लेषण सहित दीर्घकालिक डिलिवरेबल्स का उत्पादन करने में उत्कृष्ट है, "तुलनीय अत्याधुनिक मॉडल की तुलना में तेज और कम लागत पर शीर्ष प्रदर्शन बनाए रखते हुए।"

विश्वसनीयता के संदर्भ में, GPT‑5.4 "भ्रम" और तथ्यात्मक त्रुटियों को कम करने के लिए OpenAI के अनुसंधान और विकास की दिशा को जारी रखता है। आधिकारिक आंतरिक मूल्यांकन परिणाम बताते हैं कि GPT-5.2 की तुलना में, नए मॉडल में एकल कथन के स्तर पर त्रुटियों की संभावना में 33% की कमी है, और समग्र उत्तर में त्रुटियों की संभावना में 18% की कमी है।

यह रिलीज़ एक महत्वपूर्ण एपीआई परत परिवर्तन के साथ भी आती है: ओपनएआई ने टूल सर्च नामक एक नया टूल कॉलिंग तंत्र लॉन्च किया है। पुराने समाधान में, सिस्टम प्रॉम्प्ट को सभी उपलब्ध टूल की परिभाषाओं को एक ही बार में मॉडल में इंजेक्ट करना होगा। जैसे-जैसे टूल की संख्या बढ़ती है, प्रॉम्प्ट का यह भाग स्वयं बड़ी मात्रा में टोकन पर कब्जा कर लेगा। नया टूल सर्च मॉडलों को मांग पर टूल परिभाषाओं को क्वेरी करने की अनुमति देता है, बड़े टूल आकार वाले सिस्टम में ओवरहेड को काफी कम करता है, जिससे इनवोकेशन तेज और कम खर्चीला हो जाता है।

सुरक्षा और नियंत्रणीयता पर ध्यान केंद्रित करते हुए, ओपनएआई ने इस बार बहु-चरणीय कार्यों में मॉडल के "चेन-ऑफ़-थॉट" प्रदर्शन का परीक्षण करने के लिए एक नया सुरक्षा मूल्यांकन जोड़ा है। शोधकर्ता लंबे समय से चिंतित हैं कि तर्क क्षमता वाले मॉडल श्रृंखला सोच प्रक्रिया के दौरान सही तर्क पथ को "छिपा" सकते हैं या छिपा सकते हैं। पिछले शोध से पता चला है कि यह वास्तव में कुछ शर्तों के तहत हो सकता है। OpenAI द्वारा दिए गए नए मूल्यांकन परिणाम बताते हैं कि GPT-5.4 थिंकिंग के संस्करण में, ऐसे "भ्रामक" प्रदर्शन की संभावना और भी कम है। "इससे पता चलता है कि मॉडल में तर्क प्रक्रिया को सक्रिय रूप से छिपाने की क्षमता का अभाव है, और सोच श्रृंखला की निगरानी अभी भी एक प्रभावी सुरक्षा उपकरण है।"

GPT‑5.4 और इसके प्रो और थिंकिंग संस्करणों के एक साथ लॉन्च के माध्यम से, OpenAI पेशेवर उत्पादकता, लागत दक्षता और सुरक्षा नियंत्रणीयता के बीच एक नया संतुलन खोजने की कोशिश कर रहा है, बड़े मॉडलों को कानून, वित्त और ज्ञान कार्य जैसे उच्च-मूल्य परिदृश्यों में आगे बढ़ा रहा है।