जैसा कि अगली पीढ़ी के बड़े मॉडल GPT-5 की अत्यधिक प्रत्याशित है, "यूनिवर्सल वेरिफ़ायर" नामक एक नई तकनीक उभर रही है, जो OpenAI के "गुप्त हथियार" का खुलासा करती है जिसका उपयोग प्रतिस्पर्धी अंतर को चौड़ा करने के लिए किया जा सकता है। OpenAI का "यूनिवर्सल वेरिफ़ायर" GPT-5 मॉडल की बाज़ार प्रतिस्पर्धात्मकता को सीधे प्रभावित कर सकता है। 4 अगस्त को टेक्नोलॉजी मीडिया द इंफॉर्मेशन ने मामले से परिचित लोगों का हवाला देते हुए बताया कि इस तकनीक का इस्तेमाल GPT-5 की विकास प्रक्रिया में किया गया है।
प्रौद्योगिकी के मूल तंत्र की तुलना "प्रोवर-सत्यापनकर्ता गेम" से की गई है। संक्षेप में, यह एक एआई मॉडल को दूसरे "प्रोवर" मॉडल द्वारा उत्पन्न उत्तरों की जांच और मूल्यांकन करने के लिए "सत्यापनकर्ता" की भूमिका निभाने की अनुमति देता है। इस आंतरिक टकराव और प्रतिक्रिया के माध्यम से, मॉडल की आउटपुट गुणवत्ता में व्यवस्थित रूप से सुधार होता है। इस स्वचालित प्रक्रिया का उद्देश्य सुदृढीकरण सीखने (आरएल) की बाधा को हल करना है जिसे रचनात्मक लेखन या गणितीय प्रमाण जैसे जटिल क्षेत्रों जैसे व्यक्तिपरक क्षेत्रों में सत्यापित करना मुश्किल है।
ओपनएआई के आंतरिक शोधकर्ताओं ने अप्रत्यक्ष रूप से सोशल प्लेटफॉर्म एक्स पर संबंधित तरीकों की प्रभावशीलता की पुष्टि की है। शोधकर्ता नोम ब्राउन ने कहा कि तकनीकें "सामान्य" हैं और बड़े मॉडलों को "उन कार्यों पर बेहतर प्रदर्शन करने की अनुमति देती हैं जिन्हें सत्यापित करना मुश्किल है।" इससे यह भी पता चलता है कि ओपनएआई एआई के व्यावसायिक अनुप्रयोग में मुख्य समस्या बिंदु - विश्वसनीयता - को दूर करने की कोशिश कर रहा है।
"सिद्धांत-सत्यापनकर्ता" खेल
"यूनिवर्सल वेरिफायर" के तकनीकी विवरण को पहली बार जुलाई 2024 में ओपनएआई द्वारा प्रकाशित "द प्रोवर-वेरिफायर गेम इम्प्रूव्स द रीडेबिलिटी ऑफ लार्ज लैंग्वेज मॉडल्स" शीर्षक वाले पेपर में विस्तृत किया गया था। यह विधि एक उत्कृष्ट आंतरिक प्रतिकूल प्रशिक्षण ढांचे का निर्माण करती है, जिसके पीछे एक "प्रोवर-वेरिफायर गेम" मॉडल है।
इस ढांचे में "सिद्धकर्ता और सत्यापनकर्ता" की दो भूमिकाएँ एक मॉडल के भीतर दो "व्यक्तित्वों" को विभाजित करने जैसी हैं:
प्रशिक्षण प्रक्रिया के दौरान, "सत्यापनकर्ता" मॉडल सही और गलत समाधानों के बीच अंतर करना सीखकर अपनी "नकली" क्षमताओं में लगातार सुधार करता है। साथ ही, "सत्यापनकर्ता" मॉडल को "सत्यापनकर्ता" की प्रतिक्रिया के आधार पर अनुकूलित किया जाता है और सीखता है कि सही उत्तर कैसे उत्पन्न किए जाएं जो अधिक विश्वसनीय और बनाने में कठिन हों। पेपर में स्पष्ट रूप से कहा गया है कि सत्यापनकर्ता बड़े पैमाने पर तैनाती के लिए काफी छोटा है और इसे "भविष्य में जीपीटी तैनाती के लिए डिज़ाइन किया गया है।"
एक शोधकर्ता ने द इंफॉर्मेशन को बताया कि यह तंत्र जेनरेटिव एडवरसैरियल नेटवर्क (जीएएन) के समान है, जो एआई-जनरेट किए गए डेटा से वास्तविक डेटा को अलग करने के लिए "विभेदक" का उपयोग करता है, जिससे "जनरेटर" को सुधार जारी रखने के लिए मजबूर होना पड़ता है।

सुपर एलाइनमेंट टीम की "तकनीकी विरासत"?
यह ध्यान देने योग्य है कि इस प्रमुख तकनीक को ओपनएआई की पूर्व "सुपर एलाइनमेंट" टीम की "तकनीकी विरासत" के रूप में जाना जाता है। "द प्रोवर-वेरिफ़ायर गेम इम्प्रूव्स द रीडेबिलिटी ऑफ़ लार्ज लैंग्वेज मॉडल्स" पेपर प्रकाशित करने वाले छह लेखकों में से, वर्तमान में केवल यिनिंग चेन और नेट मैकलेज़ ही ओपनएआई में बचे हैं।
बताया गया है कि टीम का नेतृत्व कंपनी के सह-संस्थापक इल्या सुतस्केवर ने किया था और इसकी स्थापना यह अध्ययन करने के लिए की गई थी कि भविष्य में दिखाई देने वाली सुपर इंटेलिजेंस को कैसे नियंत्रित किया जाए। हालाँकि, सुतस्केवर और एक अन्य प्रभारी व्यक्ति, जान लेइके के चले जाने के बाद इसे तुरंत भंग कर दिया गया।
यह इस तकनीक के अनुप्रयोग में जटिल इंट्रा-कंपनी गतिशील संदर्भ की एक परत जोड़ता है। हालाँकि टीम अब मौजूद नहीं है, लेकिन इसके तकनीकी परिणामों को स्पष्ट रूप से वर्तमान मॉडल के संरेखण और विश्वसनीयता मुद्दों को हल करने के लिए ओपनएआई के मुख्य उत्पाद विकास पथ में एकीकृत किया गया है।
GPT-5 से उम्मीदें अधिक हैं
यह तकनीकी सफलता सीधे तौर पर बहुप्रतीक्षित GPT-5 से संबंधित है। सोशल मीडिया पर जानकारी से पता चलता है कि कुछ लोगों का मानना है कि मॉडल आत्म-आलोचना प्रणाली जिसे GPT-4 कोड सहायक फ़ंक्शन में संचालित किया गया था, अब आधिकारिक तौर पर GPT-5 के "अगले मेनलाइन मॉडल" में एकीकृत कर दिया गया है। इसने GPT-5 के लिए बाहरी अपेक्षाओं को एक नई ऊंचाई पर पहुंचा दिया है।
ओपनएआई के सीईओ सैम अल्टमैन ने खुद भी हालिया पॉडकास्ट में जीपीटी-5 का प्रचार करते हुए कहा कि यह "लगभग हर पहलू में हमसे ज्यादा स्मार्ट" है, जिससे बाजार की उम्मीदें और बढ़ गई हैं। साथ ही, xAI और Google सहित प्रतिस्पर्धियों ने भी मॉडल क्षमताओं में सुधार के लिए प्रमुख तकनीकी मार्ग के रूप में सुदृढीकरण सीखने को अपनाया है और अपने निवेश को दोगुना कर दिया है। इस संदर्भ में, "यूनिवर्सल वेरिफायर" न केवल ओपनएआई का एक तकनीकी नवाचार है, बल्कि इसे भयंकर कृत्रिम बुद्धिमत्ता प्रतियोगिता में अपनी अग्रणी बढ़त बनाए रखने के लिए इसकी मुख्य संपत्ति भी माना जाता है। GPT-5 के जारी होने के बाद बाज़ार द्वारा इसके अंतिम प्रभाव का परीक्षण किया जाएगा।
सफलताएँ और चुनौतियाँ सह-अस्तित्व में हैं
"सार्वभौमिक सत्यापनकर्ता" का सबसे महत्वपूर्ण मूल्य इसकी "सार्वभौमिकता" है। रिपोर्टों के अनुसार, इस तकनीक ने न केवल ओपनएआई मॉडल को सॉफ्टवेयर प्रोग्रामिंग जैसे क्षेत्रों में प्रगति करने में मदद की है, जहां उत्तरों को सही या गलत होने के लिए आसानी से सत्यापित किया जा सकता है, बल्कि रचनात्मक लेखन जैसे अधिक व्यक्तिपरक क्षेत्रों में भी सुधार दिखाया है। इसका मतलब यह है कि एआई की क्षमताएं वस्तुनिष्ठ क्षेत्र से व्यक्तिपरक क्षेत्र तक प्रवेश कर रही हैं।
उदाहरण के लिए, जटिल गणितीय प्रमाणों में, एक सत्यापनकर्ता केवल अंतिम उत्तर की जाँच करने के बजाय यह सुनिश्चित कर सकता है कि प्रत्येक चरण औपचारिक तर्क के नियमों का पालन करता है और एक दूसरे के अनुरूप है। रिपोर्टों के अनुसार, अंतर्राष्ट्रीय गणितीय ओलंपियाड प्रतियोगिता में ओपनएआई मॉडल के हालिया सफल परिणामों से "सार्वभौमिक सत्यापनकर्ता" सहित प्रौद्योगिकियों से लाभ होने की संभावना है। OpenAI के वरिष्ठ शोधकर्ता अलेक्जेंडर वेई ने सोशल प्लेटफॉर्म
हालाँकि, तकनीकी छलांग की राह आसान नहीं है। पहले की मीडिया रिपोर्टों के अनुसार, GPT-5 के अनुसंधान और विकास को गंभीर चुनौतियों का सामना करना पड़ रहा है, जिसमें उच्च गुणवत्ता वाले प्रशिक्षण डेटा की बढ़ती कमी और बड़े पैमाने पर पूर्व-प्रशिक्षण द्वारा लाए गए प्रदर्शन सुधार लाभों में गिरावट शामिल है। इसके अलावा, मॉडल को आंतरिक परीक्षण से सार्वजनिक तैनाती तक तैनात करने के बाद प्रदर्शन क्षीणन की समस्या अभी भी मौजूद है। उदाहरण के लिए, आंतरिक परीक्षण में अच्छा प्रदर्शन करने वाले "ओ3" मॉडल ने वास्तविक अनुप्रयोगों में प्रदर्शन में महत्वपूर्ण गिरावट का अनुभव किया है। इन कारकों ने अनिश्चितता ला दी है कि क्या GPT-5 अंततः अपेक्षित सफलता प्राप्त कर सकता है।