ओपनएआई स्टर्म अंड द्रांग: केवल 12 उदाहरण एक समर्पित एआई विशेषज्ञ बना सकते हैं। मुख्य प्रौद्योगिकी बाइट से आती है?

ओपनएआई "12 डेज़" इवेंट के दूसरे दिन, हमने रीइनफोर्समेंटफाइन-ट्यूनिंग तकनीक की आधिकारिक रिलीज देखी और चैटजीपीटीप्रो का प्रदर्शन देखा। हालाँकि सैम ऑल्टमैन ने व्यक्तिगत रूप से घटनास्थल का दौरा नहीं किया, लेकिन उनकी टीम ने हमें इस तकनीक का गहन विश्लेषण दिया, जो इंगित करता है कि एआई मॉडल अनुकूलन एक बड़ी सफलता की शुरूआत कर सकता है।

विशेषज्ञ मॉडल को अनुकूलित करने के लिए 12 उदाहरण

आज का सम्मेलन एक ऐसी घोषणा लेकर आया है जो अस्पष्ट लग सकती है लेकिन लोगों के जीवन पर महत्वपूर्ण प्रभाव डाल सकती है।

आज की घोषणा एंटरप्राइज़ उपयोगकर्ताओं के लिए एक सुखद आश्चर्य है। संगठन न्यूनतम डेटा का उपयोग करके रीइन्फोर्स्ड फाइन-ट्यूनिंग के माध्यम से o1mini को अपनी आवश्यकताओं के अनुसार अनुकूलित करने में सक्षम होंगे।

आप में से कुछ लोग पिछले साल की शुरुआत में OpenAI द्वारा लॉन्च किए गए पर्यवेक्षी फाइन-ट्यूनिंग एपीआई से पहले से ही परिचित हो सकते हैं। पर्यवेक्षित फ़ाइन-ट्यूनिंग एक शक्तिशाली उपकरण है जो मॉडल को इनपुट टेक्स्ट या छवियों में पाई जाने वाली सुविधाओं की नकल करने की अनुमति देता है। यह विधि उन परिदृश्यों के लिए बहुत उपयोगी है जहां मॉडल के स्वर, शैली या प्रतिक्रिया प्रारूप को समायोजित करने की आवश्यकता होती है। लेकिन पर्यवेक्षी फ़ाइन-ट्यूनिंग के लिए विशेष क्षेत्रों में बड़ी मात्रा में डेटा की आवश्यकता होती है। गहन फाइन-ट्यूनिंग का लाभ यह है कि यह बहुत कम संख्या में उच्च-गुणवत्ता वाले उदाहरणों के साथ मॉडल की तर्क पद्धति को जल्दी से समायोजित कर सकता है। पिछले पर्यवेक्षी फ़ाइन-ट्यूनिंग में इस प्रकार की दक्षता हासिल करना कठिन रहा है।

सुदृढीकरण फाइन-ट्यूनिंग का कार्य सिद्धांत है: जब मॉडल किसी समस्या का सामना करता है, तो उसे समस्या को हल करने के लिए एक निश्चित मात्रा में सोचने की जगह दी जाती है, और फिर मॉडल का अंतिम उत्तर स्कोर किया जाता है। सुदृढीकरण सीखने के तंत्र के माध्यम से, सही उत्तरों की ओर ले जाने वाले विचारों को मजबूत किया जाता है, जबकि गलत उत्तरों की ओर ले जाने वाले विचारों को कमजोर किया जाता है।

एआईओवरव्यू द्वारा दिए गए प्रासंगिक कागजात हैं:यह इस साल जनवरी में ACL2024 शिखर सम्मेलन में बाइटडांस का एक पेपर निकला, और यह OpenAI के लिए अपनी तरह का पहला पेपर नहीं था।

पेपर के अनुसार, सुदृढीकरण फाइन-ट्यूनिंग (ReFT) पर्यवेक्षित फाइन-ट्यूनिंग (SFT) से शुरू होती है, जो आमतौर पर एक से दो युगों तक चलती है। इस स्तर पर, मॉडल गणितीय समस्याओं को सही ढंग से हल करने की बुनियादी क्षमता प्राप्त कर लेता है। इसके बाद, ReFT प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (PPO) जैसे तरीकों का उपयोग करके सुदृढीकरण शिक्षण (RL) एल्गोरिदम को अपनाकर मॉडल के प्रशिक्षण को एक नए स्तर पर ले जाता है। यह उन्नत चरण मॉडल को विभिन्न प्रकार के सही समाधानों और तर्क विधियों का पता लगाने और सीखने की अनुमति देता है। इस संदर्भ में, ReFT कुशल है क्योंकि यह मौजूदा प्रशिक्षण डेटा का उपयोग करता है, जिसमें पहले से ही सही उत्तर होते हैं।

ये उत्तर पीपीओ प्रशिक्षण के दौरान पुरस्कारों का आधार बनते हैं, जिससे अतिरिक्त, अलग से प्रशिक्षित पुरस्कार प्रणाली की आवश्यकता समाप्त हो जाती है। यह आरएलएचएफ जैसी अन्य विधियों से एक महत्वपूर्ण अंतर है,उत्तरार्द्ध मानव-एनोटेटेड डेटा द्वारा निर्धारित पुरस्कारों पर निर्भर करता है।

स्क्रीनशॉट स्रोत: https://arxiv.org/pdf/2401.08967v1

यह ध्यान देने योग्य है कि ओपनएआई ने कहा कि सुदृढीकरण फाइन-ट्यूनिंग के आधार पर, केवल कुछ दर्जन उदाहरणों के साथ, मॉडल एक विशिष्ट डोमेन में नए और प्रभावी तरीकों से तर्क करने की क्षमता में महारत हासिल कर सकता है।

वास्तव में, "यह केवल 12 उदाहरणों के साथ किया जा सकता है, जिसे पारंपरिक फाइन-ट्यूनिंग में हासिल नहीं किया जा सकता है।" प्रेस कॉन्फ्रेंस में ओपनएआई की शोधकर्ता जूली वोंग ने आगे जोर दिया।

उन्नत फ़ाइन-ट्यूनिंग का प्रभाव भी अद्भुत है। स्कोर न केवल o1mini से अधिक है, बल्कि कल ही जारी किए गए O1 संस्करण से भी अधिक है।

ओपनएआई के सीईओ सैम अल्टमैन, हालांकि आज के लाइवस्ट्रीम पर मौजूद नहीं थे, उन्होंने एक्स प्लेटफॉर्म पर घोषणा पर चर्चा की। उन्होंने दावा किया कि नया फीचर "आश्चर्यजनक रूप से काम करता है और 2024 में मेरे लिए सबसे बड़े आश्चर्यों में से एक है।"

बेशक, ऑल्टमैन का अपनी कंपनी के नए विचारों को बढ़ावा देने में निहित स्वार्थ है, लेकिन यह देखते हुए कि 2024 में ओपनएआई से बहुत सारी रोमांचक चीजें आ रही हैं, और उन्होंने इसे वर्ष के सबसे बड़े आश्चर्यों में से एक कहा, यह निश्चित रूप से उच्च प्रशंसा है।

OpenAI वक्ताओं के अनुसार, वैज्ञानिक, डेवलपर्स और शोधकर्ता केवल सार्वजनिक रूप से उपलब्ध डेटा पर निर्भर रहने के बजाय, अपने स्वयं के डेटा के आधार पर शक्तिशाली O1 अनुमान मॉडल को अनुकूलित कर सकते हैं।

विभिन्न क्षेत्रों में चिकित्सक सुदृढीकरण सीखने के माध्यम से ओ1 पर आधारित विशेषज्ञ मॉडल बना सकते हैं, जिससे क्षेत्र में समग्र पेशेवर स्तर में सुधार होगा। यह एआई अनुकूलन में एक महत्वपूर्ण कदम है, जो एआई मॉडल को पेशेवर क्षेत्रों में बेहतर प्रदर्शन करने की अनुमति देता है।

बड़े मॉडलों को बेहतर बनाने के लिए उन्नत फ़ाइन-ट्यूनिंग का लाइव प्रदर्शन

घटनास्थल पर, ओपनएआई शोधकर्ताओं ने बर्कले लैब कम्प्यूटेशनल जीवविज्ञानी जस्टिन रीज़ का उपयोग यह प्रदर्शित करने के लिए किया कि कैसे बेहतर फाइन-ट्यूनिंग ओ1मिनी के प्रदर्शन में काफी सुधार कर सकती है। विशेष रूप से, लक्षणों की एक सूची दी जाती है और मॉडल से यह अनुमान लगाने के लिए कहा जाता है कि कौन सा जीन आनुवंशिक रोग का कारण बन सकता है।

सबसे पहले, मॉडल को प्रशिक्षित करने के लिए उपयोग किए गए डेटासेट और मॉडल का मूल्यांकन करने के लिए उपयोग किए जाने वाले स्कोरर को देखें। जस्टिन की टीम ने लगभग 1,100 उदाहरणों वाला एक डेटासेट एकत्र किया। प्रशिक्षण डेटासेट केवल एक JSON-L फ़ाइल है। फ़ाइल की प्रत्येक पंक्ति एक उदाहरण है जिस पर आप मॉडल को प्रशिक्षित करना चाहते हैं। इसके अतिरिक्त, सत्यापन डेटा डेमो में अपलोड किया गया है।

ओपनएआई रिसर्च इंस्टीट्यूट के जॉन एलार्ड बताते हैं, "सही जीन के संदर्भ में सत्यापन और प्रशिक्षण डेटासेट के बीच कोई ओवरलैप नहीं है। इसका मतलब है कि मॉडल धोखा नहीं दे सकता है, या यह केवल लक्षणों की एक सूची को याद रखना और उन्हें जीन के साथ जोड़ना नहीं सीख सकता है, इसे प्रशिक्षण डेटासेट से सत्यापन डेटासेट तक सामान्यीकृत करना होगा।"

फिर, OpenAI के प्रशिक्षण बुनियादी ढांचे पर एक प्रशिक्षण कार्य शुरू करें। आप वेब इंटरफ़ेस में प्रशिक्षण सेट और सत्यापन सेट का चयन कर सकते हैं और तदनुसार उन्हें कॉन्फ़िगर कर सकते हैं।

अंत में परिणामी सुव्यवस्थित मॉडल का मूल्यांकन करें ताकि आप देख सकें कि आपके द्वारा शुरू किए गए बेस मॉडल की तुलना में इसमें कितना सुधार हुआ है। स्कोरर फ़ंक्शन केवल मॉडल का आउटपुट और सही उत्तर लेना है, उनकी तुलना करना है, और 0 और 1. के बीच एक स्कोर लौटाना है। 0 का मतलब है कि मॉडल को बिल्कुल भी सही उत्तर नहीं मिला है, और 1 का मतलब है कि मॉडल को सही उत्तर मिला है।

एलार्ड ने कहा कि गहन फाइन-ट्यूनिंग को चलने में घंटों से लेकर कई दिनों तक का समय लग सकता है, इसलिए उन्होंने उसी डेटा सेट पर पिछले रन के परिणाम दिखाए। मॉडल बताता है कि सबसे संभावित उम्मीदवार जीन भी TSC2 है, और सही उत्तर वास्तव में वही है। इसलिए, मॉडल टॉपैट1, टॉपैट5 और टॉपैटमैक्स को पार कर सकता है।

इसके अलावा, फाइन-ट्यूनिंग प्रक्रिया के दौरान, आप मॉडल प्रदर्शन संकेतकों के बदलते रुझानों को भी देख सकते हैं:

परीक्षण के दौरान, ओपनएआई ने तीन अलग-अलग मॉडलों के संचालन की स्थापना की: पहला कल जारी किए गए ओ1 मॉडल के लिए था, दूसरा ओ1मिनी के लिए था, और आखिरी उन्नत और परिष्कृत ओ1मिनी था। जैसा कि देखा जा सकता है, ओ1मिनी ने लगभग 200 डेटासेट पर 17% का स्कोर हासिल किया, ओ1 ने बेहतर प्रदर्शन किया और 25% हासिल किया, और फाइन-ट्यून किए गए ओ1मिनी ने 31% का स्कोर हासिल किया।

निष्कर्ष

OpenAI का 12-दिवसीय कार्यक्रम सप्ताहांत के लिए निलंबित कर दिया गया है। हर घोषणा ब्लॉकबस्टर नहीं होगी, और OpenAI ने स्वयं कहा है कि आप "बड़ी और छोटी" नई चीजों की उम्मीद कर सकते हैं।

निम्नलिखित एक सूची है कि विदेशी मीडिया अगले सप्ताह के कार्यक्रम में क्या देख सकता है (कुछ आश्चर्य होंगे): सोरा-एआई वीडियो पीढ़ी, कैनवस अपडेट (छवियां शामिल हो सकती हैं), जीपीटी-4ओ वीडियो विश्लेषण, जीपीटी-4ओ छवि पीढ़ी, उन्नत आवाज और वीडियो, आदि।

ट्विटर पर नेटिज़न्स के साथ अल्ट्रामैन की बातचीत से ऐसा लगता है कि अगले 10 लाइव प्रसारण सोरा के नवीनतम विकास की रिपोर्ट करेंगे।