मल्टी-मॉडल बड़े मॉडलों के युद्धक्षेत्र में, कुछ लोगों को पहले ही इसकी भनक लग चुकी है। विदेशी मीडिया रिपोर्ट्स के मुताबिक ओपनएआई का नया मल्टी-मॉडल मॉडल गोबी तैयारी में लगता है। Google और OpenAI के बीच टकराव आसन्न प्रतीत होता है। जैसे-जैसे यह गिरावट नजदीक आ रही है, Google और OpenAI के बीच मल्टी-मॉडल मॉडल लड़ाई भी एक भयंकर चरण में प्रवेश कर गई है।
पिछले हफ्ते ही, Google ने अपने मल्टी-मॉडल बड़े मॉडल जेमिनी की क्षमताओं को कुछ बाहरी कंपनियों के लिए खोल दिया।
और OpenAI, निश्चित रूप से, शांत नहीं बैठेगा और मृत्यु की प्रतीक्षा करेगा। वे GPT-4 में मल्टी-मोडल फ़ंक्शंस को एकीकृत करने के लिए समय के साथ प्रतिस्पर्धा कर रहे हैं, जेमिनी के समान फ़ंक्शंस के साथ एक बड़े मल्टी-मोडल मॉडल को लॉन्च करने का प्रयास कर रहे हैं, और एक ही झटके में Google को खत्म कर देंगे।
इस वर्ष मार्च में दुनिया को चौंका देने वाले OpenAI के GPT-4 सम्मेलन में प्रसिद्ध मल्टी-मोडल फ़ंक्शन का प्रदर्शन किया गया है——
कागज पर एक स्केच बनाएं, एक फोटो लें और इसे GPT-4 पर भेजें, और कहें "मुझे इस लेआउट के साथ एक वेबसाइट बनाएं", और यह तुरंत वेब पेज कोड लिख देगा।
बॉस ग्रेग ब्रॉकमैन ने व्यक्तिगत रूप से ऑनलाइन प्रदर्शन किया
लेकिन फिर, मल्टीमॉडैलिटी पैन में एक फ्लैश की तरह लग रही थी, और किसी ने भी कभी भी एक उत्पादीकृत भौतिक कार्य नहीं देखा है।
तो, क्या Google और OpenAI के बीच बहु-मोडल युद्ध अंततः आ रहा है?
Google के विरुद्ध लड़ते हुए, OpenAI बड़े मल्टी-मॉडल मॉडल जारी करने के लिए तत्पर है
अफवाहों का सामना करते हुए कि Google अपने ही इस बड़े हत्यारे को मारने जा रहा है, OpenAI निश्चित रूप से उदासीन नहीं रहेगा।
विदेशी मीडिया द इंफॉर्मेशन के अनुसार, गोबी नामक एक नया मल्टी-मॉडल बड़ा मॉडल पहले से ही गहन तैयारी के अधीन है।
OpenAI ने Google को पूरी तरह से पछाड़ते हुए, जेमिनी की रिलीज़ से पहले मल्टी-मॉडल LLM लॉन्च करने की योजना बनाई है।
ओपनएआई के ग्रेग ब्रॉकमैन बनाम गूगल के डेमिस हसाबिस
दरअसल, मार्च में GPT-4 मल्टी-मॉडल फीचर का प्रीव्यू लॉन्च करने के बाद OpenAI ने इस फीचर को BeMyEyes नाम की कंपनी के लिए लॉन्च किया है, लेकिन अन्य कंपनियों को इसे उपलब्ध नहीं कराया है।
जैसा कि आप नाम से बता सकते हैं, यह कंपनी ऐसी तकनीक विकसित कर रही है जो नेत्रहीन या दृष्टिबाधित लोगों को अधिक स्पष्ट रूप से देखने की अनुमति देती है।
हाल ही में, OpenAI ने GPT-Vision नामक एक सुविधा को अधिक व्यापक रूप से शुरू करने की योजना बनाई है।
OpenAI को इतना समय क्यों लगा?
मुख्य कारण यह है कि वे चिंतित हैं कि नए दृश्य कार्यों का उपयोग अपराधियों द्वारा किया जाएगा, जैसे स्वचालित रूप से सत्यापन कोड को क्रैक करके मनुष्यों का प्रतिरूपण करना, या चेहरे की पहचान के माध्यम से मनुष्यों को ट्रैक करना।
हालाँकि, ऐसा प्रतीत होता है कि OpenAI इंजीनियरों ने इन कानूनी सुरक्षा जोखिमों का समाधान कर लिया है।
इसी तरह, Google के एक प्रवक्ता ने भी कहा: Google ने मिथुन को दुर्व्यवहार से बचाने के लिए कुछ उपाय किए हैं।
जुलाई में की गई प्रतिज्ञा में, Google ने अपने सभी उत्पादों में जिम्मेदार कृत्रिम बुद्धिमत्ता विकसित करने का संकल्प लिया।
क्या गोबी GPT-5 बन सकता है?
जीपीटी-विज़न के बाद, ओपनएआई एक अधिक शक्तिशाली मल्टी-मॉडल बड़े मॉडल को लॉन्च करने की संभावना है, जिसका कोडनेम गोबी है।
GPT-4 के विपरीत, गोबी शुरू से ही मल्टी-मॉडल मॉडल पर बनाया गया है।
तो, क्या गोबी प्रसिद्ध GPT-5 है?
अभी, हम नहीं जानते. गोबी ट्रेनिंग में कहां तक पहुंचा है, इसकी कोई पक्की जानकारी नहीं है.
सितंबर की शुरुआत में, डीपमाइंड के सह-संस्थापक और अब इन्फ्लेक्शनएआई के सीईओ मुस्तफा सुलेमान ने एक साक्षात्कार में एक बम जारी किया - उन्होंने अनुमान लगाया कि ओपनएआई गुप्त रूप से जीपीटी -5 का प्रशिक्षण दे रहा था।
सुलेमान का मानना है कि सैम ऑल्टमैन सच नहीं बोल रहे होंगे जब उन्होंने हाल ही में कहा था कि उन्होंने जीपीटी-5 को प्रशिक्षित नहीं किया है। (मूल शब्द हैं: कमऑन। मुझे नहीं पता। मुझे लगता है कि यह बेहतर है कि हम सब इसके बारे में सीधे रहें।)
यहां, जिन लोगों ने जेमिनी को आज़माया है, उनके अनुसार जेमिनी मौजूदा मॉडलों की तुलना में कम मतिभ्रम पैदा करेगा। कारणों का विवरण नीचे दिया गया है।
संक्षेप में, Google और OpenAI के बीच मल्टी-मॉडल मॉडल युद्ध को iPhone और Android शोडाउन का AI संस्करण कहा जा सकता है।
एक सिलिकॉन वैली की दिग्गज कंपनी है जिसने कई वर्षों तक एआई क्षेत्र पर अपना दबदबा कायम रखा है, और दूसरी एक शीर्ष पायदान की एआई स्टार्ट-अप कंपनी है जिसका सुर्खियों में कोई सानी नहीं है। दोनों के बीच कितना बड़ा फासला है इसका हर कोई बेसब्री से इंतजार कर रहा है.
Google गुप्त रूप से जेमिनी का परीक्षण करता है
दूसरी ओर, Google ने आगामी अगली पीढ़ी के मल्टी-मॉडल बड़े मॉडल जेमिनी के परीक्षण में तेजी लाने के लिए कुछ बाहरी डेवलपर्स को आमंत्रित करना भी शुरू कर दिया है।
पिछले हफ्ते, सूचना ने विशेष रूप से बताया कि जेमिनी जल्द ही एक परीक्षण रिलीज के लिए तैयार हो सकता है और इसे Google क्लाउड वर्टेक्स एआई जैसी सेवाओं में एकीकृत किया जाएगा।
इस वर्ष के Google I/O डेवलपर सम्मेलन में, पिचाई ने सार्वजनिक रूप से जेमिनी पेश किया, जो एक मल्टी-मॉडल मॉडल, कुशल एकीकरण उपकरण और एपीआई है।
बड़े काम करने के लिए मिलकर काम करने के लिए, Google ने Google Brain को DeepMind Labs के साथ विलय भी कर दिया।
ऐसा कहा जाता है कि डीपमाइंड के संस्थापक डेमिस हसाबिस और गूगल के संस्थापक सर्गेई ब्रिन के नेतृत्व में कम से कम 20 से अधिक अधिकारियों ने जेमिनी के अनुसंधान और विकास में भाग लिया।
Google DeepMind में भी सैकड़ों कर्मचारी हैं, जिनमें Google ब्रेन के पूर्व निदेशक जेफ डीन और अन्य शामिल हैं।
इसका परीक्षण करने वाले एक व्यक्ति ने कहा कि जेमिनी को कम से कम एक तरीके से जीपीटी-4 पर बढ़त हासिल है: वेब पर सार्वजनिक रूप से उपलब्ध जानकारी के अलावा, मॉडल Google के उपभोक्ता उत्पादों (खोज, यूट्यूब) से बड़ी मात्रा में मालिकाना डेटा का भी लाभ उठाता है।
इसलिए, मिथुन को किसी विशिष्ट प्रश्न के लिए उपयोगकर्ता के इरादे को समझने में विशेष रूप से सटीक होना चाहिए, और ऐसा प्रतीत होता है कि वह कम गलत उत्तर देता है, यानी मतिभ्रम।
सेमीएनालिसिस विश्लेषकों की पिछली रिपोर्टों के अनुसार, Google के अगली पीढ़ी के बड़े मॉडल जेमिनी ने नए TPUv5Pod पर प्रशिक्षण शुरू कर दिया है, जिसकी कंप्यूटिंग शक्ति ~1e26FLOPS तक है, जो प्रशिक्षण GPT-4 की कंप्यूटिंग शक्ति से 5 गुना अधिक है।
इसके अलावा, जेमिनी के प्रशिक्षण डेटाबेस में यूट्यूब पर 93.6 बिलियन मिनट के वीडियो उपशीर्षक शामिल हैं, और कुल डेटा सेट का आकार GPT-4 से लगभग दोगुना है।
ऐसा कहा जाता है कि Google का अगली पीढ़ी का बड़ा मॉडल भी कई पैमानों से बना है और इसमें MoE आर्किटेक्चर और सट्टा नमूनाकरण तकनीक का उपयोग किया जा सकता है।
टोकन को छोटे मॉडल द्वारा पहले से तैयार किया जाता है और मॉडल की समग्र तर्क गति में सुधार के लिए मूल्यांकन के लिए बड़े मॉडल को पास किया जाता है।
Google DeepMind के प्रमुख हस्साबिस ने एक साक्षात्कार में कहा कि जेमिनी की लागत दसियों से करोड़ों डॉलर होने की उम्मीद है, जो GPT-4 को विकसित करने की लागत के बराबर है।
जेमिनी अल्फ़ागो में उपयोग की गई तकनीक को एकीकृत करेगा, जो सिस्टम को नई योजना और समस्या-समाधान क्षमता प्रदान करेगा।
यह कहा जा सकता है कि जेमिनी अल्फागो प्रणाली के कुछ फायदों को बड़े भाषा मॉडल की अद्भुत भाषा क्षमताओं के साथ जोड़ती है। और, हमारे पास कुछ अन्य दिलचस्प नवाचार हैं।
अल्फ़ागो के पीछे की तकनीक सुदृढीकरण सीखना है, जो डीपमाइंड द्वारा अग्रणी तकनीक है।
आरएल एजेंट समय के साथ पर्यावरण के साथ बातचीत करते हैं, परीक्षण और त्रुटि के माध्यम से नीतियों को सीखते हैं, जिससे दीर्घकालिक संचयी पुरस्कार अधिकतम होते हैं
सुदृढीकरण सीखने के माध्यम से, एआई परीक्षण और त्रुटि के माध्यम से अपने प्रदर्शन को समायोजित कर सकता है और प्रतिक्रिया प्राप्त कर सकता है, जिससे कठिन समस्याओं से निपटना सीख सकता है, जैसे कि गो या वीडियो गेम में अगला कदम कैसे उठाना है यह चुनना।
इसके अलावा, अल्फ़ागो बोर्ड पर सभी संभावित चालों का पता लगाने और याद रखने के लिए मोंटे कार्लो ट्री सर्च (एमसीटीएस) पद्धति का भी उपयोग करता है।
मौजूदा मॉडलों की तुलना में, जेमिनी सॉफ्टवेयर डेवलपर्स की कोड जनरेशन क्षमताओं में काफी सुधार करेगा, और Google को उम्मीद है कि वह इसका उपयोग माइक्रोसॉफ्ट के GitHubCopilot कोड असिस्टेंट के साथ बराबरी करने के लिए करेगा।
Google ने चार्ट विश्लेषण जैसे कार्यों को लागू करने के लिए जेमिनी का उपयोग करने पर भी चर्चा की है, जैसे कि मॉडल को पूर्ण चार्ट के अर्थ की व्याख्या करने के लिए कहना, और वेब ब्राउज़र या अन्य सॉफ़्टवेयर ब्राउज़ करने के लिए टेक्स्ट या वॉयस कमांड का उपयोग करना।
Google क्लाउड डेवलपर प्लेटफ़ॉर्म Google क्लाउड वर्टेक्स AI को भी जेमिनी द्वारा समर्थित किया जाएगा, जिसमें बड़े और छोटे दोनों संस्करण उपलब्ध होंगे, इसलिए डेवलपर्स व्यक्तिगत उपकरणों पर चलाने के लिए छोटे मॉडल खरीदने के लिए भुगतान कर सकते हैं।
अब, Google पूरी तरह से युद्ध की तैयारी कर रहा है, मिथुन के पलटवार शुरू करने की प्रतीक्षा कर रहा है।
जीपीटी-3.5-टर्बो-निर्देश जारी किया गया
जुलाई में, OpenAI ने घोषणा की कि GPT-4 API पूरी तरह से उपलब्ध है और अगले कुछ महीनों में नए मॉडल लॉन्च करेगा।
नहीं, आज ही, नेटिज़ेंस को पुराने मॉडल text-davinci-003 को बदलने के लिए gpt-3.5-टर्बो-इंस्ट्रक्ट के नए मॉडल को जारी करने वाले ईमेल प्राप्त हुए हैं।
रिपोर्ट्स के मुताबिक, gpt-3.5-turbo-instruct एक InstructGPT स्टाइल मॉडल है और इसकी ट्रेनिंग पद्धति text-davinci-003 के समान है।
उपयोग विधि पिछले प्रॉम्प्ट-कम्प्लीशन के समान है, और इसे प्रॉम्प्ट शब्द के निर्देशों के अनुसार पूरा किया जाता है।
कीमत के मामले में, gpt-3.5-turbo4K लगातार बना हुआ है।
कुछ नेटिज़न्स ने पहले ही लगभग 1800 एलो के साथ शतरंज खेलने के लिए नवीनतम मॉडल का उपयोग करना शुरू कर दिया है।
उन्होंने पहले पाया कि GPT ऐसा बिल्कुल नहीं कर सकता, लेकिन अब ऐसा लगता है कि यह केवल RLHF चैट मॉडल के साथ एक समस्या है, और शुद्ध समापन मॉडल सफल है।
गेम में, gpt-3.5-टर्बो-इंस्ट्रक्शन ने स्टॉकफिश लेवल 4 (1700 अंक) को आसानी से हरा दिया और फिर भी लेवल 5 (2000 अंक) में पीछे नहीं रहा।
यह कभी भी कोई गैरकानूनी कदम नहीं उठाता है, चतुर शुरुआती बलिदानों और अविश्वसनीय मोहरे और राजा चेकमेट का उपयोग करता है, जिससे अपने विरोधियों को बिना किसी वास्तविक अर्थ के आगे बढ़ने की अनुमति मिलती है।
नेटिज़न्स मास्टर गेम का अनुकरण करने के लिए निम्नलिखित पीजीएन शैली संकेतों का उपयोग करते हैं। हाइलाइटिंग थोड़ी गलत है. जीपीटी अपनी चाल स्वयं बनाता है, और वह स्टॉकफिश की चालों को मैन्युअल रूप से इनपुट करता है।
वैसे, नवंबर में होने वाली OpenAI की पहली डेवलपर कॉन्फ्रेंस के लिए रजिस्ट्रेशन शुरू हो चुका है, तो जल्दी करें और आवेदन करें।