Google को Gemini_5iter.com जारी करके OpenAI के बराबर पहुंचने की उम्मीद है

जब मौजूदा एआई क्रेज के पीछे की तकनीक की बात आती है, तो अल्फाबेट का Google वास्तव में आविष्कारक है, लेकिन इसके उत्पादों की लोकप्रियता में काफी कमी आई है। Google को उम्मीद है कि जेमिनी की बहुप्रतीक्षित रिलीज़ के साथ, यह कंपनी द्वारा अब तक बनाया गया "सबसे बड़ा और सबसे शक्तिशाली कर्मचारी खुफिया मॉडल" बदल जाएगा।

पिछले साल अपने कन्वर्सेशनल चैटबॉट चैटजीपीटी के साथ ओपनएआई की बड़ी सफलता के बाद से, बड़ी संख्या में कंपनियां जेनरेटिव एआई के साथ प्रयोग कर रही हैं, एक ऐसी तकनीक जो उपयोगकर्ता के अनुरोधों के आधार पर कोडिंग, रिपोर्ट सारांशित करने या मार्केटिंग अभियान बनाने जैसे कार्यों को स्वचालित कर सकती है। 6 दिसंबर को उत्पाद के लॉन्च से पहले एक प्रस्तुति में, Google ने इस बात पर जोर दिया कि जेमिनी अब तक का सबसे लचीला मॉडल है, क्योंकि यह विभिन्न आकारों के संस्करणों में आता है, जिसमें एक ऐसा संस्करण भी शामिल है जिसे सीधे स्मार्टफोन पर निष्पादित किया जा सकता है। यह इसे अन्य प्रतिस्पर्धियों से अलग करता है।

यह कृत्रिम बुद्धिमत्ता मॉडल एक प्रणाली है जिसका उपयोग विभिन्न जनरेटिव कृत्रिम बुद्धिमत्ता अनुप्रयोगों का समर्थन करने के लिए किया जाता है। यह तीन अलग-अलग संस्करणों में आता है: जेमिनीअल्ट्रा, जेमिनीप्रो और जेमिनीनैनो। Google के डीपमाइंड डिवीजन में उत्पाद के उपाध्यक्ष एली कोलिन्स ने कहा कि इस विविधता का मतलब है कि जेमिनी "मोबाइल उपकरणों से लेकर बड़े डेटा केंद्रों तक हर चीज पर अमल कर सकता है।"

कोलिन्स ने एक फोन साक्षात्कार में कहा, "हम लंबे समय से कृत्रिम बुद्धिमत्ता मॉडल की एक नई पीढ़ी का निर्माण करना चाहते थे, जो लोगों के दुनिया को समझने और उसके साथ बातचीत करने के तरीके से प्रेरित हो - जो सॉफ्टवेयर के एक बुद्धिमान टुकड़े की तुलना में एक सहायक सहयोगी की तरह अधिक महसूस हो।" "मिथुन राशि हमें उस दृष्टिकोण के एक कदम और करीब लाती है।"

मॉडल के जारी होने से पहले, कंपनी ने मानक उद्योग बेंचमार्क की एक श्रृंखला पर जेमिनी का परीक्षण किया और कहा कि जेमिनी प्रो ने आठ में से छह परीक्षणों में ओपनएआई के जीपीटी-3.5 से बेहतर प्रदर्शन किया। Google ने कहा कि सामान्य भाषा समझ, तर्क, गणित और कोडिंग के लिए आठ में से सात बेंचमार्क में जेमिनी ने OpenAI के सामान्य-उद्देश्य मॉडल के नवीनतम संस्करण GPT-4 से बेहतर प्रदर्शन किया। इस बीच, Google का अनुमान है कि उसका नवीनतम जेनरेटिव AI उत्पाद, AlphaCode2, जो प्रोग्राम कोड की व्याख्या और निर्माण करता है, प्रतिस्पर्धी प्रोग्रामिंग में अपने 85% प्रतिस्पर्धियों से बेहतर प्रदर्शन करता है। कंपनी जेमिनी के मॉडल आर्किटेक्चर, प्रशिक्षण प्रक्रिया और मूल्यांकन को अधिक गहराई से समझाते हुए एक तकनीकी रिपोर्ट जारी करेगी।

6 दिसंबर से, एंड्रॉइड डेवलपर्स जो स्मार्टफोन और टैबलेट के लिए जेमिनी-संचालित ऐप लिखना चाहते हैं, वे इस एआई मॉडल के "नैनो" संस्करण का उपयोग करने के लिए पंजीकरण कर सकेंगे जो सीधे ऐसे उपकरणों पर निष्पादित हो सकता है। Google ने यह भी कहा कि वह तुरंत अपने फ्लैगशिप फोन Pixel 8 Pro पर जेमिनी को सक्षम करेगा, जो नए जेनरेटिव AI फीचर्स को सपोर्ट करेगा, जैसे फोन रिकॉर्डिंग से मुख्य बिंदुओं को सारांशित करना। अगले सप्ताह, Google अपने VertexAI और AIStudio प्लेटफॉर्म के माध्यम से जेमिनीप्रो को क्लाउड ग्राहकों के लिए उपलब्ध कराएगा।

जेमिनी अल्ट्रा, Google के कृत्रिम बुद्धिमत्ता मॉडल का सबसे बड़ा संस्करण, शुरुआत में डेवलपर्स और एंटरप्राइज़ कंपनियों के लिए अर्ली एक्सेस प्रोग्राम में उपलब्ध होगा, कार्यक्रम के बारे में विवरण अगले सप्ताह घोषित किया जाएगा। इस संस्करण को अगले साल की शुरुआत में व्यापक रूप से जनता के लिए पेश किया जाएगा।

जेमिनी कंपनी के संवादात्मक चैटबॉट और चैटजीपीटी के प्रतिस्पर्धी बार्ड के माध्यम से बड़ी संख्या में Google के ऐप्स और सेवाओं के साथ भी एकीकृत होता है। इससे पहले, बार्ड ने Google के PaLM2 मॉडल का उपयोग किया था, एक बड़े पैमाने का भाषा मॉडल जिसे कंपनी ने मई में अपने वार्षिक डेवलपर सम्मेलन में घोषित किया था।

Google पर पिछले एक साल से अपने मुख्य खोज व्यवसाय को फिर से शुरू करने और जनरेटिव कृत्रिम बुद्धिमत्ता कार्यक्रमों के उदय से जूझने का दबाव रहा है। हालाँकि कंपनी को लंबे समय से कृत्रिम बुद्धिमत्ता अनुसंधान में अग्रणी माना जाता है, लेकिन कुछ लोगों ने एआई उत्पादों के विपणन में धीमी गति के लिए इसके प्रबंधन की आलोचना की है, खासकर चैटजीपीटी और छवि जनरेटर डैल-ई जैसे उत्पादों की सफलता के बाद। मार्च में OpenAI द्वारा GPT-4 जारी करने के बाद से, Google इस क्षेत्र में अपने नेतृत्व की पुष्टि करने के लिए काम कर रहा है, जिसमें अपने परिपक्व खोज व्यवसाय में नई तकनीक को शामिल करना भी शामिल है।

जेमिनी इस बाज़ार दबाव का कंपनी का जवाब है। Google का कहना है कि AI मॉडल "स्वाभाविक रूप से मल्टीमॉडल" है, जिसका अर्थ है कि यह उपयोगकर्ताओं द्वारा दिए गए टेक्स्ट- और छवि-आधारित संकेतों को संभालने के लिए शुरू से ही पूर्व-प्रशिक्षित है। उदाहरण के लिए, एक वीडियो प्रदर्शन में, Google ने दिखाया कि माता-पिता एक निश्चित गणित समस्या की छवि और स्क्रैच पेपर पर समस्या को हल करने के चरणों की तस्वीरें अपलोड करके अपने बच्चों को होमवर्क पूरा करने में मदद कर सकते हैं।

डेमो वीडियो में, Google के एक सॉफ्टवेयर इंजीनियर, Applebaum ने कहा: "मिथुन न केवल इन प्रश्नों को हल कर सकता है, बल्कि यह उत्तर भी पढ़ सकता है और समझ सकता है कि कौन सा सही है और कौन सा गलत है, और उन अवधारणाओं को समझा सकता है जिन्हें और स्पष्टीकरण की आवश्यकता है।" कंपनी ने यह भी कहा कि उसका "सर्च जेनरेटिव एक्सपीरियंस" - Google द्वारा अपनी जेनरेटिव आर्टिफिशियल इंटेलिजेंस तकनीक का उपयोग करके निर्मित सर्च इंजन का एक प्रायोगिक संस्करण - अगले साल जेमिनी की नई सुविधाओं में एकीकृत किया जाएगा।

फिर भी, कंपनी के प्रतिनिधियों ने चेतावनी दी कि जेमिनी अभी भी "मतिभ्रम" या जेनरेटिव एआई द्वारा उत्पादित झूठी या मनगढ़ंत जानकारी से ग्रस्त है। कोलिन्स इस घटना को "एक अनसुलझा शोध प्रश्न" कहते हैं। कंपनी ने पत्रकारों को जो डेमो वीडियो दिखाया, वह पहले से रिकॉर्ड किया गया था।

कोलिन्स ने कहा कि जेमिनी के पास "Google में किसी भी AI मॉडल का सबसे व्यापक सुरक्षा मूल्यांकन है।" उन्होंने कहा, जेमिनी की सुरक्षा का आकलन करने के लिए, Google ने AI मॉडल का प्रतिकूल परीक्षण किया, जो प्रोग्राम का फायदा उठाने की कोशिश करने वाले एक बुरे अभिनेता की नकल करता है और संकेत देता है, उन्होंने कहा। परीक्षण में "रियल टॉक्सिसिटी प्रॉम्प्ट्स" शामिल है, जो एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस द्वारा विकसित एक परीक्षण है, जिसमें एआई शोधकर्ताओं को घृणास्पद भाषण और राजनीतिक पूर्वाग्रह के लिए बड़े भाषा मॉडल की जांच करने में मदद करने के लिए वेब से खींचे गए 100,000 से अधिक संकेत शामिल हैं।

Google ने इस बात पर भी जोर दिया कि टूल तेज़ होगा। कंपनी ने कहा कि जेमिनी एक नए अंतर्निहित सुपरकंप्यूटर आर्किटेक्चर और नए प्रोसेसिंग चिप्स का उपयोग करता है, जो इसे पहले के छोटे मॉडलों की तुलना में तेज़ प्रदर्शन करने की अनुमति देता है। Google अपने क्लाउड चिप के एक नए संस्करण, क्लाउड टेन्सर प्रोसेसिंग यूनिट्स (संक्षेप में TPUs) का उपयोग कर रहा है, एक आंतरिक रूप से डिज़ाइन की गई चिप जो मौजूदा मॉडलों को अपने पूर्ववर्ती की तुलना में 2.8 गुना तेजी से प्रशिक्षित कर सकती है। Google के मशीन लर्निंग के उपाध्यक्ष अमीन वाहदत ने कहा कि यह दृष्टिकोण Google को "भविष्य के मानक AI बुनियादी ढांचे पर एक नया रूप" देता है। उन्होंने कहा कि कंपनी अभी भी अपने जेमिनी मॉडल को निष्पादित करने के लिए तीसरे पक्ष के एआई चिप्स का उपयोग करेगी।

जेमिनी को मार्च में लॉन्च किए गए Google के जेनरेटिव AI चैटबॉट बार्ड में एकीकृत किया जाएगा, जिससे उसे जीमेल, मैप्स, डॉक्स और यूट्यूब सहित कंपनी की सबसे लोकप्रिय सेवाओं तक पहुंच मिलेगी। रोलआउट दो अलग-अलग चरणों में होगा: 6 दिसंबर से शुरू होकर, बार्ड जेमिनीप्रो द्वारा संचालित होगा, जो उच्च-स्तरीय तर्क, योजना, समझ और अन्य क्षमताओं को सक्षम करेगा। इसे 170 देशों और क्षेत्रों में अंग्रेजी में निष्पादित किया जा सकेगा, लेकिन विशेष रूप से यूरोप या यूके में नहीं, जहां कंपनी ने कहा कि वह स्थानीय नियामकों के साथ परामर्श कर रही है।

अगले साल की शुरुआत में, कंपनी बार्डएडवांस्ड को रिलीज़ करने की योजना बना रही है, जो अधिक शक्तिशाली जेमिनी अल्ट्रा मॉडल द्वारा संचालित होगा। Google का कहना है कि वह जल्द ही जनता के लिए व्यापक रोलआउट से पहले BardAdvanced को बेहतर बनाने के लिए एक विश्वसनीय बीटा प्रोग्राम लॉन्च करेगा। Google के बार्ड उत्पादों के उपाध्यक्ष सिसी हसियाओ ने कहा, "मिथुन के आशीर्वाद से, बार्ड अब तक के अपने सबसे बड़े और सर्वश्रेष्ठ अपग्रेड से गुजर रहा है, जो लोगों के लिए निर्माण, बातचीत और सहयोग के नए रास्ते खोलेगा।"