Google ने हाल ही में Gemma 4 12B संस्करण मल्टी-मोडल मॉडल जारी और ओपन सोर्स किया है। इस मॉडल का विकास लक्ष्य उपभोक्ता-श्रेणी के उपकरणों को स्थानीय स्तर पर एआई मॉडल चलाने की अनुमति देना है। Google के परीक्षणों के अनुसार, मॉडल 12B के छोटे पैमाने के मापदंडों के कारण 16GB मेमोरी/वीडियो मेमोरी के साथ लैपटॉप और डेस्कटॉप पर चल सकता है, लेकिन मॉडल जेम्मा 26B संस्करण मॉडल जितना ही बुद्धिमान है।

मॉडल के फायदों में शामिल हैं:
नया एकीकृत आर्किटेक्चर: मल्टी-मॉडल एनकोडर की कोई आवश्यकता नहीं, टेक्स्ट, छवि, वीडियो और ऑडियो इनपुट के लिए सीधा समर्थन।
उन्नत अनुमान क्षमताएं: बेंचमार्क प्रदर्शन जेम्मा संस्करण 26बी हाइब्रिड विशेषज्ञ आर्किटेक्चर मॉडल के करीब है, जो स्थानीय स्तर पर बहु-चरणीय अनुमान प्रदान कर सकता है।
कम मेमोरी आवश्यकताएँ: स्थानीय रूप से चलाने के लिए केवल 16GB मेमोरी या वीडियो मेमोरी की आवश्यकता होती है, हालाँकि अधिक मेमोरी बेहतर प्रदर्शन प्रदान करेगी।
मॉडल ओपन सोर्स रिलीज़: मॉडल अपाचे 2.0 लाइसेंस के तहत जारी किया गया है, और Google और समुदाय पूर्ण डेवलपर पारिस्थितिकी तंत्र समर्थन भी प्रदान करते हैं।
पूर्वानुमानित चयनकर्ता: जेम्मा 4 12बी संस्करण विभिन्न प्रकार के टोकन पूर्वानुमान चयनकर्ताओं से सुसज्जित है, जो प्रभावी रूप से देरी को कम कर सकता है।
मॉडल के बारे में अधिक जानकारी:
एनोटेशन बेंचमार्क परीक्षण में जेम्मा 4 12बी की बुद्धिमत्ता 26बी एमओई हाइब्रिड आर्किटेक्चर मॉडल के करीब है जिसे पहले Google द्वारा ओपन सोर्स के रूप में जारी किया गया था। हालाँकि, 12बी संस्करण में बहुत कम मेमोरी आवश्यकताएं हैं और इसे 16 जीबी मेमोरी या वीडियो मेमोरी से लैस उपभोक्ता-ग्रेड लैपटॉप और डेस्कटॉप पर सीधे चलाया जा सकता है, जिससे उपयोगकर्ताओं को स्थानीय स्तर पर शक्तिशाली मल्टी-मोडल और बुद्धिमान इंटरैक्शन अनुभव का अनुभव मिल सकता है।
इस मॉडल के उत्कृष्ट लाभों में छवि, वीडियो और ऑडियो इनपुट के प्रसंस्करण को सरल बनाना भी शामिल है। पारंपरिक मल्टी-मोडल मॉडल आमतौर पर छवियों और ऑडियो को परिवर्तित करने के लिए स्वतंत्र एनकोडर पर भरोसा करते हैं, और फिर परिवर्तित प्रतिनिधित्व को भाषा मॉडल में पास करते हैं। चूंकि ये अलग एनकोडर विलंबता और मेमोरी उपयोग को बढ़ाएंगे, Google जेम्मा 4 12बी मॉडल को प्रशिक्षित करने के लिए एक एनकोडर-रहित आर्किटेक्चर का उपयोग करता है, ताकि मॉडल सीधे ऑडियो और विज़ुअल इनपुट को एकीकृत कर सके।
विज़न: जेम्मा 4 विज़ुअल एनकोडर को बदलने के लिए एक हल्के एम्बेडिंग मॉड्यूल का उपयोग करें। इस मॉड्यूल में केवल 1 मैट्रिक्स गुणन, स्थिति एम्बेडिंग और सामान्यीकरण ऑपरेशन शामिल हैं, जो मॉडल बैकबोन नेटवर्क को सीधे दृश्य प्रसंस्करण को संभालने की अनुमति देता है।
ऑडियो: Google ने ऑडियो एनकोडर को पूरी तरह से हटा दिया, कच्चे ऑडियो सिग्नल को टेक्स्ट मार्कअप के समान आयामी स्थान में प्रक्षेपित किया।
कोशिश करें और मॉडल डाउनलोड करें:
वर्तमान में, Gemma 4 12B संस्करण कई प्लेटफार्मों पर उपलब्ध कराया गया है। इच्छुक डेवलपर्स इसे सीधे ओलामा आदि में अनुभव कर सकते हैं, या मॉडल वेट फ़ाइल डाउनलोड करने के लिए हगिंगफेस या कागल पर जा सकते हैं। डेवलपर्स अपनी ज़रूरत के संस्करण को अनुकूलित करने के लिए कुशल फाइन-ट्यूनिंग के लिए अनस्लोथ का भी उपयोग कर सकते हैं।
ओलामा: https://ollama.com/library/gemma4
हगिंगफेस: https://huggingface.co/collections/google/gemma-4
अनस्लोथ: https://unsloth.ai/docs/models/gemma-4