जब बड़े भाषा मॉडल (एलएलएम) की बात आती है, तो पैमाना निश्चित रूप से मायने रखता है क्योंकि यह मॉडल को चलाने के स्थान को प्रभावित करता है। StabilityAI, एक निर्माता जो अपनी स्थिर प्रसार टेक्स्ट-टू-इमेज पीढ़ी कृत्रिम बुद्धिमत्ता तकनीक के लिए जाना जाता है, ने आज अपने अब तक के सबसे छोटे मॉडल में से एक - StableLM21.6B जारी किया है।
स्टेबलएलएम एक टेक्स्ट कंटेंट जेनरेशन एलएलएम है जिसे स्टेबल एआई ने पहली बार अप्रैल 2023 में 3 बिलियन और 7 बिलियन पैरामीटर मॉडल के साथ लॉन्च किया था। नया StableLM मॉडल वास्तव में StabilityAI द्वारा 2024 में जारी किया गया दूसरा मॉडल है, कंपनी द्वारा इस सप्ताह की शुरुआत में StableCode3B जारी करने के बाद।
नया स्टेबलएलएम मॉडल कॉम्पैक्ट और शक्तिशाली है, जिसे जेनेरिक एआई इकोसिस्टम में भाग लेने के लिए अधिक डेवलपर्स के लिए प्रवेश की बाधा को कम करने और सात भाषाओं में बहुभाषी डेटा को शामिल करने के लिए डिज़ाइन किया गया है: अंग्रेजी, स्पेनिश, जर्मन, इतालवी, फ्रेंच, पुर्तगाली और डच। यह मॉडल स्टैबिलिटीएआई द्वारा वांछित गति और प्रदर्शन का सर्वोत्तम संतुलन प्राप्त करने के लिए भाषा मॉडलिंग में नवीनतम एल्गोरिदमिक प्रगति का लाभ उठाता है।
स्टेबिलिटीएआई में भाषा टीम के प्रमुख कार्लोस रिकेल्मे ने वेंचरबीट को बताया: "सामान्य तौर पर, समान डेटा पर समान प्रशिक्षण व्यंजनों के साथ प्रशिक्षित बड़े मॉडल छोटे मॉडल की तुलना में बेहतर प्रदर्शन करते हैं। हालांकि, समय के साथ, चूंकि नए मॉडल बेहतर एल्गोरिदम लागू करने और अधिक और उच्च गुणवत्ता वाले डेटा पर प्रशिक्षित करने में सक्षम होते हैं, हम कभी-कभी हाल के छोटे मॉडल को पुराने बड़े मॉडल से बेहतर प्रदर्शन करते देखते हैं।"
StabilityAI के अनुसार, यह मॉडल अधिकांश बेंचमार्क पर 2 बिलियन से कम पैरामीटर वाले अन्य छोटे भाषा मॉडल से बेहतर प्रदर्शन करता है, जिसमें Microsoft का Phi-2 (2.7 बिलियन), TinyLlama1.1B और Falcon1B शामिल हैं। नया, छोटा StableLM कुछ बड़े मॉडलों से भी बेहतर प्रदर्शन करने में सक्षम है, जिसमें StabilityAI का पिछला StableLM3B मॉडल भी शामिल है।
रिकेल्मे ने कहा: "स्टेबलएलएम21.6बी। कुछ महीने पहले प्रशिक्षित कुछ बड़े मॉडलों की तुलना में बेहतर प्रदर्शन करता है। कंप्यूटर, टेलीविजन या माइक्रोचिप्स में समान रुझानों पर विचार करें, जहां वे समय के साथ छोटे, पतले और बेहतर हो जाते हैं।"
स्पष्ट होने के लिए, छोटे StableLM21.6B में इसके छोटे आकार के कारण कुछ नुकसान हैं। छोटे, कम क्षमता वाले भाषा मॉडल की प्रकृति के कारण, StableLM21.6B कुछ सामान्य समस्याएं भी प्रदर्शित कर सकता है, जैसे उच्च मतिभ्रम दर या संभावित विषाक्त भाषा।
पिछले कुछ महीनों में, स्टेबिलिटीएआई छोटे और अधिक शक्तिशाली एलएलएम विकल्पों पर काम कर रहा है। दिसंबर 2023 में, StableLMZephyr3B मॉडल जारी किया गया था, जो आकार में छोटा है लेकिन अप्रैल में जारी शुरुआती मॉडल की तुलना में अधिक शक्तिशाली है।
नए StableLM2 मॉडल को अधिक डेटा पर प्रशिक्षित किया गया है, जिसमें अंग्रेजी के अलावा 6 भाषाओं (स्पेनिश, जर्मन, इतालवी, फ्रेंच, पुर्तगाली और डच) में बहुभाषी दस्तावेज़ शामिल हैं। रिकेल्मे द्वारा उजागर किया गया एक और दिलचस्प पहलू वह क्रम है जिसमें प्रशिक्षण के दौरान मॉडल को डेटा प्रस्तुत किया जाता है। वह बताते हैं कि प्रशिक्षण के विभिन्न चरणों में विभिन्न प्रकार के डेटा पर ध्यान केंद्रित करना फायदेमंद हो सकता है।
चीजों को एक कदम आगे ले जाते हुए, स्टेबिलिटीएआई प्रीट्रेनिंग और फाइन-ट्यूनिंग विकल्पों के साथ नए मॉडल पेश कर रहा है, साथ ही एक प्रारूप जिसे शोधकर्ता "...प्रीट्रेनिंग कोल्डाउन से पहले अंतिम मॉडल चेकपॉइंट" कहते हैं।
"हमारा लक्ष्य व्यक्तिगत डेवलपर्स को मौजूदा मॉडलों पर नवाचार, अनुकूलन और निर्माण करने के लिए अधिक उपकरण और कलाकृतियां प्रदान करना है। यहां, हम लोगों के उपयोग के लिए एक ठोस, अर्ध-तैयार मॉडल प्रदान करते हैं," रिकेल्मे ने कहा।
प्रशिक्षण प्रक्रिया के दौरान, मॉडल को क्रमिक रूप से अद्यतन किया जाता है और इसके प्रदर्शन में सुधार होता है। इस मामले में, पहला मॉडल कुछ भी नहीं जानता है, जबकि अंतिम मॉडल ने अधिकांश डेटा का उपभोग कर लिया है और इसे सीखने की उम्मीद है। साथ ही, प्रशिक्षण के अंत में मॉडल कम लचीले हो सकते हैं क्योंकि उन्हें सीखना समाप्त करने के लिए मजबूर किया जाता है।
उन्होंने कहा, "हमने प्रशिक्षण के अंतिम चरण को शुरू करने से पहले मॉडल को उसके मौजूदा स्वरूप में उपलब्ध कराने का फैसला किया है, ताकि - उम्मीद है - इसे अन्य कार्यों या डेटासेट के लिए विशेषज्ञ बनाना आसान होगा, जिनका लोग उपयोग करना चाहते हैं।" "हमें यकीन नहीं है कि यह अच्छी तरह से काम करेगा, लेकिन हम वास्तव में अद्भुत तरीकों से नए टूल और मॉडल का लाभ उठाने की लोगों की क्षमता में विश्वास करते हैं।"