चीनी कृत्रिम बुद्धिमत्ता स्टार्टअप डीपसीक ने सोमवार को चुपचाप एक नया मॉडल जारी किया। 685 बिलियन पैरामीटर वाले इस मॉडल को डीपसीक-V3-0324 कहा जाता है। इसे बिना किसी घोषणा के एआई रिपॉजिटरी हगिंगफेस पर लॉन्च किया गया था, लेकिन फिर भी इसने उद्योग में हलचल मचा दी।

इस मॉडल ने एमआईटी लाइसेंस प्राप्त किया है, जिसका अर्थ है कि इसे व्यावसायिक उद्देश्यों के लिए स्वतंत्र रूप से उपयोग किया जा सकता है, और उद्योग में शुरुआती परीक्षणों ने पुष्टि की है कि मॉडल सीधे उपभोक्ता-ग्रेड हार्डवेयर पर चल सकता है, जैसे कि हाई-एंड मार्केट ऐप्पल मैकस्टूडियो।

एआई शोधकर्ता अवनी हनुन ने कहा कि नया डीपसीक-वी3 मॉडल एम3 अल्ट्रा चिप से लैस एप्पल कंप्यूटर पर 20 टोकन प्रति सेकंड की गति से चल सकता है। यह कृत्रिम बुद्धिमत्ता मॉडल क्षमताओं और स्थानीयकृत संचालन के बीच संघर्ष पर उद्योग की पहले की सहमति को तोड़ता है, और इसका मतलब यह भी है कि डेटा केंद्र बड़े मॉडलों के लिए आवश्यक मेल नहीं हैं।

एक अन्य कृत्रिम बुद्धिमत्ता शोधकर्ता, ज़ीओफ़ोन ने एक्स पर दावा किया कि आंतरिक कार्यक्षेत्र पर डीपसीक-वी 3 के नए संस्करण का परीक्षण करने के बाद, उन्होंने पाया कि इसने परीक्षण किए गए सभी संकेतकों में एक बड़ी छलांग लगाई है। यह अब ओरेकल के क्लाउड सॉनेट 3.5 को पीछे छोड़ते हुए सबसे अच्छा गैर-अनुमानित मॉडल है।

कम महत्वपूर्ण लेकिन सनसनीखेज

डीपसीक-वी3-0324 बिना किसी श्वेत पत्र या किसी प्रचार के, केवल एक खाली रीडमी फ़ाइल के साथ सामने आया। यह लगभग सख्त लॉन्च फॉर्म सिलिकॉन वैली के सावधानीपूर्वक तैयार किए गए उत्पाद प्रचार मॉडल के बिल्कुल विपरीत है।

साथ ही, डीपसीक के सभी मॉडल खुले स्रोत वाले हैं और किसी के भी डाउनलोड करने और उपयोग करने के लिए निःशुल्क हैं, जबकि सबसे अच्छे वाणिज्यिक मॉडलों में से एक, क्लॉडसॉनेट, जो $20 का मासिक शुल्क लेता है।

इसके अलावा, डीपसीक मूल रूप से इस बात की पुनर्कल्पना करता है कि बड़े भाषा मॉडल कैसे काम करते हैं, एक विशिष्ट कार्य के दौरान सभी तथाकथित "विशेषज्ञ" मॉड्यूल के बजाय केवल लगभग 37 बिलियन मापदंडों को सक्रिय करते हैं, जो कम्प्यूटेशनल आवश्यकताओं को बहुत कम कर देता है।

मॉडल में दो अन्य महत्वपूर्ण प्रौद्योगिकियां भी शामिल हैं: मल्टी-लेटेंट अटेंशन (एमएलए) और मल्टी-टैग प्रेडिक्शन (एमटीपी)। एमएलए लंबे पाठों में संदर्भ बनाए रखने की मॉडल की क्षमता को बढ़ाता है, जबकि एमटीपी एक समय में एक टोकन उत्पन्न करने की सामान्य विधि के बजाय प्रत्येक चरण पर कई टोकन उत्पन्न करता है। साथ में, ये नवाचार आउटपुट गति को लगभग 80% तक बढ़ा देते हैं।

कुछ हद तक, डीपसीक चीनी उद्यमों की दक्षता और संसाधनों की अंतिम खोज की भावना का प्रतीक है, यानी सीमित कंप्यूटिंग संसाधनों के साथ समान या अधिक अनुकूलित प्रदर्शन कैसे प्राप्त किया जाए। इस मांग-संचालित नवाचार ने चीन की कृत्रिम बुद्धिमत्ता को कुछ ही महीनों में दुनिया को चौंका देने में सक्षम बना दिया है।

डीपसीक के नए मॉडल में बदलाव भी उद्योग के लिए बहुत महत्वपूर्ण हैं। एक ओर, यह बड़े मॉडलों की ऊर्जा खपत और कंप्यूटिंग लागत को काफी कम कर देता है, जिससे शीर्ष मॉडल बुनियादी ढांचे में निवेश के पैमाने के बारे में वॉल स्ट्रीट की धारणाएं हिल जाती हैं। दूसरी ओर, चीन के कृत्रिम बुद्धिमत्ता उद्योग में खुले स्रोत पर व्यापक सहमति ने घरेलू एआई उद्योग के विकास को तेजी से बढ़ावा दिया है, जिससे इसके और दुनिया के शीर्ष विरोधियों के बीच की दूरी लगातार कम हो रही है।

अन्य लोगों का मानना ​​है कि डीपसीक की तेजी से पकड़ के साथ, आर2 मॉडल जिसे अप्रैल में जारी करने की योजना है, वह ओपनएआई के लंबे समय से प्रचारित जीपीटी-5 मॉडल को सीधे चुनौती दे सकता है। यदि यह संभावना वास्तव में होती है, तो कृत्रिम बुद्धिमत्ता विकसित करने में चीन और संयुक्त राज्य अमेरिका के अलग-अलग विचार सीधे टकराव की स्थिति पैदा कर सकते हैं।