इस मॉडल ने एमआईटी लाइसेंस प्राप्त किया है, जिसका अर्थ है कि इसे व्यावसायिक उद्देश्यों के लिए स्वतंत्र रूप से उपयोग किया जा सकता है, और उद्योग में शुरुआती परीक्षणों ने पुष्टि की है कि मॉडल सीधे उपभोक्ता-ग्रेड हार्डवेयर पर चल सकता है, जैसे कि हाई-एंड मार्केट ऐप्पल मैकस्टूडियो।
एआई शोधकर्ता अवनी हनुन ने कहा कि नया डीपसीक-वी3 मॉडल एम3 अल्ट्रा चिप से लैस एप्पल कंप्यूटर पर 20 टोकन प्रति सेकंड की गति से चल सकता है। यह कृत्रिम बुद्धिमत्ता मॉडल क्षमताओं और स्थानीयकृत संचालन के बीच संघर्ष पर उद्योग की पहले की सहमति को तोड़ता है, और इसका मतलब यह भी है कि डेटा केंद्र बड़े मॉडलों के लिए आवश्यक मेल नहीं हैं।
एक अन्य कृत्रिम बुद्धिमत्ता शोधकर्ता, ज़ीओफ़ोन ने एक्स पर दावा किया कि आंतरिक कार्यक्षेत्र पर डीपसीक-वी 3 के नए संस्करण का परीक्षण करने के बाद, उन्होंने पाया कि इसने परीक्षण किए गए सभी संकेतकों में एक बड़ी छलांग लगाई है। यह अब ओरेकल के क्लाउड सॉनेट 3.5 को पीछे छोड़ते हुए सबसे अच्छा गैर-अनुमानित मॉडल है।
कम महत्वपूर्ण लेकिन सनसनीखेज
डीपसीक-वी3-0324 बिना किसी श्वेत पत्र या किसी प्रचार के, केवल एक खाली रीडमी फ़ाइल के साथ सामने आया। यह लगभग सख्त लॉन्च फॉर्म सिलिकॉन वैली के सावधानीपूर्वक तैयार किए गए उत्पाद प्रचार मॉडल के बिल्कुल विपरीत है।
साथ ही, डीपसीक के सभी मॉडल खुले स्रोत वाले हैं और किसी के भी डाउनलोड करने और उपयोग करने के लिए निःशुल्क हैं, जबकि सबसे अच्छे वाणिज्यिक मॉडलों में से एक, क्लॉडसॉनेट, जो $20 का मासिक शुल्क लेता है।
इसके अलावा, डीपसीक मूल रूप से इस बात की पुनर्कल्पना करता है कि बड़े भाषा मॉडल कैसे काम करते हैं, एक विशिष्ट कार्य के दौरान सभी तथाकथित "विशेषज्ञ" मॉड्यूल के बजाय केवल लगभग 37 बिलियन मापदंडों को सक्रिय करते हैं, जो कम्प्यूटेशनल आवश्यकताओं को बहुत कम कर देता है।
मॉडल में दो अन्य महत्वपूर्ण प्रौद्योगिकियां भी शामिल हैं: मल्टी-लेटेंट अटेंशन (एमएलए) और मल्टी-टैग प्रेडिक्शन (एमटीपी)। एमएलए लंबे पाठों में संदर्भ बनाए रखने की मॉडल की क्षमता को बढ़ाता है, जबकि एमटीपी एक समय में एक टोकन उत्पन्न करने की सामान्य विधि के बजाय प्रत्येक चरण पर कई टोकन उत्पन्न करता है। साथ में, ये नवाचार आउटपुट गति को लगभग 80% तक बढ़ा देते हैं।
कुछ हद तक, डीपसीक चीनी उद्यमों की दक्षता और संसाधनों की अंतिम खोज की भावना का प्रतीक है, यानी सीमित कंप्यूटिंग संसाधनों के साथ समान या अधिक अनुकूलित प्रदर्शन कैसे प्राप्त किया जाए। इस मांग-संचालित नवाचार ने चीन की कृत्रिम बुद्धिमत्ता को कुछ ही महीनों में दुनिया को चौंका देने में सक्षम बना दिया है।
डीपसीक के नए मॉडल में बदलाव भी उद्योग के लिए बहुत महत्वपूर्ण हैं। एक ओर, यह बड़े मॉडलों की ऊर्जा खपत और कंप्यूटिंग लागत को काफी कम कर देता है, जिससे शीर्ष मॉडल बुनियादी ढांचे में निवेश के पैमाने के बारे में वॉल स्ट्रीट की धारणाएं हिल जाती हैं। दूसरी ओर, चीन के कृत्रिम बुद्धिमत्ता उद्योग में खुले स्रोत पर व्यापक सहमति ने घरेलू एआई उद्योग के विकास को तेजी से बढ़ावा दिया है, जिससे इसके और दुनिया के शीर्ष विरोधियों के बीच की दूरी लगातार कम हो रही है।
अन्य लोगों का मानना है कि डीपसीक की तेजी से पकड़ के साथ, आर2 मॉडल जिसे अप्रैल में जारी करने की योजना है, वह ओपनएआई के लंबे समय से प्रचारित जीपीटी-5 मॉडल को सीधे चुनौती दे सकता है। यदि यह संभावना वास्तव में होती है, तो कृत्रिम बुद्धिमत्ता विकसित करने में चीन और संयुक्त राज्य अमेरिका के अलग-अलग विचार सीधे टकराव की स्थिति पैदा कर सकते हैं।