26 फरवरी को, ओपन सोर्स वीक के तीसरे दिन, डीपसीक ने कुशल FP8GEMM लाइब्रेरी DeepGEMM खोलने की घोषणा की। पिछले तीन दिनों में डीपसीक की सभी रिलीज़ एल्गोरिदम से संबंधित हैं और अधिक तकनीकी हैं।
बड़े मॉडल पारिस्थितिक समुदाय ओपनसीएसजी (ओपन एक्सप्रेशन) के संस्थापक चेन रैन ने चाइना बिजनेस न्यूज़ को एक उदाहरण दिया, "अतीत में, डीपसीक ने सीधे एक कार दी और सभी को बताया कि कार की रेंज 900 किलोमीटर है, लेकिन अब डीपसीक यह पता लगाने के लिए गहराई से खुदाई कर रहा है कि यह 900 किलोमीटर तक कैसे चल सकती है।" डीपसीक का मॉडल बेहतर परिणाम क्यों प्राप्त कर सकता है, इसमें कुछ एल्गोरिदम और संबंधित ढांचे हैं, और इन "मचान" का खुला स्रोत भविष्य के पारिस्थितिक निर्माण के लिए अनुकूल है।
इस बार जारी किए गए कीवर्ड के लिए विशिष्ट, GEMM (सामान्य मैट्रिक्स गुणन) रैखिक बीजगणित में एक बुनियादी ऑपरेशन है, जबकि FP8GEMM एक गणना ऑपरेशन है जो मैट्रिक्स गुणन के लिए 8-बिट फ्लोटिंग पॉइंट नंबरों का उपयोग करता है। FP8 एक कम परिशुद्धता वाला फ़्लोटिंग पॉइंट प्रारूप है जो गहन शिक्षण और उच्च-प्रदर्शन कंप्यूटिंग के लिए उपयुक्त है। यह उच्च कंप्यूटिंग दक्षता बनाए रखते हुए मेमोरी उपयोग और बैंडविड्थ आवश्यकताओं को कम कर सकता है।
डीपसीक के अनुसार, डीपजीईएमएम पारंपरिक सघन मॉडल और एमओई (मिश्रित विशेषज्ञ) मॉडल के जीईएमएम संचालन दोनों का समर्थन करता है। यह कोड NVIDIA हॉपर आर्किटेक्चर (जैसे H100GPU) पर आधारित V3/R1 श्रृंखला हार्डवेयर के लिए कुशल प्रशिक्षण और अनुमान समर्थन प्रदान करता है।
डीपसीक ने उल्लेख किया कि इस कोड बेस के आधार पर, कंप्यूटिंग शक्ति का पूर्ण उपयोग करते हुए, NVIDIA हॉपर आर्किटेक्चर जीपीयू पर 1350+FP8TFLOPS (प्रति सेकंड फ़्लोटिंग पॉइंट ऑपरेशंस) का प्रदर्शन प्राप्त किया जा सकता है। साथ ही, कोड बेस डिज़ाइन बहुत सरल है, जिसमें केवल एक कोर कर्नेल फ़ंक्शन और लगभग 300 लाइनों का कोड आकार होता है, लेकिन यह अधिकांश मैट्रिक्स आकारों पर विशेषज्ञ-ट्यून किए गए कर्नेल से बेहतर प्रदर्शन करता है।
ओपन सोर्स डीपजीईएमएम का क्या प्रभाव है? रिपोर्टर ने यह सवाल डीपसीक से पूछा, जिसने जवाब दिया कि डीपजीईएमएम ने एफपी8 और हार्डवेयर-स्तरीय अनुकूलन के माध्यम से बड़े मॉडल कंप्यूटिंग दक्षता और संसाधन खपत के दर्द बिंदुओं को हल किया, और विशेष रूप से एमओई मॉडल के कार्यान्वयन के लिए महत्वपूर्ण समर्थन प्रदान किया। इसका खुला स्रोत व्यवहार न केवल प्रौद्योगिकी के लोकतंत्रीकरण को तेज करता है, बल्कि एआई कंप्यूटिंग पारिस्थितिकी तंत्र का "बुनियादी ढांचा" भी बन सकता है और उद्योग के विकास को अधिक कुशल और कम लागत वाली दिशा में बढ़ावा दे सकता है।
एफपी8 एआई कंप्यूटिंग के लिए एक उभरता हुआ मानक है। इसकी उच्च दक्षता सैकड़ों अरबों पैरामीटर मॉडल के प्रशिक्षण में तेजी ला सकती है और वीडियो मेमोरी आवश्यकताओं को कम कर सकती है। जब किनारे वाले उपकरणों या क्लाउड में तैनात किया जाता है, तो FP8 की कम-सटीकता गणना थ्रूपुट में काफी सुधार कर सकती है और लागत को कम कर सकती है। इसलिए, ओपन सोर्स डीपजीईएमएम एफपी8 पारिस्थितिकी के लोकप्रियकरण को बढ़ावा दे सकता है, डेवलपर्स के उपयोग के लिए सीमा को कम कर सकता है, एफपी8 को अनुकूलित करने के लिए अधिक ढांचे और मॉडल को बढ़ावा दे सकता है, और कम-सटीक कंप्यूटिंग के लिए उद्योग के प्रवासन में तेजी ला सकता है।
इसके अलावा, कम्प्यूटेशनल जटिलता के कारण MoE मॉडल को लागू करना मुश्किल है। DeepGEMM का खुला स्रोत एक कुशल कार्यान्वयन संदर्भ प्रदान करता है, जिससे अधिक MoE अनुप्रयोग (जैसे मल्टी-मोडल मॉडल, एज-साइड कुशल मॉडल) हो सकते हैं।
लगातार तीन दिनों तक डीपसीक के ओपन सोर्स कोड बेस के बारे में चेन रैन ने संवाददाताओं से कहा, "हम इससे काफी हैरान हैं।" डीपसीक का अंतिम लक्ष्य यह दिखाना है कि उनका R1 और V3 कैसे बनते हैं। उनका मानना है कि डीपसीक द्वारा वर्तमान में जारी एल्गोरिदम एक अर्थ में "मचान" हैं। "हमें हर किसी को एक 'मचान' देनी चाहिए ताकि हर कोई डीपसीक पर आधारित प्रौद्योगिकी लाइन का उपयोग करना जारी रख सके, और अंततः उद्योग इसके आधार पर एक पारिस्थितिकी तंत्र का निर्माण कर सके।"
लंबे समय में, चेन रैन का मानना है कि डीपसीक की ओपन सोर्स पहल बहुत सार्थक है। इसमें मॉडल मानक, उपकरण मानक और पारिस्थितिक आधारशिला दोनों हैं, ताकि पारिस्थितिकी तंत्र विकसित हो सके।
चेन रैन ने निर्णय लिया कि डीपसीक का कोड ओपन सोर्स एआईइन्फ्रा परत पर काम करने वाले चिकित्सकों के एक समूह को प्रभावित कर सकता है। "डीपसीक मूल रूप से प्रौद्योगिकी स्टैक और मॉडल प्रदान करता है, लेकिन इसमें डेटा की कमी है, लेकिन अन्य लोग भी डेटा को पुन: पेश कर सकते हैं। एआईइन्फ्रा परत में लोगों को नई दिशाएं ढूंढनी होंगी।" लेकिन उन्होंने यह भी कहा कि इस तरह का खुला स्रोत दोधारी तलवार है। यदि आप डीपसीक की ओपन सोर्स सामग्री का अच्छा उपयोग कर सकते हैं, तो आपको भी लाभ हो सकता है। "यदि आप इसका अच्छी तरह से उपयोग नहीं करते हैं, तो आप पर प्रहार किया जाएगा।"
कुछ चिकित्सकों ने संवाददाताओं को यह भी बताया कि डीपसीक का खुला स्रोत इन्फ्रा परत का अनुमान त्वरण है। डीपसीक की अंतर्निहित तकनीक के खुले स्रोत का अभ्यासकर्ताओं पर प्रभाव पड़ेगा, लेकिन यह बहुत बड़ा नहीं हो सकता है।
"उद्योग पर डीपसीक का प्रभाव अभी शुरू हुआ है, और कोई भी परिणाम का अनुमान नहीं लगा सकता है।" उपर्युक्त चिकित्सक ने कहा।
डीपसीक ने पहले घोषणा की है कि वह एक के बाद एक 5 कोड लाइब्रेरी खोलेगा। इसके बाद, डीपसीक इस सप्ताह दो और कोड लाइब्रेरी जारी करेगा। "साझा किए गए कोड की प्रत्येक पंक्ति एआई उद्योग के विकास में तेजी लाने के लिए एक सामूहिक प्रेरणा बन जाएगी।" डीपसीक ने घोषणा में कहा।