कल एआई सर्कल में एक वास्तविक "स्प्रिंग फेस्टिवल गाला" था। जैसे ही डीपसीक-वी4 की तकनीकी रिपोर्ट सामने आई, यह लगभग 60 पेज लंबी थी, जिसमें वास्तुकला से लेकर प्रशिक्षण और प्रशिक्षण के बाद तक सब कुछ शामिल था। इस टीम के लिए 484 दिन असामान्य हैं. V3 को V2 के रिलीज़ होने में 8 महीने से भी कम समय लगा। V4 को लगभग दोगुना समय क्यों लगता है?

इस रिपोर्ट का ध्यानपूर्वक अध्ययन करने के बाद, हमने इसके पीछे के संभावित कारणों के साथ-साथ इस "घरेलू प्रकाश" की चौंकाने वाली इंजीनियरिंग पृष्ठभूमि का पता लगाया।
यह कहा जा सकता है कि डीपसीक-वी4 के बारे में वास्तव में विचारोत्तेजक बात यह नहीं है कि इसने कितनी कंप्यूटिंग शक्ति जमा की है, बल्कि एजेंट प्रशिक्षण, इंजीनियरिंग आधार और "प्रशिक्षण शॉक" से निपटने में इसकी लगभग क्रूर तर्कसंगतता और पारदर्शिता है।
आज, हमने सीधे V4 का हुड खोला यह देखने के लिए कि अंदर कौन से हार्ड-कोर विवरण छिपे हुए हैं।
33T टोकन + ट्रिलियन पैरामीटर
कठिनाई स्तर सीधे पहुँच जाता है
V3 की रिलीज़ के ठीक 484 दिन बाद V4 को "पूर्वावलोकन संस्करण" के रूप में लॉन्च किया गया था।
हालाँकि इस समय अवधि को पेपर में स्पष्ट नहीं किया गया है, लेकिन एक पैराग्राफ है जो सुराग प्रदान कर सकता है।

V3 ने प्री-ट्रेनिंग के लिए 14.8T टोकन का उपयोग किया, V4 ने इसे सीधे दोगुना कर दिया, V4-फ़्लैश ने 32T को प्रशिक्षित किया, और V4-प्रो ने 33T को प्रशिक्षित किया। मापदंडों की मात्रा में भी काफी विस्तार हुआ है। V4-Pro के कुल पैरामीटर 1.6T हैं, और V4-Flash में भी 284B हैं।
डेटा दोगुना हो गया है, पैरामीटर दोगुने हो गए हैं, और प्रशिक्षण स्थिरता की कठिनाई भी परिमाण के क्रम से बढ़ गई है।
रिपोर्ट बहुत ईमानदार है: डीपसीक ने स्पष्ट रूप से "प्रशिक्षण स्थिरता चुनौती" का नाम दिया है।

GoogleDeepMind शोधकर्ता सुसान झांग ने की प्रशंसा: यह पारदर्शी दृष्टिकोण सराहनीय है। इस बयान को लॉबस्टर के पिता ने भी आगे बढ़ाया था
अत्यधिक बड़े पैमाने के समूहों पर, जब पैरामीटर राशि और प्रशिक्षण डेटा एक निश्चित महत्वपूर्ण बिंदु तक पहुंच जाता है, तो हार्डवेयर में सूक्ष्म त्रुटियां असीमित रूप से बढ़ जाएंगी।
पेपर में, "स्थिरता" शब्द दस से अधिक बार दिखाई देता है।
तकनीकी रिपोर्ट में कहें तो यह फ्रीक्वेंसी ही सिग्नल है। सामान्य परिस्थितियों में, स्थिरता डिफ़ॉल्ट आधार है और बार-बार उल्लेख करने लायक नहीं है। बार-बार इसका जिक्र करने से पता चलता है कि यह वाकई एक समस्या है।

विशेष रूप से, डीपसीक ने पाया कि एमओई परत में संख्यात्मक आउटलेर (आउटलेर) रूटिंग तंत्र के माध्यम से बढ़ते रहेंगे, एक दुष्चक्र का निर्माण करेंगे, अंततः हानि स्पाइक को ट्रिगर करेंगे, और प्रशिक्षण वक्र अचानक बढ़ जाएगा।
टीम द्वारा पेश किए गए मुख्य उपाय दो चालें थीं।
पहली युक्ति प्रत्याशित रूटिंग है. यह अनिवार्य रूप से रूटिंग चरण में बैकबोन नेटवर्क और रूटिंग नेटवर्क के अपडेट को अलग करने के लिए पुराने संस्करण पैरामीटर का उपयोग करता है, जिससे दोनों के बीच के दुष्चक्र को तोड़ दिया जाता है।
दूसरी ट्रिक है स्विग्लू क्लैम्पिंग. यह सीधे [-10, 10] के भीतर स्विग्लू की संख्यात्मक सीमा को जकड़ लेता है, स्रोत से आउटलेर्स को दबा देता है, जो हिंसक है लेकिन बहुत प्रभावी है।

वर्तमान बड़े मॉडल प्रशिक्षण में प्रवेश हो गया हैहार्डवेयर निचली परत, कंपाइलर स्टैक और गणितीय वास्तुकलानो मैन्स लैंड की त्रिमूर्ति
पेपर में एक विवरण है जिस पर विचार करना बहुत दिलचस्प है।
प्रत्याशित रूटिंग और स्विग्लू क्लैम्पिंग, डीपसीक ने पुष्टि की कि वे "काफी प्रभावी" हैं, लेकिन इसके बाद वाक्य आया "अंतर्निहित तंत्र अभी भी एक खुला प्रश्न है"।
यहां तक कि क्यू/केवी सामान्यीकरण के लिए, एक बुनियादी ऑपरेशन जिसे व्यापक रूप से सत्यापित किया गया है, पेपर के शब्दों में केवल "प्रशिक्षण स्थिरता में सुधार हो सकता है" लिखने का साहस है।
शब्द "हो सकता है" यह दिखाने के लिए पर्याप्त है कि ट्रिलियन-पैरामीटर MoE के प्रशिक्षण में, कुछ भी 100% विश्वसनीय नहीं है।

15टी से 33टी तक, डेटा की मात्रा को दोगुना करने से रैखिक विकास कठिनाइयाँ नहीं आती हैं, बल्कि प्रणालीगत जोखिम तेजी से बढ़ते हैं।
प्रत्येक नेटवर्क परत, प्रत्येक ग्रेडिएंट अपडेट, प्रत्येक संचार सिंक्रनाइज़ेशन को बड़े पैमाने पर संभावित ब्रेकिंग पॉइंट में बढ़ाया जाता है।
डीपसीक ने यह सब एक पेपर में लिखने का फैसला किया, जिसकी उद्योग में लगभग कोई मिसाल नहीं है।
हार्डवेयर या सॉफ्टवेयर?
इसलिए, तकनीकी रिपोर्ट में स्पष्ट रूप से उल्लिखित "प्रशिक्षण स्थिरता चुनौती" किसके हार्डवेयर को संदर्भित करती है?
हालाँकि पेपर में स्पष्ट रूप से किसी हार्डवेयर प्लेटफ़ॉर्म का नाम नहीं दिया गया है, लेकिन गंध की गहरी समझ रखने वाले कुछ लोगों ने अटकलें लगाना शुरू कर दिया है।
कुछ लोग सीधे तौर पर बताते हैं कि तथाकथित "प्रशिक्षण स्थिरता चुनौती" कंप्यूटिंग पावर प्लेटफॉर्म के साथ एक समस्या होने की संभावना है। और यह केवल डीपसीक ही नहीं है जिसने इस संकट का सामना किया है, सभी प्रमुख निर्माताओं ने इसका सामना किया है।
एक्सएआई प्रेस कॉन्फ्रेंस में, मैक्रोहार्ड प्रोजेक्ट के प्रभारी व्यक्ति ने अस्पष्ट रूप से उल्लेख किया कि एनवीडिया के नवीनतम चिप्स ने उन्हें "बहुत परेशानी" दी और उन्हें हार्डवेयर अनुकूलन कार्यक्रम को फिर से विकसित करना पड़ा। यह एक्सएआई प्रगति में अचानक मंदी का एक कारण भी बता सकता है।

लेकिन निःसंदेह यह इतना आसान नहीं है।
बड़े पैमाने पर कंप्यूटिंग क्लस्टर में बहुत सारे चर शामिल हैं: चिप स्वयं, इंटरकनेक्शन आर्किटेक्चर, शीतलन प्रणाली, बिजली आपूर्ति, ड्राइवर संस्करण और संकलन स्टैक अनुकूलन। प्रशिक्षण में अस्थिरता का मतलब चिप-स्तर की खराबी नहीं है, बल्कि सिस्टम एकीकरण परत पर भी एक समस्या हो सकती है।
हालाँकि, वर्तमान में इसका उत्तर देने वाला कोई आधिकारिक दस्तावेज़ नहीं है।
सब कुछ अभी भी अटकलबाजी है.

एजेंट प्रशिक्षण प्रणाली
इंजीनियरिंग क्षमताएं विस्मयकारी हैं
यदि V4 का पूर्व-प्रशिक्षण हार्डवेयर के साथ प्रतिस्पर्धा कर रहा है, तो यहप्रशिक्षण के बादयह पाठ्यपुस्तक-स्तरीय इंजीनियरिंग सौंदर्यबोध को दर्शाता है।
यह कहा जा सकता है कि एजेंट क्षमताओं का इंजीनियरिंग पथ ध्यान से पढ़ने के लिए V4 पेपर का सबसे योग्य हिस्सा है।
अतीत में, हमने सोचा था कि एजेंट क्षमताओं को "सिखाया" गया था, लेकिन डीपसीक का मानना है कि एजेंट क्षमताओं को "विकसित" किया जाना चाहिए।

पूर्व-प्रशिक्षण चरण में "कठिन प्रवासन" और "रक्त इंजेक्शन" से इनकार करें
उद्योग में अधिकांश प्रथाएं पहले एक वार्तालाप मॉडल को प्रशिक्षित करना और फिर उसे एक एजेंट में हार्ड-माइग्रेट करना है। डीपसीक के अनुसार, यह बहुत अक्षम है।
V4 के मध्य-प्रशिक्षण चरण में, उन्होंने बड़ी मात्रा में एजेंटिक डेटा इंजेक्ट किया।
इसका मतलब यह है कि मॉडल ने बुनियादी शिक्षण चरण में पहले से ही लंबी कार्य श्रृंखला, पर्यावरण प्रतिक्रिया और फ़ाइल संशोधन पैटर्न देख लिया है। इससे पहले कि वह कविता लिखना सीखे, उसे पहले ही लिनक्स कमांड लाइन से त्रुटियाँ दिखाई दे चुकी थीं।
यह एक फाउंडेशन-स्तरीय डिज़ाइन है.
मूल विशेषज्ञ प्रशिक्षण (विशेषज्ञ विशेष प्रशिक्षण पद्धति)
एक अन्य मुख्य आकर्षण डीपसीक की मूल विशेषज्ञ प्रशिक्षण पद्धति है।
V4 ने सीधे तौर पर एक सर्वांगीण योद्धा को प्रशिक्षित नहीं किया, बल्कि पहले एक गणित विशेषज्ञ, एक कोड विशेषज्ञ, एक एजेंट विशेषज्ञ और एक निर्देश का पालन करने वाले विशेषज्ञ को प्रशिक्षित किया।
यह चरणबद्ध विशेषज्ञ प्रशिक्षण यह सुनिश्चित करता है कि प्रत्येक क्षेत्र की ऊपरी सीमा उच्चतम स्तर तक फैली हुई है।
अंत में, ओपीडी (मल्टी-टीचर ऑन-पॉलिसी डिस्टिलेशन, मल्टी-टीचर ऑनलाइन पॉलिसी डिस्टिलेशन) के माध्यम से, इन विशेषज्ञों की आत्माओं को एक एकीकृत मॉडल में एकत्रित किया जाता है।
यहां इंजीनियरिंग की कठिनाई यह है कि ऑनलाइन अनुमान के लिए एक ही समय में दस ट्रिलियन से अधिक पैरामीटर-स्तरीय शिक्षक मॉडल लोड करना अवास्तविक है।
V4 का समाधान शिक्षक के लॉग को कैश करना नहीं है (वीडियो मेमोरी उनमें फिट नहीं हो सकती है), बल्कि केवल शिक्षक की अंतिम परत की छिपी हुई स्थिति को कैश करता है, और प्रशिक्षण के दौरान मांग पर पूर्वानुमान हेड के माध्यम से लॉग को फिर से बनाता है।
फिर, प्रशिक्षण नमूनों को शिक्षक सूचकांक के आधार पर क्रमबद्ध करें, यह सुनिश्चित करते हुए कि प्रत्येक शिक्षक का पूर्वानुमान प्रमुख केवल एक बार लोड किया गया है। टाइललैंग में लिखे एक समर्पित कर्नेल का उपयोग करके केएल विचलन गणना को त्वरित किया जाता है।
पारंपरिक पुरस्कार मॉडल को अलविदा कहें
इसके अलावा, "कठिन-से-सत्यापित" कार्यों के लिए, पारंपरिक स्केलर रिवॉर्ड मॉडल (स्केलर रिवॉर्ड मॉडल) अब पर्याप्त नहीं है।
इस संबंध में, डीपसीक ने जेनरेटिव रिवॉर्ड मॉडल (जीआरएम) पेश करने का विकल्प चुना।
यह अब केवल 0 से 1 तक अंक नहीं देता है, बल्कि पूर्व निर्धारित रूब्रिक्स (मूल्यांकन मानदंड) के आधार पर एक विस्तृत मूल्यांकन रिपोर्ट तैयार करता है।
इससे भी महत्वपूर्ण बात यह है कि डीपसीक ने जीआरएम पर ही आरएल अनुकूलन भी किया है, जिससे अभिनेता नेटवर्क को एक ही समय में एक जेनरेटिव रिवार्ड मॉडल के रूप में काम करने की इजाजत मिलती है, और निर्णय क्षमता और पीढ़ी की क्षमता को एक ही मॉडल में संयुक्त रूप से अनुकूलित किया जाता है।

एक वितरित प्रणाली में एजेंट बनाएं
इतना ही नहीं, डीपसीक ने विशेष रूप से V4 के लिए आधारों का एक सेट भी विकसित किया।
डीसेक: उत्पादन-ग्रेड सैंडबॉक्स क्लस्टर
एजेंट की व्यावहारिक क्षमताओं को प्रशिक्षित करने के लिए, डीपसीक ने डीसेक नामक एक प्लेटफॉर्म बनाया।
3FS वितरित फ़ाइल सिस्टम अत्यंत तेज़ डेटा एक्सेस सुनिश्चित करता है; सैकड़ों-हजारों समवर्ती सैंडबॉक्स उदाहरणों का मतलब है कि जब V4 प्रशिक्षण कर रहा होता है, तो एक ही समय में सैकड़ों-हजारों "वर्चुअल कंप्यूटर" कोड चला रहे होते हैं और बग का परीक्षण कर रहे होते हैं।
मेगाएमओई: संचार और कंप्यूटिंग एकीकरण
MoE परत पर, डीपसीक संचार और गणना को एक एकल पाइपलाइन कर्नेल में एकीकृत करता है, विशेषज्ञों को तरंगों के अनुसार निर्धारित किया जाता है, और संचार देरी पूरी तरह से गणना के तहत छिपी होती है।
इसका परिणाम यह होता है कि सामान्य दृश्य 1.5 से 1.73 गुना तक तेज हो जाते हैं, और आरएल रोलआउट जैसे विलंब-संवेदनशील दृश्य 1.96 गुना तक तेज हो जाते हैं।
स्व-विकसित डीएसएमएल: भागने से इंकार करना विफल रहा
टूल इनवोकेशन के संदर्भ में, डीपसीक ने बस XML-जैसे DSL (डोमेन विशिष्ट भाषा) का एक सेट डिज़ाइन किया है।
यह प्रोटोकॉल सरल और कुशल है, और टूल कॉल की सफलता दर को "भाग्य पर निर्भर" से सीधे "औद्योगिक स्तर की मजबूती" तक सुधारता है।

तर्क प्रयास उप-मोड प्रशिक्षण
इसमें एक नाजुक डिज़ाइन भी है जो V4 विभिन्न सोच मोड का समर्थन करता है।
नॉन-थिंक मोड त्वरित प्रतिक्रिया वाला एक सरल उपकरण चयन है। हाई/मैक्स लंबे दस्तावेज़ों, पुनर्निर्माण और जटिल बगों को लक्षित करता है, जिससे अनुमान कंप्यूटिंग शक्ति अधिकतम हो जाती है।
"जब संभव हो बचत करें और जब आवश्यक हो तो निर्दयी बनें" की यह रणनीति भी V4 की लागत क्लाउड के 1/4 तक पहुंचने की कुंजी है।
इस भाग को पढ़ने के बाद, समुदाय के कई शोधकर्ता प्रशंसा से भर गए: "डीपसीक की इंजीनियरिंग क्षमताएं अभी भी इतनी ठोस हैं कि लोग अवाक रह जाते हैं।"

अंतर्संबंधित सोचउन्नत करना
प्रत्येक नए उपयोगकर्ता संदेश आने पर V3.2 पिछली सोच के निशानों को हटा देगा। V4 टूल-कॉलिंग परिदृश्य में संपूर्ण क्रॉस-राउंड तर्क इतिहास को बरकरार रखता है, जिससे एजेंट को दीर्घकालिक कार्यों में सुसंगत तर्क श्रृंखला बनाए रखने की अनुमति मिलती है।
संदर्भ को सुव्यवस्थित रखते हुए, सामान्य बातचीत के दृश्यों को अभी भी प्रत्येक दौर में साफ़ किया जाता है।
सिक्के का दूसरा पहलू 94% मतिभ्रम दर है
कृत्रिम विश्लेषण का वास्तविक माप अधिक त्रि-आयामी चित्र देता है।
संपूर्ण इंटेलिजेंस इंडेक्स बेंचमार्क परीक्षण चलाने के बाद, V4 प्रो की कीमत केवल $1,071 थी, जो क्लाउड ओपस 4.7 के $4,811 से चार गुना से भी अधिक सस्ता है।
एजेंट क्षमताओं के संदर्भ में, वी4 प्रो मैक्स ने जीडीपीवल-एए वास्तविक परीक्षण (वास्तविक कार्य कार्यों के लिए एक एजेंट बेंचमार्क) में 1554 अंक हासिल किए, जो कई ओपन सोर्स मॉडल से काफी आगे है।


हालाँकि, कोई निःशुल्क दोपहर का भोजन नहीं है।
आर्टिफिशियल एनालिसिस की रिपोर्ट ने भी इस दृष्टिकोण की लागत को बहुत स्पष्ट रूप से बताया: एए-ओमिनीसाइंस पर वी4 प्रो की मतिभ्रम दर 94% तक है।

इससे एक संरचनात्मक दुविधा का पता चलता है: सीमित कंप्यूटिंग पावर बजट के तहत शीर्ष प्रदर्शन तक पहुंचने के लिए, आपको कुछ आयामों में समझौता करना होगा।
डीपसीक ने अपनी सभी विशेषताओं को तर्क और एजेंट क्षमताओं पर केंद्रित करने का निर्णय लिया। कीमत ज्ञान की सटीकता है.

हम अब भी डीपसीक का सम्मान क्यों करते हैं?
इस V4 रिपोर्ट में, कुछ लोगों ने "अस्थिर प्रशिक्षण" की शर्मिंदगी देखी, और कुछ ने "गंभीर मतिभ्रम" की कमियाँ देखीं।
लेकिन हमारी नजर में इस रिपोर्ट का सबसे खास पहलू इसकी पारदर्शिता है।
वे हार्डवेयर अनुकूलन के दर्द को स्वीकार करने का साहस करते हैं, उन प्रतीत होने वाले "पैच" समाधानों का खुलासा करने का साहस करते हैं, और यह दिखाने का साहस करते हैं कि कैसे वे सैकड़ों हजारों सैंडबॉक्स में एजेंट की आत्मा को थोड़ा-थोड़ा करके पीसने के लिए सबसे हार्ड-कोर इंजीनियरिंग क्षमताओं का उपयोग करते हैं।
वी3 के मल्टी-हेड लेटेंट अटेंशन से लेकर वी4 के ओपीडी डिस्टिलेशन और डीसेक सैंडबॉक्स तक, डीपसीक एजीआई की ओर ले जाने के लिए बड़े मॉडलों के लिए एक और रास्ता तलाशने के लिए लगभग पागल "इंजीनियरिंगवाद" का उपयोग कर रहा है।
यदि वास्तुकला अभी तक सही नहीं है, तो मोटी दीवारें बनाने के लिए इंजीनियरिंग का उपयोग करें; यदि कंप्यूटिंग शक्ति पर्याप्त सस्ती नहीं है, तो दक्षता को कम करने के लिए एल्गोरिदम का उपयोग करें।
डीपसीक-वी4 शायद सबसे उत्तम अंत न हो, लेकिन यह निश्चित रूप से वर्तमान में सबसे यथार्थवादी और गतिशील "चीन एआई दृश्य" है।