में लगभग 550,000 NVIDIA GPU हैं, लेकिन वास्तविक कंप्यूटिंग पावर उपयोग दर केवल 11% है। इस विशाल विरोधाभास ने हाल ही में मस्क के xAI को जनमत में सबसे आगे रखा है, और इसकी कंप्यूटिंग शक्ति उपयोग दक्षता के बारे में उद्योग में व्यापक संदेह भी पैदा किया है। विदेशी मीडिया "द इंफॉर्मेशन" द्वारा प्राप्त एक आंतरिक एक्सएआई मेमो के अनुसार, एक्सएआई के अध्यक्ष माइकल निकोलस ने टीम के सामने स्वीकार किया कि वर्तमान कंपनी का मॉडल फ्लोटिंग पॉइंट यूटिलाइजेशन (एमएफयू) लगभग 11% है।
इस संख्या के पीछे का अर्थ बहुत सहज है: हार्डवेयर जो सैद्धांतिक रूप से प्रशिक्षण कंप्यूटिंग शक्ति की 100 प्रतियां आउटपुट कर सकता है, वास्तव में केवल 11 प्रतियां ही उत्पन्न कर सकता है। निकोलस ने मेमो में स्पष्ट रूप से टिप्पणी की कि यह "शर्मनाक रूप से कम" था और टीम के लिए अगले कुछ महीनों में इस उपयोग दर को 50% तक बढ़ाने का स्पष्ट लक्ष्य रखा।
यह बताया गया है कि xAI के पास वर्तमान में लगभग 550,000 NVIDIA GPU हैं, जो H100 और H200 श्रृंखला को कवर करते हैं। हालाँकि ये GPU नवीनतम ब्लैकवेल उत्पादों से एक पीढ़ी पीछे हैं, फिर भी इतने बड़े हार्डवेयर परिनियोजन का पैमाना अभी भी बाज़ार पर गहरी छाप छोड़ता है।
यह बताया जाना चाहिए कि संख्या 11% का मतलब यह नहीं है कि 89% GPU पूरी तरह से निष्क्रिय हैं, बल्कि एक सख्त संकेतक है जो हार्डवेयर की सैद्धांतिक शिखर कंप्यूटिंग शक्ति के लिए प्रभावी प्रशिक्षण थ्रूपुट के अनुपात को मापता है।
उद्योग बेंचमार्क की तुलना में, xAI का प्रदर्शन अंतर विशेष रूप से स्पष्ट है। वर्तमान में, उत्पादन-स्तर के बड़े मॉडल प्रशिक्षण का एमएफयू आमतौर पर 35% और 45% के बीच बनाए रखा जाता है। उनमें से, मेटा और Google गहरे सॉफ़्टवेयर स्टैक के अपने दीर्घकालिक संचय पर भरोसा करते हैं, और उनका GPU उपयोग क्रमशः लगभग 43% और 46% तक पहुँच सकता है;
यहां तक कि GPT-3 प्रशिक्षण अवधि के दौरान भी, जो अपनी "अक्षमता" के लिए जाना जाता है, MFU 21% और 26% के बीच स्थिर हो सकता है। दूसरी ओर, xAI का 11% न केवल उद्योग के मौजूदा मुख्यधारा स्तर से काफी कम है, बल्कि AI कंप्यूटिंग पावर विकास के इतिहास में "प्राचीन" शर्मनाक अवधि से भी कम है।
यह उल्लेखनीय है कि शीर्ष-स्तरीय कंप्यूटिंग शक्ति होने के बावजूद मूल्य लगाना मुश्किल है। xAI का मूल हार्डवेयर नहीं, बल्कि सॉफ़्टवेयर की कमियाँ हैं।
यह बताया गया है कि xAI NVIDIA की मानक परिनियोजन योजना की नकल कर रहा है, लेकिन सॉफ्टवेयर स्टैक, समानांतर रणनीति और मॉडल इंजीनियरिंग अनुकूलन हार्डवेयर विस्तार की गति से बहुत पीछे हैं।
विशेष रूप से, HBM वीडियो मेमोरी पढ़ने की गति कंप्यूटिंग चिप की तुलना में बहुत धीमी है, जिसके कारण चिप को डेटा के इंतजार में बहुत समय बिताना पड़ता है; हजारों कार्डों की सिंक्रनाइज़ेशन आवश्यकताओं के तहत नेटवर्क टोपोलॉजी में किसी भी बाधा को नाटकीय रूप से बढ़ाया जाएगा।
इसके अलावा, लैम्ब्डा और अन्य संगठनों के विश्लेषण से पता चला है कि मेमोरी दबाव, अत्यधिक सक्रियण पुनर्गणना और टेंसर समानता के कारण क्रॉस-जीपीयू संचार ओवरहेड सभी प्रणालीगत कारक हैं जो एमएफयू को नीचे खींचते हैं।
यह ध्यान देने योग्य है कि xAI बुनियादी ढांचे का विस्तार एक उद्योग चमत्कार है। इसका कोलोसस सुपरकंप्यूटर केवल 122 दिनों में बनाया गया था। थोड़े ही समय में GPU पैमाने का तेजी से विस्तार हुआ। अत्यधिक हार्डवेयर रोलआउट ने लैगिंग सॉफ़्टवेयर अनुकूलन की घातक कमी को भी बढ़ा दिया।
