H100 का अनुमान 8 गुना बढ़ गया NVIDIA ने आधिकारिक तौर पर ओपन सोर्स TensorRT-LLM की घोषणा की, 10+ मॉडल

"GPU बेचारे" अपनी दुर्दशा से विदाई लेने वाले हैं! अभी, NVIDIA ने एक ओपन सोर्स सॉफ्टवेयर TensorRT-LLM जारी किया है, जो H100 पर बड़े भाषा मॉडल के तर्क को तेज कर सकता है। तो, इसे कितनी बार सुधारा जा सकता है? TensorRT-LLM और इसके अनुकूलन कार्यों की श्रृंखला (इन-फ़्लाइट बैच प्रोसेसिंग सहित) को जोड़ने के बाद, कुल मॉडल थ्रूपुट 8 गुना बढ़ गया।

खरीद पृष्ठ पर जाएं:

Jingdong NVI DIA श्रृंखला का सारांश उत्पाद

TA GPH27

GPT-J-6BA100 की तुलना और H100 TensorRT-LLM के साथ और उसके बिना।

Llama270B, A TensorRT-LLM के साथ और बिना 100 और H100 के बीच तुलना

नेटिज़न्स ने कहा कि सुपर शक्तिशाली H100, TensorRT-LLM के साथ मिलकर, निस्संदेह बड़े भाषा मॉडल अनुमान की वर्तमान स्थिति को पूरी तरह से बदल देगा!

TensorRT-LLM: बड़े मॉडल अनुमान त्वरण विरूपण साक्ष्य

वर्तमान में, बड़े मॉडलों के विशाल पैरामीटर पैमाने के कारण, "परिनियोजन और की कठिनाई और लागत अनुमान" हमेशा उच्च रहा है।

NVIDIA द्वारा विकसित TensorRT-LLM का उद्देश्य LLM थ्रूपुट में उल्लेखनीय सुधार करना और GPU के माध्यम से लागत कम करना है।

विशेष रूप से, TensorRT-LLM TensorRT के गहन शिक्षण कंपाइलर, फास्टरट्रांसफॉर्मर के अनुकूलित कर्नेल, प्री- और पोस्ट-प्रोसेसिंग और मल्टी-जीपीयू/मल्टी-नोड संचार को एक सरल तरीके से समाहित करता है। खुला स्रोत पायथन एपीआई।

NVIDIA ने इसे एक उत्पाद समाधान बनाने के लिए फास्टरट्रांसफॉर्मर को और बेहतर बनाया है।

यह देखा जा सकता है कि TensorRT-LLM एक उपयोग में आसान, खुला स्रोत और मॉड्यूलर पायथन एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस प्रदान करता है।

कोडर्स को C++ या CUDA के गहन पेशेवर ज्ञान की आवश्यकता नहीं है। वे विभिन्न बड़े भाषा मॉडलों को तैनात, चला और डिबग कर सकते हैं, और शीर्ष प्रदर्शन और तेजी से अनुकूलन फ़ंक्शन भी प्राप्त कर सकते हैं।

NVIDIA के आधिकारिक ब्लॉग के अनुसार, TensorRT-LLM चार तरीकों से NVIDIA GPU पर LLM अनुमान प्रदर्शन को अनुकूलित करता है।

सबसे पहले, TensorRT-LLM को मौजूदा 10+ बड़े मॉडलों के लिए पेश किया गया है, जिससे डेवलपर्स उन्हें तुरंत चला सकते हैं।

दूसरा, TensorRT-LLM, एक ओपन सोर्स सॉफ़्टवेयर लाइब्रेरी के रूप में, LLM को एक साथ कई GPU और कई GPU सर्वर पर अनुमान लगाने की अनुमति देता है।

ये सर्वर क्रमशः NVIDIA के NVLink और InfiniBand इंटरकनेक्ट के माध्यम से जुड़े हुए हैं।

तीसरा है "इन-फ़्लाइट बैच प्रोसेसिंग", जो एक बिल्कुल नई शेड्यूलिंग तकनीक है जो विभिन्न मॉडल कार्यों को अन्य कार्यों से स्वतंत्र रूप से GPU में प्रवेश करने और बाहर निकलने की अनुमति देती है।

अंत में, मॉडल अनुमान के दौरान मेमोरी उपयोग और विलंबता को कम करने के लिए TensorRT-LLM को H100TransformerEngine का उपयोग करने के लिए अनुकूलित किया गया है।

इसके बाद, आइए देखें कि TensorRT-LLM मॉडल के प्रदर्शन को कैसे बेहतर बनाता है।

समृद्ध LLM पारिस्थितिकी का समर्थन करता है

TensorRT-LLM ओपन सोर्स मॉडल पारिस्थितिकी के लिए बहुत अच्छा समर्थन प्रदान करता है।

मेटा द्वारा लॉन्च किए गए Llama2-70B जैसे सबसे बड़े और सबसे उन्नत भाषा मॉडल को वास्तविक समय में प्रतिक्रिया प्रदान करने के लिए एक साथ काम करने के लिए कई GPU की आवश्यकता होती है।

पहले, यदि वे एलएलएम अनुमान का सर्वश्रेष्ठ प्रदर्शन प्राप्त करना चाहते थे, तो डेवलपर्स को एआई मॉडल को फिर से लिखना पड़ता था और इसे मैन्युअल रूप से कई टुकड़ों में विभाजित करना पड़ता था और जीपीयू में निष्पादन का समन्वय करना पड़ता था।

TensorRT-LLM प्रत्येक डिवाइस पर वेट मैट्रिक्स को वितरित करने के लिए टेंसर पैरेललिज्म तकनीक (टेंसरपैरेललिज्म) का उपयोग करता है, इस प्रकार इस प्रक्रिया को सरल बनाता है और बड़े पैमाने पर कुशल अनुमान को सक्षम करता है।

प्रत्येक मॉडल डेवलपर के हस्तक्षेप या मॉडल परिवर्तन के बिना, कई GPU और NVLink के माध्यम से जुड़े कई सर्वरों पर समानांतर में चल सकता है।

नए मॉडल और मॉडल आर्किटेक्चर की शुरूआत के साथ, डेवलपर्स मॉडल को अनुकूलित करने के लिए TensorRT-LLM में नवीनतम NVIDIA AI कर्नेल (कर्नल) ओपन सोर्स का उपयोग कर सकते हैं।

समर्थित कर्नेल फ़्यूज़न (कर्नलफ़्यूज़न), जिसमें सबसे अत्याधुनिक फ़्लैशअटेंशन कार्यान्वयन और GPT मॉडल निष्पादन आदि के संदर्भ और पीढ़ी चरणों के लिए मास्क्ड मल्टी-हेड ध्यान शामिल है।

इसके अतिरिक्त, TensorRT-LLM में आज उपलब्ध सबसे लोकप्रिय बड़े भाषा मॉडलों में से कई के पूरी तरह से अनुकूलित, रेडी-टू-रन संस्करण शामिल हैं।

इसमें MetaLlama2, OpenAIGPT-2 और GPT-3, Falcon, MosaicMPT, BLOOM और 10 से अधिक मॉडल शामिल हैं, जिनमें से सभी को सरल और उपयोग में आसान TensorRT-LLMPython API का उपयोग करके कॉल किया जा सकता है।

ये फ़ंक्शन डेवलपर्स को विभिन्न उद्योगों की विभिन्न आवश्यकताओं को पूरा करने के लिए तेजी से और अधिक सटीक रूप से अनुकूलित बड़े भाषा मॉडल बनाने में मदद कर सकते हैं।

इन-फ्लाइट बैच प्रोसेसिंग

आजकल, बड़े भाषा मॉडल बेहद बहुमुखी हैं।

एक एकल मॉडल का उपयोग कई, प्रतीत होने वाले असमान कार्यों के लिए एक साथ किया जा सकता है - चैटबॉट में सरल प्रश्नोत्तरी प्रतिक्रियाओं से लेकर दस्तावेज़ सारांश या लंबे कोड ब्लॉक की पीढ़ी तक, कार्यभार अत्यधिक गतिशील होते हैं और कार्य की मांगों को पूरा करने के लिए आउटपुट आकार परिमाण के अलग-अलग क्रम के होने चाहिए।

कार्यों की विविधता कुशलतापूर्वक बैच अनुरोधों और कुशल समानांतर निष्पादन को कठिन बना सकती है, जिससे संभवतः कुछ अनुरोध दूसरों की तुलना में पहले पूरे हो सकते हैं।

इन गतिशील भारों को प्रबंधित करने के लिए, TensorRT-LLM में "इन-फ़्लाइट बैचिंग" नामक एक अनुकूलित शेड्यूलिंग तकनीक शामिल है।

इसका मूल सिद्धांत यह है कि एक बड़े भाषा मॉडल की संपूर्ण पाठ निर्माण प्रक्रिया को मॉडल पर कई निष्पादन पुनरावृत्तियों में तोड़ा जा सकता है।

इनफ्लाइट बैचिंग के साथ, TensorRT-LLM रनटाइम अनुरोधों के अगले सेट को संसाधित करने से पहले पूरे बैच के पूरा होने की प्रतीक्षा करने के बजाय तुरंत बैच से पूर्ण अनुक्रम जारी करता है।

एक नया अनुरोध निष्पादित करते समय, पिछले बैच के अन्य अनुरोध जो पूरे नहीं हुए हैं, अभी भी संसाधित किए जा रहे हैं।

इन-फ़्लाइट बैचिंग और अतिरिक्त कर्नेल-स्तरीय अनुकूलन GPU उपयोग में सुधार करते हैं, जो H100 पर वास्तविक LLM अनुरोध बेंचमार्क के थ्रूपुट को कम से कम दोगुना कर सकता है।

FP8 के H100Transformer इंजन का उपयोग

TensorRT-LLM H100TransformerEngine नामक एक फ़ंक्शन भी प्रदान करता है, जो बड़े मॉडल अनुमान के दौरान मेमोरी खपत और विलंबता को प्रभावी ढंग से कम कर सकता है।

क्योंकि एलएलएम में अरबों मॉडल भार और सक्रियण फ़ंक्शन शामिल हैं, इसे आमतौर पर एफपी 16 या बीएफ 16 मूल्यों के साथ प्रशिक्षित और दर्शाया जाता है, प्रत्येक 16 बिट मेमोरी पर कब्जा कर लेता है।

हालांकि, अनुमान के समय, अधिकांश मॉडलों को परिमाणीकरण तकनीकों, जैसे 8-बिट या 4-बिट पूर्णांक (INT8 या INT4) का उपयोग करके कम परिशुद्धता के साथ कुशलतापूर्वक दर्शाया जा सकता है।

क्वांटाइजेशन सटीकता का त्याग किए बिना मॉडल वजन और सक्रियण सटीकता को कम करने की प्रक्रिया है। कम परिशुद्धता का उपयोग करने का मतलब है कि प्रत्येक पैरामीटर छोटा है और मॉडल जीपीयू मेमोरी में कम जगह लेता है।

यह निष्पादन के दौरान मेमोरी संचालन पर कम समय खर्च करते हुए समान हार्डवेयर का उपयोग करके बड़े मॉडल पर अनुमान लगाने में सक्षम बनाता है।

H100TransformerEngine प्रौद्योगिकी के माध्यम से, TensorRT-LLM के साथ H100GPU उपयोगकर्ताओं को आसानी से मॉडल वजन को नए FP8 प्रारूप में परिवर्तित करने की अनुमति देता है, और अनुकूलित FP8 कर्नेल का लाभ उठाने के लिए मॉडल को स्वचालित रूप से संकलित करता है।

और इस प्रक्रिया के लिए किसी कोडिंग की आवश्यकता नहीं है! H100 द्वारा पेश किया गया FP8 डेटा प्रारूप डेवलपर्स को अपने मॉडल की मात्रा निर्धारित करने और मॉडल सटीकता को कम किए बिना मेमोरी खपत को नाटकीय रूप से कम करने में सक्षम बनाता है।

INT8 या INT4 जैसे अन्य डेटा प्रारूपों की तुलना में, FP8 परिमाणीकरण सबसे तेज़ प्रदर्शन प्राप्त करते हुए उच्च सटीकता बनाए रखता है और लागू करने के लिए सबसे सुविधाजनक है।

TensorRT-LLM कैसे प्राप्त करें

हालांकि TensorRT-LLM को अभी तक आधिकारिक तौर पर जारी नहीं किया गया है, उपयोगकर्ता अब शीघ्र पहुंच प्राप्त कर सकते हैं।

आवेदन लिंक इस प्रकार है:

https://developer.nvidia.com/tensorr t-llm-early-access/join

NVIDIA ने यह भी कहा कि TensorRT-LLM को जल्द ही NVIDIAneMo ढांचे में एकीकृत किया जाएगा।

यह फ्रेमवर्क हाल ही में NVIDIA द्वारा लॉन्च किए गए AIEnterprise का हिस्सा है, जो एंटरप्राइज़ ग्राहकों को एक सुरक्षित, स्थिर और उच्च प्रबंधनीय एंटरप्राइज़-स्तरीय AI सॉफ़्टवेयर प्लेटफ़ॉर्म प्रदान करता है।

डेवलपर्स और शोधकर्ता NVIDIA NGC पर NeMo फ्रेमवर्क के माध्यम से या GitHub पर एक प्रोजेक्ट के रूप में TensorRT-LLM तक पहुंच सकते हैं।

हालांकि, यह ध्यान दिया जाना चाहिए कि उपयोगकर्ताओं को प्रारंभिक एक्सेस संस्करण के लिए आवेदन करने के लिए NVIDIA डेवलपर प्रोग्राम के लिए पंजीकरण करना होगा।

नेटीजन जमकर चर्चा कर रहे हैं

Reddit पर नेटिज़न्स ने TensorRT-LLM के लॉन्च पर गरमागरम चर्चा शुरू की।

यह कल्पना करना कठिन है कि विशेष रूप से एलएलएम के लिए हार्डवेयर को अनुकूलित करने के बाद प्रभाव कितना बेहतर होगा।

लेकिन कुछ नेटिज़न्स का मानना है कि इस चीज़ का उद्देश्य लाओ हुआंग को अधिक H100 बेचने में मदद करना है।

हालाँकि, कुछ नेटिज़न्स बहुत अधिक सहमत नहीं हैं। उनका मानना है कि TensorRT उन उपयोगकर्ताओं के लिए भी सहायक है जो SD को स्थानीय रूप से तैनात करते हैं, इसलिए जब तक RTX GPU है, भविष्य में इसी तरह के उत्पादों से लाभ उठाना संभव होना चाहिए।

अधिक वृहद परिप्रेक्ष्य से, शायद एलएलएम के लिए, हार्डवेयर-स्तरीय अनुकूलन की एक श्रृंखला भी होगी, और यहां तक कि एलएलएम के लिए विशेष रूप से डिज़ाइन किया गया हार्डवेयर भी भविष्य में एलएलएम के प्रदर्शन को बेहतर बनाने के लिए दिखाई देगा। यह वास्तव में कई लोकप्रिय अनुप्रयोगों में हुआ है, और एलएलएम कोई अपवाद नहीं होगा।