एनवीडिया के स्वायत्त ड्राइविंग प्रमुख ने "टेस्ला और वेमो को पार करने" के रोडमैप के बारे में विस्तार से बताया

NVIDIA ऑटोमोटिव बिजनेस लीडरवू झिनझाउहर छह महीने में, जब सेल्फ-ड्राइविंग सिस्टम उस बिंदु पर पहुंच जाता है जहां वह "पर्याप्त आश्वस्त" होता है, तो सीईओ हुआंग जेन-ह्सून को वास्तविक-सड़क परीक्षण के लिए कार में आमंत्रित किया जाएगा। हाल ही में, दोनों एमबी.ड्राइव असिस्ट प्रो हैंड्स-फ्री ड्राइविंग सहायता प्रणाली से सुसज्जित मर्सिडीज-बेंज सीएलए में सवार होकर वुडसाइड, कैलिफ़ोर्निया से डाउनटाउन सैन फ्रांसिस्को तक गए। यह सिस्टम आंशिक रूप से NVIDIA द्वारा डिज़ाइन किया गया था और यह टेस्ला के "फुल सेल्फ-ड्राइविंग" (FSD) के काफी करीब है।

हालाँकि सड़क पर भारी ट्रैफिक था, लेकिन कार के अंदर माहौल शांत था। हुआंग रेनक्सुन ने मजाक में यह भी कहा कि सिस्टम के स्वायत्त ड्राइविंग मोड में प्रवेश करने के बाद उन्हें "सुरक्षा के बारे में कम चिंता होने लगी"।

एनवीडिया ने बाद में मीडिया को 22 मिनट का एक इन-व्हीकल वीडियो प्रदान किया, जिसमें मर्सिडीज-बेंज जटिल दैनिक शहरी दृश्यों जैसे कि निर्माण सड़कों, अवैध रूप से पार्क किए गए वाहनों और नारंगी अवरोधक शंकुओं से घिरी संकीर्ण सड़कों से गुजर रही थी। सिस्टम ने काफी सुचारू रूप से काम किया, लेकिन वीडियो संपादित किया गया था और पूरी रिकॉर्डिंग नहीं थी। एनवीडिया के एक प्रवक्ता ने बाद में इस बात पर जोर दिया कि पूरी यात्रा के दौरान मैन्युअल हस्तक्षेप की आवश्यकता वाली कोई भी प्रणाली "कब्जे में लेने में विफल" नहीं थी। लेखक ने पहले सैन फ्रांसिस्को में एनवीडिया के अधिकारियों के साथ एक कार में इसी तरह की प्रणाली का अनुभव किया है, और ट्रैफिक लाइट, चार-तरफा चौराहों, अवैध रूप से पार्क किए गए वाहनों, असुरक्षित बाएं मोड़ और पैदल चलने वालों, साइकिल और स्कूटर के बीच काम करने की इसकी क्षमता से प्रभावित हुए थे। उनका मानना है कि दुनिया की सबसे मूल्यवान चिप कंपनी के लिए इस आधार पर समान या उससे भी बेहतर सिस्टम बनाना मुश्किल नहीं है कि टेस्ला पहले ही कैमरों और चिप्स का उपयोग करके एक समाधान चला चुकी है।

वर्षों के "पर्दे के पीछे सशक्तिकरण" के बाद, एनवीडिया ने खुद को स्वायत्त ड्राइविंग उद्योग मंच के केंद्र में सक्रिय रूप से रखना शुरू कर दिया है। टेस्ला और अन्य कार कंपनियों को कार-ग्रेड चिप्स की आपूर्ति जारी रखने के अलावा, यह अपने स्व-विकसित एआई ड्राइविंग कार्यों को एक प्लेटफॉर्म में पैकेज करता है और उन्हें मर्सिडीज-बेंज, जगुआर लैंड रोवर और ल्यूसिड जैसे भागीदारों को प्रदान करता है। इस साल की शुरुआत में सीईएस में, हुआंग रेनक्सुन ने "अल्पामायो" नामक एक स्वायत्त ड्राइविंग विकास पोर्टफोलियो जारी किया, जिसमें एआई मॉडल, सिमुलेशन ब्लूप्रिंट और डेटा सेट शामिल थे, जिसका लक्ष्य वाहनों को विशिष्ट परिस्थितियों में एल4 स्वायत्त ड्राइविंग प्राप्त करने में सक्षम बनाना था। उन्होंने इस नोड को "भौतिक दुनिया एआई का चैटजीपीटी क्षण" भी कहा।

हालाँकि, कार में वू झिनझोउ के साथ बात करते समय, हुआंग रेनक्सुन ने प्रेस कॉन्फ्रेंस में अपने अहंकार पर लगाम लगाई और शांति से विचार करना पसंद किया, लेकिन वह अभी भी प्रौद्योगिकी के भविष्य के बारे में बेहद आशावादी थे। उन्होंने स्वीकार किया कि अल्पामायो की शक्ति पर्यावरण के बारे में तर्क करने की क्षमता में निहित है, लेकिन वास्तविक कठिनाई यह है कि "हम नहीं जानते कि यह क्या नहीं कर सकता", इसलिए इसे अभी भी पारंपरिक "क्लासिक प्रौद्योगिकी स्टैक" के साथ गहराई से एकीकृत करने की आवश्यकता है। उनके विचार में, इंजीनियरिंग परिप्रेक्ष्य से पूरी तरह से एंड-टू-एंड बड़े मॉडल की सुरक्षा प्रदर्शित करना मुश्किल है, जबकि क्लासिक प्रौद्योगिकी स्टैक परिपक्व इंजीनियरिंग प्रक्रियाओं पर आधारित है और विशिष्ट व्यवहारों के सुरक्षित सत्यापन के लिए अधिक अनुकूल है। दोनों को मिलाने से न केवल इंसानों के करीब ड्राइविंग शैली हासिल की जा सकती है, बल्कि पारंपरिक यातायात नियमों के ढांचे के भीतर व्यवहार को भी नियंत्रित किया जा सकता है। हालाँकि उद्योग में अन्य सेल्फ-ड्राइविंग खिलाड़ी भी एंड-टू-एंड न्यूरल नेटवर्क के शीर्ष पर स्पष्ट सुरक्षा नियमों को लागू करते हैं, एंड-टू-एंड लर्निंग उद्योग में एक नया चलन बन रहा है: वेमो एक हाइब्रिड दृष्टिकोण अपनाता है, और टेस्ला लगभग पूरी तरह से एंड-टू-एंड नेटवर्क पर दांव लगा रहा है।

वू शिनझोउ ने साक्षात्कार में कहा कि एंड-टू-एंड मॉडल गति बाधाओं और लेन परिवर्तन जैसे नाजुक दृश्यों से निपटने के दौरान यांत्रिक अनुभव और "रोबोटिक" अंतराल को कम कर सकता है, और वास्तविक जीवन ड्राइविंग की लय के करीब है। यही कारण है कि उन्होंने "चैटजीपीटी मोमेंट" पर जोर दिया। उन्होंने कहा, "केवल तभी जब आपकी कार आत्मविश्वास से काम करेगी, उपयोगकर्ता इसका उपयोग जारी रखने के लिए अधिक इच्छुक होंगे।"

टेस्ला की तुलना में, वू शिनझोउ सार्वजनिक रूप से अपने विरोधियों के सुरक्षा विवादों पर टिप्पणी करने के बजाय, एनवीडिया के अंतर को इसके सेंसर संयोजन और सिस्टम आर्किटेक्चर में अधिक रखता है। टेस्ला एफएसडी ने अब तक 8.5 बिलियन मील से अधिक सड़क परीक्षण किया है, लेकिन यह कई गंभीर सुरक्षा दुर्घटनाओं में भी शामिल रहा है। इसे नियामक अधिकारियों द्वारा 23 चोटों और कम से कम दो घातक दुर्घटनाओं में शामिल होने के रूप में नामित किया गया है। NVIDIA के एक कार्यकारी ने पिछले साल खुलासा किया था कि कंपनी ने आंतरिक रूप से तुलनात्मक परीक्षण के लिए अपने सिस्टम और टेस्ला FSD का उपयोग किया था। ड्राइवर अधिग्रहणों की संख्या को देखते हुए, अलग-अलग परिदृश्यों में दोनों के अपने-अपने फायदे थे।

वू शिनझोउ ने इस बात पर जोर दिया कि NVIDIA "मल्टी-सोर्स रिडंडेंट" सेंसर संयोजन का उपयोग करने पर जोर देता है: कैमरों और मिलीमीटर-वेव रडार के अलावा, अल्ट्रासोनिक सेंसर भी तैनात किए जाएंगे, और लिडार को उच्च कॉन्फ़िगरेशन में जोड़ा जाएगा। उनके विचार में, विभिन्न सेंसरों की अतिरेक और विविधता चरम सीमा परिदृश्यों को पूरक करने और समग्र सुरक्षा अतिरेक में सुधार करने की कुंजी है। बेशक, जितने अधिक सेंसर होंगे, पूरे सिस्टम की हार्डवेयर लागत, विशेष रूप से लिडार, उतनी ही अधिक होगी, जिससे लोगों को चिंता होती है कि उच्चतम सुरक्षा विशिष्टताओं वाले समाधान केवल महंगी लक्जरी कारों में दिखाई देंगे। इस संबंध में, वू शिनझोउ का मानना है कि NVIDIA के "वर्टिकल इंटीग्रेशन" समाधान पर भरोसा करने और सेंसर की कीमतों में समग्र गिरावट से सुरक्षा प्रदर्शन को "न्यूनतम संभव" लागत सीमा तक कम किया जा सकता है।

उन्होंने बताया कि NVIDIA के DRIVE हाइपरियन प्लेटफ़ॉर्म ने अपने डिज़ाइन की शुरुआत से ही बहु-स्तरीय कॉन्फ़िगरेशन का समर्थन किया है: प्रवेश-स्तर संस्करण कैमरे और रडार पर आधारित एक सरलीकृत समाधान का उपयोग करता है। दस साल से अधिक के बड़े पैमाने पर उत्पादन के बाद, इन उपकरणों की लागत में काफी गिरावट आई है, और अल्ट्रासोनिक सेंसर स्वयं बहुत सस्ते हैं। स्वायत्त ड्राइविंग के उच्च स्तर के लिए, प्लेटफ़ॉर्म को मांग पर लिडार के साथ लगाया जा सकता है। चूँकि इस प्रकार के सेंसर की कीमत में गिरावट जारी है, उनका मानना है कि $40,000 से $50,000 की कीमत सीमा में बड़े पैमाने पर उत्पादित मॉडल में एक पूर्ण सेंसर स्टैक को लैस करना अकल्पनीय नहीं है।

सैन फ्रांसिस्को और अन्य स्थानों में वेमो की हालिया सुरक्षा घटनाओं के सामने - जैसे बिजली कटौती के कारण चौराहे के सिग्नल विफल होने पर सेल्फ-ड्राइविंग टैक्सियों द्वारा सामूहिक रूप से चौराहों को अवरुद्ध करना - वू शिनझोउ ने कहा कि ऐसे चरम मामलों को बार-बार कटौती के लिए एनवीडिया द्वारा सिमुलेशन वातावरण में ले जाया गया है। टेस्ला के विपरीत, जिसके पास निजी कारों का एक विशाल बेड़ा है, और वेमो, जिसने सार्वजनिक सड़कों पर लगभग 200 मिलियन मील की पूरी तरह से स्वायत्त ड्राइविंग जमा की है, एनवीडिया के पास वास्तविक सड़क परीक्षण डेटा में कोई फायदा नहीं है, इसलिए यह "सिंथेटिक डेटा" और उच्च-निष्ठा सिमुलेशन में बुनियादी ढांचे के निवेश पर अधिक ध्यान देता है।

सिमुलेशन रणनीति के संदर्भ में, NVIDIA मुख्य रूप से दो तरीकों को अपनाता है। पहला है "न्यूरल रिकंस्ट्रक्शन" (न्यूरेक)। यथार्थवादी त्रि-आयामी सड़क दृश्यों के पुनर्निर्माण के लिए इंजीनियर वास्तविक वाहनों द्वारा एकत्र किए गए सेंसर डेटा का उपयोग करते हैं, जिससे सिस्टम को आभासी वातावरण में एक निश्चित वास्तविक सड़क स्थिति का बार-बार अनुभव करने की अनुमति मिलती है। दूसरा "एन्हांसमेंट" है, अर्थात, पुनर्निर्मित दृश्य में चर को लगातार संशोधित करना, जैसे कि पैदल चलने वालों के समय, गति और स्थान को समायोजित करना, जिससे विभिन्न थोड़ी बदलती परिस्थितियों में सिस्टम के व्यवहार का निरीक्षण करने के लिए केवल सूक्ष्म अंतर के साथ नई स्थितियों की एक श्रृंखला उत्पन्न होती है। इस प्रक्रिया को आंतरिक रूप से डेटा सेट को "फ़ज़ीफ़ाइंग" कहा जाता है। एनवीडिया न केवल भागीदारों से ड्राइविंग रिकॉर्डर वीडियो प्राप्त करता है, बल्कि वेमो द्वारा सामना किए गए ट्रैफिक जाम जैसे सार्वजनिक घटना दृश्यों को सिमुलेशन में पुन: पेश करता है, सिस्टम को "सामूहिक जैमिंग" के समान व्यवहार पैटर्न से सक्रिय रूप से बचने के लिए सीखने के लिए प्रशिक्षित करता है।

हालाँकि, वू शिनझोउ की दृष्टि में, भविष्य में वास्तव में आदर्श स्वायत्त ड्राइविंग प्रणाली को सभी किनारे के मामलों को कवर करने के लिए अंतहीन वास्तविक वाहन सड़क परीक्षण डेटा पर निर्भर नहीं होना चाहिए, बल्कि नियमों और सीमित अनुभव के आधार पर "तर्क" करने और मुकाबला करने की रणनीति प्राप्त करने की क्षमता होनी चाहिए। इस उद्देश्य से, उनकी टीम "विज़न लैंग्वेज एक्शन" (विज़न लैंग्वेज एक्शन) नामक एक नया मॉडल विकसित कर रही है, जो दृश्य धारणा, भाषा समझ और शारीरिक क्रियाओं को एक ही वास्तुकला में एकीकृत करती है, और एक बुनियादी बड़े मॉडल का उपयोग करती है जिसे वाहनों को मजबूत समझ और तर्क क्षमता देने के लिए इंटरनेट-स्तरीय डेटा पर प्रशिक्षित किया गया है। वू शिनझोउ ने इसकी तुलना इंसानों द्वारा गाड़ी चलाना सीखने से की: पहले यातायात नियम मैनुअल पढ़ें, और फिर बीस घंटे तक सड़क पर अभ्यास करें। अधिकांश नए ड्राइवर पहले से ही सड़क पर योग्य होंगे, और फिर अनुभव के माध्यम से सुधार करना जारी रखेंगे। उन्होंने कहा, "हमारा लक्ष्य मॉडल को भी ऐसा करने में सक्षम बनाना है - भविष्य में इसे केवल एक नियम पुस्तिका और बीस घंटे के प्रशिक्षण डेटा की आवश्यकता होगी, और यह गाड़ी चलाना सीख सकेगा।"

उस ट्रैक पर जहां टेस्ला और वेमो जैसे अग्रदूत पहले से ही आगे चल रहे हैं, एनवीआईडीआईए "चिप + प्लेटफॉर्म + मॉडल + सिमुलेशन" के पूर्ण संयोजन के माध्यम से माइलेज और अनुभव में अंतर को कम करने की कोशिश कर रहा है, और खुद को पर्दे के पीछे के "कंप्यूटिंग इंफ्रास्ट्रक्चर बिल्डर" से स्वायत्त ड्राइविंग प्रौद्योगिकी मार्गों और सुरक्षा मानकों के एक महत्वपूर्ण सेटटर में बदल रहा है। जेन-हसुन हुआंग और शिनझोउ वू के लिए, "भौतिक दुनिया में एआई के चैटजीपीटी क्षण" पर यह जुआ अभी शुरुआती रेखा को पार कर गया है।