17 जून को, संयुक्त राज्य अमेरिका में स्थानीय समय के अनुसार, NVIDIA के जनरल एम्बॉडीड एजेंट रिसर्च लेबोरेटरी (GEAR लैब) ने एक नई रोबोट स्व-सुधार योजना की घोषणा की: AI प्रोग्रामिंग एजेंटों से बनी एक "कोचिंग टीम" के माध्यम से, रोबोट बांह के लिए लगभग बिना किसी मानवीय हस्तक्षेप के एक प्रशिक्षण प्रक्रिया तैयार की जाती है, ताकि रोबोट प्लास्टिक संबंधों को काटना, छोटे भागों को व्यवस्थित करना और यहां तक ​​कि मदरबोर्ड विस्तार स्लॉट में GPU को सटीक रूप से सम्मिलित करना सीख सके।

यह समाधान ENPIRE नामक "एजेंट हार्नेस" पर आधारित है - यह बड़े मॉडल के चारों ओर लिपटे एक सॉफ्टवेयर शेल की तरह है, जो AI प्रोग्रामिंग एजेंटों को विभिन्न टूल को कॉल करने की अनुमति देता है और स्वचालित रूप से योजना बनाने, निष्पादित करने, मूल्यांकन करने और रोबोट प्रशिक्षण कार्यों को पुनरावृत्त करने के लिए मेमोरी, संदर्भ प्रबंधन, बाधा नियंत्रण और फीडबैक लूप की क्षमता रखता है। एनवीडिया ने कहा कि फ्रेमवर्क कार्नेगी मेलन विश्वविद्यालय और कैलिफोर्निया विश्वविद्यालय, बर्कले के शोधकर्ताओं के साथ मिलकर GEAR लैब टीम द्वारा विकसित किया गया था।

एनवीआईडीआईए एआई के प्रमुख जिम फैन ने सोशल प्लेटफॉर्म पर बताया कि प्रयोगशाला का हिस्सा अब रात में "आत्म-सुधार" कर सकता है, और शोधकर्ताओं को रात से पहले रोबोट की प्रगति को समझने के लिए केवल सुबह प्रशिक्षण रिपोर्ट की जांच करने की आवश्यकता है। उन्होंने आधे-मजाक में कहा कि एक आदर्श दुनिया में "हर कोई छुट्टी पर जाएगा और हुआंग रेनक्सुन को पता नहीं चलेगा", और कहा कि टीम प्रासंगिक परिणामों को स्रोत खोलने की योजना बना रही है ताकि कोई भी घर पर अपनी "स्वयं चलने वाली रोबोट प्रयोगशाला" बना सके।

ENPIRE ढांचे में वर्तमान में चार मुख्य मॉड्यूल शामिल हैं: पहला, यह रोबोट कार्यों के लिए स्वचालित रीसेट और परिणाम सत्यापन प्रदान करता है; दूसरा, यह रोबोट नियंत्रण रणनीतियों को स्वचालित रूप से अनुकूलित करता है; तीसरा, यह कई भौतिक रोबोटों पर समानांतर में विभिन्न रणनीतियों का मूल्यांकन करता है; चौथा, यह लॉग का विश्लेषण करके, कागजात पढ़कर और प्रशिक्षण बुनियादी ढांचे और एल्गोरिदम कोड में सुधार करके प्रशिक्षण में विफलता के मामलों को संभालता है। शोध दल ने 16 जून को एक तकनीकी पेपर प्रकाशित किया जिसमें सिस्टम के कार्यान्वयन विवरण और प्रयोगात्मक परिणामों का विवरण दिया गया।

प्रयोग में, शोधकर्ताओं ने तीन प्रकार के मुख्यधारा एआई प्रोग्रामिंग एजेंटों को पेश किया: ओपनएआई कोडेक्स और जीपीटी‑5.5 पर आधारित एजेंट, एंथ्रोपिक क्लाउड कोड ओपस 4.7 पर आधारित एजेंट, और डार्क साइड ऑफ द मून (मूनशॉट एआई) किमी कोड K2.6 पर आधारित एजेंट। ये एजेंट स्वतंत्र रूप से एक टीम के रूप में विभिन्न एल्गोरिदम सुधार योजनाओं का प्रस्ताव देंगे, वास्तविक रोबोटों पर प्रशिक्षण प्रयोग करेंगे, और फिर उन परिवर्तनों को बनाए रखेंगे जो समग्र सफलता दर में सुधार कर सकते हैं, और पुनरावृत्ति जारी रखेंगे।

परिणाम बताते हैं कि ENPIRE की शेड्यूलिंग के तहत, AI प्रोग्रामिंग एजेंट विभिन्न प्रकार के रोबोटिक आर्म ऑपरेशन कार्यों के लिए स्वचालित रूप से प्रभावी आत्म-सुधार रणनीतियों को डिजाइन कर सकते हैं: मानक पुश-टी डेस्कटॉप ऑपरेशन कार्य में, रोबोट को टी-आकार के बिल्डिंग ब्लॉक्स को लक्ष्य क्षेत्र में सटीक रूप से धकेलने की आवश्यकता होती है; अन्य कार्यों में, रोबोट को सुई बॉक्स में छोटी सुइयों को व्यवस्थित करना, प्लास्टिक संबंधों को बांधना और काटना, या मदरबोर्ड स्लॉट में जीपीयू डालना और परीक्षण के प्रत्येक दौर के बाद रीसेट करने के लिए इसे बाहर निकालना आवश्यक है। कई कार्यों पर, सिस्टम ने अंततः 99% सफलता दर हासिल की, एआई-संचालित प्रशिक्षण कार्यक्रम पिन प्रविष्टि और सॉर्टिंग कार्यों पर मनुष्यों को शामिल करने वाले "अत्याधुनिक मानव भागीदारी दृष्टिकोण" की तुलना में लगभग 100% सफलता दर तक पहुंच गया।

प्रयोगों से यह भी पता चलता है कि एजेंटों की संख्या बढ़ाने से सीखने की प्रक्रिया में काफी तेजी आ सकती है: पुश‑टी कार्य पर, 8 एजेंटों की एक टीम ने केवल 2 घंटे के शोध समय में सफलता दर को 99% तक पहुंचा दिया, जबकि 4 की एक टीम को समान स्तर तक पहुंचने के लिए 3 घंटे और एक एजेंट को लगभग 5 घंटे की आवश्यकता थी। हालाँकि, शोधकर्ताओं ने यह भी देखा कि मल्टी-एजेंट सहयोग की दक्षता में रैखिक रूप से सुधार नहीं होता है। जैसे-जैसे एजेंटों की संख्या बढ़ती है, प्रशिक्षण करने के लिए रोबोटों को वास्तव में शेड्यूल करने के बजाय सारांश बनाने और एक-दूसरे के साथ संचार करने में अधिक समय व्यतीत होता है।

अनुसंधान दल ने वर्तमान प्रणाली की कई सीमाओं की ओर भी इशारा किया: कई समय तक, रोबोट प्रायोगिक बेंच पर निष्क्रिय रहता है, एआई प्रोग्रामिंग एजेंट के लॉग पढ़ने, लिखने और डिबग कोड की प्रतीक्षा करता है, या अंतर्निहित भाषा मॉडल के जवाब देने की प्रतीक्षा करता है। इसके अलावा, समानांतर प्रशिक्षण के संदर्भ में, एजेंट कभी-कभी मौजूदा कंप्यूटिंग संसाधनों का पूरी तरह से उपयोग नहीं करते हैं, जिसके परिणामस्वरूप प्रयोगात्मक थ्रूपुट सैद्धांतिक ऊपरी सीमा से नीचे हो जाता है। लागत के नजरिए से, एजेंटों की संख्या और प्रशिक्षण आवृत्ति में वृद्धि का मतलब काफी अधिक टोकन खपत भी है, जो सीधे इस तथ्य से संबंधित है कि कई एआई सेवा प्रदाता वर्तमान में टोकन-आधारित चार्जिंग पद्धति को बढ़ाने पर विचार कर रहे हैं।

हालाँकि अभी भी कमियाँ हैं, एनवीडिया स्पष्ट रूप से अपनी महत्वाकांक्षाओं को बढ़ा रहा है जिसे वह "भौतिक एआई" कहता है। एआई लहर द्वारा लाए गए प्रचुर नकदी प्रवाह के साथ, कंपनी कई रोबोट परियोजनाओं में निवेश करना जारी रखती है: इस साल मई के अंत में, एनवीआईडीआईए ने घोषणा की कि वह सामान्य एआई रोबोट के अनुसंधान और विकास के लिए अनुसंधान संस्थानों को "यूनिवर्सल ह्यूमनॉइड रोबोट संदर्भ मंच" प्रदान करने के लिए चीनी रोबोट कंपनी यूनिट्री के प्रतिस्पर्धी यूनिट्री के साथ सहयोग करेगी। इस साल जून की शुरुआत में, हुआंग रेनक्सुन ने दक्षिण कोरिया का गहन दौरा किया और एआई रोबोट के बड़े पैमाने पर विनिर्माण का विस्तार करने के तरीके पर चर्चा करने के लिए हुंडई मोटर समूह के कार्यकारी अध्यक्ष चुंग यूई-सन से मुलाकात की; हुंडई ने पहले अपने चार पैरों वाले "रोबोट डॉग" स्पॉट के लिए प्रसिद्ध अमेरिकी कंपनी बोस्टन डायनेमिक्स का अधिग्रहण किया है, और द्विपाद ह्यूमनॉइड रोबोट एटलस के व्यावसायीकरण को बढ़ावा दे रही है।

इस पथ पर, ENPIRE और इसके पीछे AI प्रोग्रामिंग एजेंटों की टीम को "स्व-संचालित रोबोट प्रयोगशाला" के लिए प्रमुख घटक माना जाता है। वे परीक्षण और त्रुटि, पैरामीटर समायोजन और साहित्य पढ़ने में मानव विशेषज्ञों के बहुत सारे काम एआई को सौंपने की कोशिश करते हैं, जिससे शोधकर्ताओं को "सुबह दैनिक समीक्षा" की भूमिका निभाने की अनुमति मिलती है। प्रासंगिक कोड और रूपरेखाओं के खुले स्रोत के साथ, क्या समान स्वायत्त प्रशिक्षण प्रणालियाँ भविष्य में विश्वविद्यालयों, उद्यमों और यहां तक ​​कि व्यक्तिगत उत्साही लोगों के बीच लोकप्रिय हो जाएंगी, "भौतिकी एआई" के कार्यान्वयन की गति का निरीक्षण करने के लिए एक महत्वपूर्ण खिड़की बन जाएगी।