एमआईटी और एमआईटी-आईबीएम वॉटसन आर्टिफिशियल इंटेलिजेंस लेबोरेटरी के शोधकर्ताओं ने एफिशिएंटवीआईटी का अनावरण किया है, जो एक कंप्यूटर विज़न मॉडल है जो उच्च-रिज़ॉल्यूशन छवियों के वास्तविक समय अर्थ विभाजन को तेज करता है और सीमित हार्डवेयर वाले उपकरणों, जैसे सेल्फ-ड्राइविंग कारों के लिए अनुकूलित है।
सेल्फ-ड्राइविंग कारों को सड़क के किनारे खड़े एक निष्क्रिय डिलीवरी ट्रक से लेकर चौराहे की ओर जाने वाले साइकिल चालक तक, उनके सामने आने वाली वस्तुओं की तुरंत और सटीक पहचान करनी चाहिए।
उच्च-रिज़ॉल्यूशन कंप्यूटर विज़न के लिए मशीन लर्निंग मॉडल कम्प्यूटेशनल रूप से गहन दृष्टि अनुप्रयोगों जैसे कि स्वायत्त ड्राइविंग या किनारे के उपकरणों पर चिकित्सा छवि विभाजन को सक्षम कर सकते हैं। यह चित्र एक कलाकार द्वारा स्वायत्त ड्राइविंग तकनीक की व्याख्या को दर्शाता है। छवि स्रोत: एमआईटी न्यूज़
ऐसा करने के लिए, सेल्फ-ड्राइविंग कारें किसी दृश्य की उच्च-रिज़ॉल्यूशन छवि में प्रत्येक पिक्सेल को वर्गीकृत करने के लिए शक्तिशाली कंप्यूटर विज़न मॉडल का उपयोग कर सकती हैं ताकि निम्न-गुणवत्ता वाली छवियों में शामिल वस्तुओं को अनदेखा न किया जा सके। हालाँकि, यह कार्य, जिसे सिमेंटिक सेगमेंटेशन के रूप में जाना जाता है, जटिल है और उच्च छवि रिज़ॉल्यूशन पर बहुत सारी गणनाओं की आवश्यकता होती है।
एमआईटी, एमआईटी-आईबीएम वॉटसन आर्टिफिशियल इंटेलिजेंस प्रयोगशाला और अन्य संस्थानों के शोधकर्ताओं ने एक अधिक कुशल कंप्यूटर विज़न मॉडल विकसित किया है जो इस कार्य की कम्प्यूटेशनल जटिलता को काफी कम कर देता है। उनका मॉडल सीमित हार्डवेयर संसाधनों वाले उपकरणों पर वास्तविक समय में सिमेंटिक विभाजन को सटीक रूप से निष्पादित कर सकता है, जैसे कि ऑनबोर्ड कंप्यूटर जो स्व-ड्राइविंग कारों को दूसरे सेकंड में निर्णय लेने में सक्षम बनाता है।
वास्तविक समय प्रसंस्करण का अनुकूलन करें
हाल के अत्याधुनिक सिमेंटिक सेगमेंटेशन मॉडल एक छवि में पिक्सेल की प्रत्येक जोड़ी के बीच की बातचीत को सीधे सीखते हैं, इसलिए उनका कम्प्यूटेशनल प्रयास छवि रिज़ॉल्यूशन के साथ चौगुना हो जाता है। इस वजह से, ये मॉडल, सटीक होते हुए भी, सेंसर या मोबाइल फोन जैसे किनारे वाले उपकरणों पर वास्तविक समय में उच्च-रिज़ॉल्यूशन छवियों को संसाधित करने में बहुत धीमे हैं।
एमआईटी शोधकर्ताओं ने सिमेंटिक सेगमेंटेशन मॉडल के लिए एक नया बिल्डिंग ब्लॉक डिज़ाइन किया है जो इन अत्याधुनिक मॉडलों के समान क्षमताएं प्राप्त करता है, लेकिन केवल रैखिक कम्प्यूटेशनल जटिलता के साथ और हार्डवेयर दक्षता के साथ संचालित होता है।
परिणाम उच्च-रिज़ॉल्यूशन कंप्यूटर विज़न के लिए मॉडलों का एक नया परिवार है, जो मोबाइल उपकरणों पर तैनात होने पर, पिछले मॉडलों की तुलना में नौ गुना तेज़ प्रदर्शन करता है। महत्वपूर्ण बात यह है कि मॉडलों का यह नया परिवार इन वैकल्पिक मॉडलों की तुलना में समान या अधिक सटीकता दिखाता है।
EfficientViT सेल्फ-ड्राइविंग कारों को कुशलतापूर्वक सिमेंटिक सेगमेंटेशन करने में सक्षम बनाता है, एक उच्च-रिज़ॉल्यूशन वाला कंप्यूटर विज़न कार्य जिसमें एक दृश्य में प्रत्येक पिक्सेल को वर्गीकृत करना शामिल है ताकि कार वस्तुओं की सटीक पहचान कर सके। चित्रित डेमो वीडियो से एक तस्वीर है जो ऑब्जेक्ट वर्गीकरण के लिए उपयोग किए गए विभिन्न रंगों को दिखाती है। शोधकर्ताओं द्वारा प्रदान की गई छवि
समाधानों पर करीब से नज़र
यह तकनीक न केवल स्व-चालित कारों को वास्तविक समय में निर्णय लेने में मदद करेगी, बल्कि चिकित्सा छवि विभाजन जैसे अन्य उच्च-रिज़ॉल्यूशन कंप्यूटर विज़न कार्यों की दक्षता में भी सुधार करेगी।
"हालांकि शोधकर्ता लंबे समय से पारंपरिक दृष्टि ट्रांसफार्मर का उपयोग कर रहे हैं, और उन्होंने प्रभावशाली परिणाम प्राप्त किए हैं, हमें उम्मीद है कि लोग इन मॉडलों के दक्षता पहलुओं पर भी ध्यान केंद्रित करेंगे। हमारा काम दिखाता है कि कम्प्यूटेशनल लोड को काफी कम करना संभव है, ताकि डिवाइस पर वास्तविक समय छवि विभाजन स्थानीय स्तर पर किया जा सके।" इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस विभाग (ईईसीएस) में एसोसिएट प्रोफेसर, एमआईटी-आईबीएम वॉटसन एआई लैब के सदस्य और नए मॉडल का वर्णन करने वाले पेपर के वरिष्ठ लेखक हान सॉन्ग ने कहा।
उनके साथ पेपर लिखने वाले हैं इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस विभाग के स्नातक छात्र कै हान, पेपर के पहले लेखक, झेजियांग विश्वविद्यालय के स्नातक छात्र ली जुनयान, सिंघुआ विश्वविद्यालय के स्नातक छात्र हू मुयान और एमआईटी-आईबीएम वाटसन आर्टिफिशियल इंटेलिजेंस प्रयोगशाला के प्रमुख शोधकर्ता गण चुआंग। यह शोध कंप्यूटर विज़न पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जाएगा।
सरलीकृत समाधान
प्रत्येक पिक्सेल को उच्च-रिज़ॉल्यूशन छवि में वर्गीकृत करना जिसमें लाखों पिक्सेल हो सकते हैं, मशीन लर्निंग मॉडल के लिए एक कठिन कार्य है। हाल ही में, विज़ुअल कनवर्टर नामक एक शक्तिशाली नया मॉडल प्रभावी ढंग से लागू किया गया है।
ट्रांसफार्मर मूल रूप से प्राकृतिक भाषा प्रसंस्करण के लिए विकसित किए गए थे। इस मामले में, वे वाक्य में प्रत्येक शब्द को एक टोकन के रूप में एन्कोड करते हैं और फिर एक ध्यान मानचित्र तैयार करते हैं जो प्रत्येक टोकन और अन्य सभी टोकन के बीच संबंध को पकड़ता है। जब मॉडल भविष्यवाणी करता है तो यह ध्यान मानचित्र संदर्भ को समझने में मदद करता है।
उसी अवधारणा का उपयोग करते हुए, दृश्य ट्रांसफार्मर छवि को पिक्सेल पैच में विभाजित करता है और प्रत्येक पैच को एक लेबल में एन्कोड करता है, फिर एक ध्यान मानचित्र बनाता है। इस ध्यान मानचित्र को बनाते समय, मॉडल एक समानता फ़ंक्शन का उपयोग करके प्रत्येक जोड़ी पिक्सेल के बीच की बातचीत को सीधे सीखता है। इस तरह, मॉडल एक वैश्विक ग्रहणशील क्षेत्र बनाता है, जिसका अर्थ है कि इसकी छवि के सभी प्रासंगिक हिस्सों तक पहुंच है।
चूँकि उच्च-रिज़ॉल्यूशन छवियों में लाखों पिक्सेल हो सकते हैं और उन्हें हजारों खंडों में विभाजित किया जा सकता है, ध्यान ग्राफ़ जल्दी से बहुत बड़े हो सकते हैं। इसलिए, जैसे-जैसे छवि रिज़ॉल्यूशन बढ़ता है, गणना की मात्रा चार गुना बढ़ जाती है।
EfficientViT नामक मॉडलों के एक नए परिवार में, MIT शोधकर्ताओं ने ध्यान मानचित्र बनाने के लिए एक सरल तंत्र अपनाया - गैर-रेखीय समानता कार्यों को रैखिक समानता कार्यों के साथ प्रतिस्थापित किया। इसलिए, वे संचालन के क्रम को पुनर्व्यवस्थित कर सकते हैं और कार्यक्षमता को बदले बिना और वैश्विक ग्रहणशील क्षेत्र को खोए बिना कुल कम्प्यूटेशनल प्रयास को कम कर सकते हैं। उनके मॉडल में, भविष्यवाणी के लिए आवश्यक कम्प्यूटेशनल प्रयास छवि रिज़ॉल्यूशन के साथ रैखिक रूप से बढ़ता है।
"लेकिन कोई मुफ्त लंच नहीं है। रैखिक ध्यान केवल छवि की वैश्विक पृष्ठभूमि को पकड़ सकता है और स्थानीय जानकारी खो देगा, जिससे सटीकता खराब हो जाएगी," हान ने कहा। सटीकता में हुए नुकसान की भरपाई के लिए, शोधकर्ताओं ने मॉडल में दो अतिरिक्त तत्व जोड़े, जिनमें से प्रत्येक ने केवल थोड़ी मात्रा में गणना जोड़ी।
घटकों में से एक मॉडल को स्थानीय सुविधाओं की बातचीत को पकड़ने और स्थानीय सूचना निष्कर्षण में रैखिक कार्यों की कमजोरी को कम करने में मदद कर सकता है। दूसरा तत्व एक मॉड्यूल है जो बहु-स्तरीय शिक्षण को लागू करता है, जिससे मॉडल को बड़ी और छोटी वस्तुओं को पहचानने में मदद मिलती है।
कै हान ने कहा: "यहां सबसे महत्वपूर्ण हिस्सा यह है कि हमें प्रदर्शन और दक्षता को सावधानीपूर्वक संतुलित करने की आवश्यकता है।" उन्होंने हार्डवेयर-अनुकूल आर्किटेक्चर के साथ EfficientViT को डिज़ाइन किया, जिससे विभिन्न प्रकार के उपकरणों, जैसे वीआर हेडसेट या सेल्फ-ड्राइविंग कारों के लिए एज कंप्यूटर पर चलना आसान हो गया। उनके मॉडल को अन्य कंप्यूटर विज़न कार्यों जैसे छवि वर्गीकरण पर भी लागू किया जा सकता है।
सिमेंटिक विभाजन को सरल बनाएं
जब उन्होंने सिमेंटिक सेगमेंटेशन के लिए उपयोग किए गए डेटासेट पर अपने मॉडल का परीक्षण किया, तो उन्होंने पाया कि मॉडल अन्य लोकप्रिय विज़ुअल ट्रांसफॉर्मर मॉडल की तुलना में एनवीआईडीआईए ग्राफिक्स प्रोसेसिंग यूनिट (जीपीयू) पर समान या बेहतर सटीकता के साथ नौ गुना तेजी से चलता है।
हान सोंग ने कहा, "अब, हम मोबाइल और क्लाउड उपकरणों पर चलने के लिए गणनाओं को धीमा करके दोनों दुनिया का सर्वश्रेष्ठ प्राप्त कर सकते हैं।" इन परिणामों के आधार पर, शोधकर्ता जेनरेटिव मशीन लर्निंग मॉडल को गति देने के लिए तकनीक को लागू करने की उम्मीद करते हैं, जैसे कि नई छवियां उत्पन्न करने के लिए उपयोग किया जाता है। वे अन्य विज़न कार्यों में EfficientViT के अनुप्रयोग का विस्तार जारी रखने की भी उम्मीद करते हैं।
एएमडी में आर्टिफिशियल इंटेलिजेंस एल्गोरिदम के वरिष्ठ निदेशक ल्यूटियन ने कहा: "प्रोफेसर हान सॉन्ग की टीम द्वारा अग्रणी कुशल ट्रांसफार्मर मॉडल अब विभिन्न कंप्यूटर विज़न कार्यों जैसे कि पता लगाने और विभाजन में अत्याधुनिक तकनीक की रीढ़ बन गया है। उनका शोध न केवल ट्रांसफार्मर की दक्षता और क्षमताओं को प्रदर्शित करता है, बल्कि वास्तविक दुनिया के अनुप्रयोगों में इसकी विशाल क्षमता का भी खुलासा करता है, जैसे कि वीडियो गेम में छवि गुणवत्ता में सुधार।"
"मॉडल संपीड़न और हल्के मॉडल डिजाइन कुशल कृत्रिम बुद्धिमत्ता कंप्यूटिंग को प्राप्त करने के लिए प्रमुख अनुसंधान विषय हैं, विशेष रूप से बड़े पैमाने पर बुनियादी मॉडल में। प्रोफेसर हान सॉन्ग के अनुसंधान समूह ने आधुनिक गहन शिक्षण मॉडल, विशेष रूप से दृश्य ट्रांसफार्मर को संपीड़ित और तेज करने में महत्वपूर्ण प्रगति की है।" ओरेकल में कृत्रिम बुद्धिमत्ता और मशीन लर्निंग के वैश्विक उपाध्यक्ष जे जैक्सन, जो अनुसंधान में शामिल नहीं थे, ने कहा। "ओरेकल क्लाउड इन्फ्रास्ट्रक्चर कुशल, हरित कृत्रिम बुद्धिमत्ता को सक्षम करने के लिए इस प्रभावशाली शोध को आगे बढ़ाने में अपनी टीम का समर्थन कर रहा है।"