DALL·E3 आ रहा है! न केवल यह आ रहा है, बल्कि इसे ChatGPT में एकीकृत भी किया जाएगा।दूसरे शब्दों में, सामान्य बातचीत, कोड लिखना और गणित की समस्याओं को हल करने के अलावा,ChatGPT, जो नवीनतम DALL·E3 को एकीकृत करता है, अंततः इस बार एक चित्र फ़ंक्शन है।
ChatGPT+DALL·E, यह लहर एक मजबूत गठबंधन है। एक बड़े भाषा मॉडल में बेताज बादशाह है, और दूसरा विन्सेंटियन ग्राफ़ मॉडल में भी अग्रणी है। वास्तविक प्रभाव अनिवार्य रूप से 1+1>2 होगा।
माना जाता है कि इस अचानक आधिकारिक घोषणा ने मल्टी-मोडल चैटजीपीटी में एक बड़ा छेद भर दिया है, जिसके बारे में इस साल की शुरुआत में जीपीटी-4 के आने के बाद व्यापक रूप से अफवाह थी।
हालाँकि, OpenAI ने अभी इस खबर की घोषणा की है।विशिष्ट लॉन्च का समय अक्टूबर है। प्लस और एंटरप्राइज़ संस्करण उपयोगकर्ताओं के लिए, इस पतझड़ में एक अलग DALL·E3 भी लॉन्च किया जाएगा।
यह चीज़ कितनी शक्तिशाली है? हालाँकि हम अभी तक शुरुआत नहीं कर सके हैं, लेकिन OpenAI द्वारा जारी उदाहरणों को देखते हुए, यह अभी भी काफी विस्फोटक है।
उनमें से, कुछ उत्साही नेटिज़न्स ने सीधे मिडजॉर्नी को फोन किया और उसे DALL·E3 के उदाहरण संकेत शब्द दिए ताकि वे सीधे प्रतिस्पर्धा कर सकें।
और परिणाम केवल इतना ही कहा जा सकता है:मध्ययात्रा ख़तरे में है.
पहला एक बहुत ही क्लासिक एवोकैडो मेडिकल मेम है। संकेत यह है: एक एवोकैडो एक चिकित्सक की कुर्सी पर बैठा है और कह रहा है, "मैं अंदर से बहुत खाली महसूस करता हूं।" एवोकैडो के बीच में एक छोटे गड्ढे के आकार का एक छेद होता है। चिकित्सक, चम्मच, डूडल नोट्स।
हालाँकि पहली नज़र में ये दो अलग-अलग शैलियाँ लगती हैं। लेकिन अगर हम ध्यान से संकेतित शब्दों की तुलना करें तो यह स्पष्ट हैमिडजॉर्नी चिकित्सक, चम्मच और भित्तिचित्र नोट्स को नजरअंदाज करता है। संवाद बॉक्स में पाठ भी बेतरतीब ढंग से लिखा गया है और आवश्यकताओं का पालन नहीं करता है।
फिर उनसे एक पारभासी हृदय की तस्वीर बनाने के लिए कहा गया और हृदय के नीचे एक विशिष्ट उद्धरण अंकित करने के लिए कहा गया।
युक्ति: यह पारभासी कांच से बने मानव हृदय का चित्रण है, जो तूफानी सागर में एक चौकी पर खड़ा है। सूरज की रोशनी बादलों में प्रवेश करती है और आत्मा को रोशन करती है, भीतर के छोटे ब्रह्मांड को प्रकट करती है। उद्धरण "अपने भीतर ब्रह्मांड की खोज करें" आधार पर मोटे अक्षरों में अंकित है।
इसमें कोई संदेह नहीं है कि DALL·E3 ने इस बार एक बार फिर मिडजर्नी को हराया।आवश्यकतानुसार पात्रों को न उकेरने के अलावा, मिडजॉर्नी तूफानी सागर और आंतरिक सूक्ष्म जगत जैसे किसी भी विवरण को दिखाने में भी विफल रहा।
यहां लीची से प्रेरित गोलाकार कुर्सी की एक और तस्वीर है, जिसमें विवरण के लिए एक सफेद ऊबड़-खाबड़ बाहरी भाग और एक नरम इंटीरियर की आवश्यकता है जो इसके पीछे उष्णकटिबंधीय वॉलपेपर के विपरीत है।
इससे उनके द्वारा निर्मित चित्र के सभी तत्व जीवंत हो उठते हैं।लेकिन ऐसा लगता है कि मिडजॉर्नी ने उष्णकटिबंधीय वॉलपेपर और उष्णकटिबंधीय वर्षावन के बीच अंतर को गलत समझा है।
बेशक, शीघ्र शब्दों को गलत समझना और उन्हें संदर्भ से बाहर ले जाना पिछले विन्सेंटियन आरेख मॉडल की पुरानी बीमारियों के बराबर है।
बस एक साधु केकड़े की तरह एक केकड़े को जन्म दो...
इसे 2डी मानवरूपी वन बैंड उत्पन्न करने के लिए कहने के परिणामस्वरूप 3डी...
जहां तक इन पुरानी समस्याओं का सवाल है, OpenAI के अपने बयान और दिए गए उदाहरणों के अनुसार, यह स्थिति मूल रूप से नए DALL·E3 में मौजूद नहीं है।
पुरानी समस्याओं को हल करने के अलावा, DALL·E3 ने मूल दूसरी पीढ़ी के संस्करण की बनावट को भी उन्नत किया है।
उदाहरण के लिए, उन्हें एक बास्केटबॉल खिलाड़ी का डंक मारने का दृश्य बनाने दें, जिसका तत्व तारों वाले आकाश में एक विस्फोट है।
मूल रूप से, DALL·E2 द्वारा उत्पन्न चित्र पहले से ही आवश्यकताओं को पूरा करते थे। अप्रत्याशित रूप से, उन्नत DALL·E3 अधिक यथार्थवादी था, जिसमें मांसपेशियों की रेखाएं और ब्रह्मांड के रंग जैसे विवरण एक-एक करके प्रदर्शित होते थे। यह वास्तव में आयामीता में कमी के लिए एक झटका था।
बाएँ: DALL·E2, दाएँ: DALL·E3
कुल मिलाकर,चैटजीपीटी के समर्थन से, DALL·E3 की भाषा समझने की क्षमता सीधे अधिकतम हो जाती है, और इसे जीतना लगभग असंभव है।
चैटजीपीटी का उन्नत संस्करण न केवल मुख्य सूचना बिंदुओं को खोएगा, बल्कि यदि आप यहां और वहां केवल कुछ कीवर्ड भी टाइप करते हैं, तो यह आपको स्वचालित रूप से विवरण पूरा करने में मदद कर सकता है और फिर DALL·E3 को चित्र उत्पन्न करने दे सकता है।
ओपनएआई ने समकालीन नेटिज़न्स (कुत्ते के सिर) के "सांस्कृतिक रेगिस्तान" के सार को समझ लिया है।
बेशक, DALL·E3 और ChatGPT का एकीकरण मानव भाषण को बेहतर ढंग से समझने में सक्षम होने जितना आसान नहीं है, वे कुछ अद्भुत चिंगारी भी पैदा करेंगे।
उदाहरण के लिए, चैटजीपीटी के उन्नत संस्करण में ड्राइंग में संदर्भ समझने की क्षमता भी है, और इसे सीधे उत्पादकता उपकरण के रूप में भी इस्तेमाल किया जा सकता है।
यह देखने के लिए कि यह विशेष रूप से कितना शक्तिशाली है, OpenAI की आधिकारिक वेबसाइट एक प्रदर्शन वीडियो प्रदान करती है। सच कहें तो इसे देखने के बाद शिचाओ एक चित्रकार की नौकरी को लेकर चिंतित थे।
सबसे पहले, चैटजीपीटी को एक सुपर सनफ्लावर हेजहोग उत्पन्न करने दें। यह आपको चार तस्वीरें देगा. आपको जो सबसे अधिक पसंद है उसे चुनने के बाद, आप बातचीत के अगले चरण पर आगे बढ़ सकते हैं।
फिर हेजहोग का नाम लैरी रखें, और चैटजीपीटी को उसकी कुछ और तस्वीरें बनाने दें।
इसके बाद, आइए कठिनाई बढ़ाएं और लैरी के घर को दिखाने के लिए एक दृश्य बनाएं।
यह सीधे DALL·E3+ChatGPT की ताकत दिखा सकता है। न केवल लैरी की शक्ल वैसी ही रहती है (यह अन्य एआई के लिए बदल सकती है), बल्कि दरवाजे पर मेलबॉक्स पर भी "LARRY" नाम लिखा हुआ है।
इसके अलावा, लैरी की विशेषताओं का वर्णन करना, उसके प्यार को दिखाने के लिए चित्रों का उपयोग करना, और यहां तक कि लैरी के बाह्य उपकरणों को बनाना और कुछ स्टिकर डिजाइन करना, ये सभी ChatGPT के लिए आसान हैं।
अंत में, इसे सोने के समय की कहानी और समापन मुद्रा का आयोजन करने दें। चैटजीपीटी भी आपकी उंगलियों पर है। u1s1 मैं इस रेशमी संवाद से सचमुच चौंक गया...
यह देखकर शिचाओ को अचानक एक नई प्रेरणा मिली। बाद में, हमारे द्वारा लिखा गया लेख सीधे चैटजीपीटी पर डाला जा सकता है और इसे कवर बनाने के लिए कीवर्ड निकालने दिया जा सकता है।
यदि आपकी कोई विशेष आवश्यकता है, तो आप सीधे चैटजीपीटी को बता सकते हैं। आप इसमें संदर्भ चित्र भी डाल सकते हैं। मछली पकड़ने का कौशल +1+1...
घर के करीब, उपर्युक्त प्रभाव केवल OpenAI द्वारा एकतरफा प्रदर्शित किए जाते हैं। वास्तव में इसका उपयोग कैसे किया जाएगा यह अक्टूबर में ऑनलाइन होने तक ज्ञात नहीं होगा। यह अनुमान लगाया गया है कि तब तक नेटिज़न्स द्वारा विकसित छिपी हुई तकनीकों की एक लहर होगी। बस, इंतज़ार करो और देखो।
इसके अलावा, जब एआई पेंटिंग की बात आती है, तो अभी भी एक सामान्य विषय है जिसे टाला नहीं जा सकता है: कॉपीराइट मुद्दे।
OpenAI अभी भी अपनी पिछली स्थिति पर कायम है।दूसरे संस्करण की तरह, DALL·E3 से उत्पन्न चित्रों का उपयोग बिना अनुमति के किया जा सकता है और व्यावसायिक रूप से उपयोग किया जा सकता है।
हालाँकि, अतीत से बहुत कुछ सीखने के बाद, OpenAI इस बार थोड़ा चतुर है, यह कहते हुए कि कलाकार अपने कार्यों को DALL·E को खिलाने से इनकार करने का विकल्प चुन सकते हैं, जब तक कि वे एक फॉर्म भरते हैं।
हालाँकि इसका कुछ हद तक मतलब है "मना न करना स्वीकार करना है", लेकिन पहले की तुलना में, कम से कम कलाकार अब इतने निष्क्रिय नहीं हैं...
DALL·E के पास इंटरनेट पर पिछली AI पेंटिंग्स के खिलाफ भी जवाबी उपाय हैं जो सार्वजनिक हस्तियों की गोपनीयता और अन्य पक्षपाती मुद्दों पर हमला करते थे:वास्तविक उपयोग में, चैटजीपीटी प्रॉम्प्ट में किसी सार्वजनिक व्यक्ति के नाम वाले अनुरोधों को सीधे अस्वीकार कर देगा।
दूसरे शब्दों में, हम शायद ChatGPT में इस तरह की मज़ेदार तस्वीरें नहीं देखेंगे...
और उन्होंने विभिन्न चरणों में मॉडल से उत्पन्न होने वाले जोखिमों का मूल्यांकन करने और उन्हें कम करने के लिए एक "रेड टीम" भी बनाई।
अंत में, OpenAI ने अपनी आधिकारिक वेबसाइट पर यह भी कहा कि वे AI चित्रों की पहचान करने के लिए एक उपकरण पर काम कर रहे हैं, जो यह निर्धारित कर सकता है कि कौन से चित्र DALL·E3 द्वारा उत्पन्न किए गए थे।
(मुझे बस उम्मीद है कि यह पिछले एआई टेक्स्ट रिकग्निशन टूल की तरह नहीं होगा, क्योंकि यह बेकार था और आधे रास्ते में ही ख़त्म हो गया था...
सामान्य तौर पर, विंसेंट ग्राफ फ़ंक्शन के साथ चैटजीपीटी एआई सर्कल में उत्साह की लहर जगाने के लिए पर्याप्त है, और यह लहर DALL·E3 का एकीकृत उन्नत संस्करण है, जो रोमांचक नहीं होना मुश्किल है। वैसे भी, शिचाओ इसे आज़माने के लिए इंतज़ार नहीं कर सकता।
लेकिन कुछ लोग खुश हैं तो कुछ परेशान हैं. OpenAI की इस लहर ने एक बार फिर अपने साथियों को काफी पीछे छोड़ दिया है। अक्टूबर अपडेट के बाद, यह अनुमान लगाया गया है कि कई एआई स्टार्टअप चैटजीपीटी के पहियों के नीचे कुचल दिए जाएंगे...