OpenAI ने DALL-E कृत्रिम बुद्धिमत्ता विज़न model_5iter.com का तीसरा संस्करण जारी किया

OpenAI ने अपने जेनरेटिव आर्टिफिशियल इंटेलिजेंस विजुअल आर्ट्स प्लेटफॉर्म DALL-E का तीसरा संस्करण जारी किया है, जो अब उपयोगकर्ताओं को ChatGPT का उपयोग करके संकेत बनाने की अनुमति देता है और इसमें अधिक सुरक्षा विकल्प शामिल हैं। DALL-E टेक्स्ट प्रॉम्प्ट को छवियों में परिवर्तित करता है। लेकिन DALL-E2 भी गलतियाँ करता है, अक्सर विशिष्ट शब्दों को नज़रअंदाज कर देता है। ओपनएआई शोधकर्ताओं का कहना है कि नवीनतम संस्करण संदर्भ को बेहतर ढंग से समझता है।

DALL-E3 की एक नई सुविधा ChatGPT के साथ एकीकरण है। ChatGPT का उपयोग करके, उपयोगकर्ताओं को DALL-E3 का मार्गदर्शन करने के लिए स्वयं विस्तृत संकेत लिखने की आवश्यकता नहीं है; वे बस ChatGPT को एक संकेत देने के लिए कहते हैं, और चैटबॉट DALL-E3 के अनुसरण के लिए एक पैराग्राफ लिखता है (DALL-E लंबे वाक्यों का उपयोग करने में बेहतर है)। यदि अन्य उपयोगकर्ताओं के पास DALL-E के लिए विशेष विचार हैं तो वे भी अपनी युक्तियों का उपयोग कर सकते हैं।

DALL-E को पहली बार जनवरी 2021 में स्टेबिलिटीएआई और मिडजॉर्नी के अन्य टेक्स्ट-टू-इमेज जेनरेटर एआई आर्ट प्लेटफॉर्म से पहले रिलीज़ किया गया था। 2022 में DALL-E2 के लॉन्च होने तक, OpenAI ने यह नियंत्रित करने के लिए एक प्रतीक्षा सूची खोली है कि प्लेटफ़ॉर्म का उपयोग कौन कर सकता है, इस आलोचना के बीच कि DALL-E यथार्थवादी रूप से स्पष्ट छवियां उत्पन्न कर सकता है और इसके द्वारा उत्पन्न तस्वीरों में पूर्वाग्रह प्रदर्शित कर सकता है। पिछले सितंबर में, कंपनी ने प्रतीक्षा सूची को समाप्त कर दिया और DALL-E2 को जनता के लिए खोल दिया।

DALL-E का नया संस्करण सबसे पहले अक्टूबर में चैटजीपीटीप्लस और चैटजीपीटीएंटरप्राइज उपयोगकर्ताओं के लिए जारी किया जाएगा, इसके बाद अनुसंधान प्रयोगशालाओं और उनकी एपीआई सेवाओं के लिए जारी किया जाएगा। OpenAI ने DALL-E3 की रिलीज़ को कम करने की योजना बनाई है, लेकिन मुफ़्त सार्वजनिक संस्करण कब रिलीज़ किया जाएगा, इसके बारे में उसने कोई प्रतिबद्धता नहीं जताई है।

OpenAI का दावा है कि उसने DALL-E3 पर व्यापक काम किया है, जिसमें अश्लील या संभावित रूप से घृणित छवियों के निर्माण को रोकने के लिए मजबूत सुरक्षा उपाय बनाने पर ध्यान केंद्रित किया गया है। ओपनएआई का कहना है कि यह बाहरी रेडटीमर्स के साथ काम करता है - एक समूह जो जानबूझकर अपनी सुरक्षा का परीक्षण करने के लिए सिस्टम से समझौता करने का प्रयास करता है - और इनपुट क्लासिफायर पर निर्भर करता है, एक विधि जो भाषा मॉडल को स्पष्ट या क्रूर-बल संकेतों से बचने के लिए कुछ शब्दों को अनदेखा करना सिखाती है। DALL-E3 किसी सार्वजनिक व्यक्ति की छवि को पुन: प्रस्तुत नहीं कर सकता - बशर्ते कि नाम का संकेत में स्पष्ट रूप से उल्लेख किया गया हो।

कंपनी की एक नीति शोधकर्ता संधिनी अग्रवाल ने कहा कि उन्हें कंपनी के सुरक्षा उपायों पर "बहुत भरोसा" है, लेकिन उन्होंने स्पष्ट किया कि मॉडल में लगातार सुधार हो रहा है और यह सही नहीं है। OpenAI के एक प्रतिनिधि ने एक ईमेल में कहा कि DALL-E3 को जीवित कलाकारों की शैली में छवियां उत्पन्न न करने के लिए प्रशिक्षित किया गया है। DALL-E2 के विपरीत, DALL-E2 संकेत मिलने पर कुछ कलाकारों की कला शैली की नकल कर सकता है।

संभवतः संभावित मुकदमों से बचने के लिए, ओपनएआई कलाकारों को टेक्स्ट-टू-इमेज एआई मॉडल के भविष्य के संस्करणों से अपनी कलाकृति को बाहर करने का विकल्प चुनने की भी अनुमति देगा। निर्माता उन छवियों को सबमिट कर सकते हैं जिनके पास उनका कॉपीराइट है और साइट पर एक फॉर्म भरकर उन्हें हटाने का अनुरोध कर सकते हैं। इस तरह, DALL-E के भविष्य के संस्करण उन परिणामों को अवरुद्ध कर सकते हैं जो कलाकार की छवि और शैली से मिलते जुलते हैं। कलाकारों ने DALL-E प्रतिस्पर्धियों स्टेबिलिटीएआई और मिडजर्नी के साथ-साथ कला वेबसाइट डेविएंटआर्ट पर मुकदमा दायर किया, और उन पर टेक्स्ट-इमेज मॉडल को प्रशिक्षित करने के लिए उनके कॉपीराइट किए गए कार्यों का उपयोग करने का आरोप लगाया।