रिलीज़ के दिन ही, तीनों सूचियाँ ख़त्म हो गईं। जीपीटी इमेज 2 के ऑनलाइन होने के 12 घंटों के भीतर, टेक्स्ट-टू-इमेज, सिंगल-इमेज एडिट और मल्टी-इमेज एडिट की तीन उप-सूचियाँ सूची में शीर्ष पर रहीं। एरेना के आधिकारिक शब्द: "एक क्लीन स्वीप"।


वेनशेंगटू की मुख्य सूची में, जीपीटी इमेज 2 ने 1512 अंक और नैनो बनाना 2 ने 1271 अंक बनाए। 241 अंकों का अंतर एरेना के इतिहास में सबसे बड़ा है।
एरिना के अधिकारियों ने कहा, "इस असमानता के साथ किसी भी मॉडल ने कभी भी इमेज एरिना पर अपना दबदबा नहीं बनाया है।"
इमेज एरिना में सभी ब्लाइंड टेस्ट मैचअप में, GPT इमेज 2 की जीत की दर 93% थी: ब्लाइंड टेस्ट में 100 तस्वीरें जोड़ी गईं, और 93 लोगों ने ओपनएआई को चुना।
"यदि आप DALL-E को गुफा चित्र और इमेजेज 1.0 को प्राचीन कला मानते हैं, तो इमेजेज 2.0 पुनर्जागरण है।"
OpenAI ने सम्मेलन के उद्घाटन में Images 2.0 पेश किया, और Ultraman ने इसे क्रॉस-जेनरेशन अपग्रेड भी कहा:
ऐसा लगता है कि यह अचानक GPT-3 से GPT-5 पर पहुंच गया है।

https://www.youtube.com/watch?v=sWkGomJ3TLI
आधिकारिक OpenAI API दस्तावेज़ Images 2.0 का उत्कृष्ट मूल्यांकन देता है।

https://developers.openai.com/api/docs/models/gpt-image-2
लेकिन असली कहानी आंकड़ों में नहीं है.
रज़ाईगूगलप्रेसआधा साल
OpenAI अंततः वापस आ गया
समय अगस्त 2025 तक चला जाता है।
गूगल ने नैनो बनाना जारी किया। जेमिनी में एम्बेडेड यह छवि निर्माण मॉडल तुरंत सी-साइड पर फट गया।
तीन महीने बाद तीसरी तिमाही की वित्तीय रिपोर्ट में, Google के सीईओ सुंदर पिचाई ने व्यक्तिगत रूप से आंकड़ों के एक सेट का खुलासा किया: जेमिनी की मासिक गतिविधि जुलाई में 450 मिलियन से बढ़कर अक्टूबर में 650 मिलियन हो गई।
गूगल लैब्स के प्रमुख जोश वुडवर्ड ने कहा कि इस वृद्धि का अधिकांश हिस्सा नैनो केले द्वारा संचालित छवि निर्माण बूम से आता है।
नवंबर में, Google ने नैनो बनाना प्रो फिर से जारी किया। पाठ प्रतिपादन क्षमता अद्भुत है, AI छवियां पहली बार शब्दों को सही ढंग से लिख सकती हैं, और C पक्ष में OpenAI को पीछे छोड़ दिया गया है।
18 नवंबर को गूगल ने एक और कदम उठाया. जेमिनी 3 अपनी रिलीज़ के तुरंत बाद 1501 अंकों के साथ एलएम एरिना के शीर्ष पर पहुंच गया, और 1500 अंक तोड़ने वाला पहला अत्याधुनिक मॉडल बन गया।
इस महीने के अंत में, ऑल्टमैन ने पूरी कंपनी को एक आंतरिक "कोड रेड" मेमो जारी किया।
द इंफॉर्मेशन के मुताबिक, ऑल्टमैन ने निजी तौर पर कर्मचारियों से कहा कि जेमिनी 3 ओपनएआई में आर्थिक प्रतिकूलताएं ला सकता है। याहू फाइनेंस ने बाद में खुलासा किया: कोड रेड के तहत, ओपनएआई ने एआई एजेंट जैसे अन्य उत्पादों के अनुसंधान और विकास को निलंबित कर दिया, और सभी संसाधन चैटजीपीटी को आवंटित कर दिए गए।
दिसंबर में, OpenAI ने GPT इमेज 1.5 लॉन्च किया। एरेना पहले स्थान पर रहा, लेकिन सी-साइड विस्फोट करने में विफल रहा।
फरवरी 2026 में, Google ने एक और कदम उठाया, नैनो बनाना 2 सामने आया और एरिना ने फिर से बढ़त ले ली।
OpenAI फिर हार गया.
21 अप्रैल तक, जब जीपीटी इमेज 2 ऑनलाइन हुआ, ओपनएआई ने बढ़त हासिल की और फिर से बढ़त हासिल कर ली।
ड्राइंग एआई को फिर से परिभाषित किया जाएगा
GPT इमेज 2 241 अंक से आगे क्यों है?
मुख्य उत्तर वास्तुशिल्प स्तर पर है।
जीपीटी इमेज 2 स्टेबल डिफ्यूजन जेनरेशन का डिफ्यूजन मॉडल नहीं है।
ओपनएआई के अनुसंधान निदेशक बोयुआन चेन इसे एक "सामान्यवादी मॉडल" कहते हैं जो "स्क्रैच से पुनर्निर्मित" (स्क्रैच से पुनर्निर्मित) है। OpenAI का आंतरिक नाम "GPT का छवि संस्करण" है।
हालाँकि, चेन ने प्रेस ब्रीफिंग के दौरान सार्वजनिक रूप से यह स्वीकार करने से इनकार कर दिया कि क्या यह एक प्रसार या ऑटोरेग्रेसिव आर्किटेक्चर था।
बाहरी दुनिया आम तौर पर इसे "अनुमानित योजना के साथ छवि निर्माण प्रणाली" के रूप में समझती है: पेंटिंग से पहले योजना बनाएं, और फिर लिखें। यह GPT इमेज 2 और पिछली पीढ़ी के इमेज मॉडल के बीच सबसे बड़ा अंतर है।
OpenAI ने अपने आधिकारिक विवरण में इसे एक नया लेबल दिया: देशी सोच क्षमताओं वाला पहला छवि मॉडल।
चित्र बनाने से पहले सोचें, चित्र बनाने के बाद जांचें, आवश्यकता पड़ने पर ऑनलाइन जानकारी खोजें और एक समय में 8 सुसंगत चित्र बनाएं।
यह कोई तूलिका नहीं है, यह एक विचारशील दृश्य सहायक है।
एरेना रैंकिंग ब्रेकडाउन डेटा से पता चलता है:
टेक्स्ट रेंडरिंग (टेक्स्ट रेंडरिंग) श्रेणी में, जीपीटी इमेज 2 में पिछली पीढ़ी की तुलना में 316 अंक की वृद्धि हुई है; कार्टून एनीमेशन और पोर्ट्रेट प्रत्येक में 296 अंक की वृद्धि हुई है; तीन उत्पाद/3डी/यथार्थवादी श्रेणियों की कुल सीमा +247 से +277 है।
टेक्स्ट रेंडरिंग एक समस्या थी जिसे सबसे पहले नैनो बनाना प्रो ने नवंबर 2025 में हल किया था, लेकिन उस समय सटीकता 94% थी। जीपीटी इमेज 2 ने इसे 99% तक पहुंचा दिया।

ओपनएआई सम्मेलन में लाइव प्रदर्शन: जीपीटी इमेज 2 को चावल का एक कटोरा बनाएं, जिसमें चावल के केवल एक दाने पर मॉडल का नाम लिखा हुआ है।
क्षमता प्रदर्शन के लिए विशिष्ट, ओपनएआई के अध्यक्ष ग्रेग ब्रॉकमैन ने अपने एक्स खाते पर एक प्रदर्शन दिया।
पहला मामला पुरानी तस्वीरों की बहाली का है।

फीकी और पीली पड़ चुकी पुरानी पारिवारिक तस्वीरों को एक त्वरित शब्द के साथ तुरंत हाई-डेफिनिशन रंगीन संस्करणों में बदला जा सकता है।
ओपनएआई आधिकारिक एपीआई दस्तावेज़ में वाक्यांश "उच्च-निष्ठा छवि इनपुट" मूल छवि के विवरण को बनाए रखने की मॉडल की क्षमता को संदर्भित करता है: इनपुट अंत फीकी, क्षतिग्रस्त और धुंधली पुरानी तस्वीरों के विवरण को सटीक रूप से पढ़ सकता है, और आउटपुट अंत एक स्पष्ट संस्करण को फिर से प्रस्तुत कर सकता है।
दूसरे मामले में, ब्रॉकमैन ने उपयोगकर्ता @doodlestein से परीक्षण चित्रों का एक सेट अग्रेषित किया: उसी जटिल संकेत शब्द का उपयोग करके GPT Image 2 से गणितीय स्पष्टीकरण आरेख बनाने के लिए कहा।
उन्होंने टिप्पणी की कि जीपीटी इमेज 2 जटिल संकेत शब्दों के लिए भी विभिन्न शैलियों के साथ छवियां उत्पन्न कर सकता है।


@doodlestein परीक्षण GPT छवि 2 उसी संकेत शब्द का उपयोग करके एक रैखिक बीजगणित स्पष्टीकरण आरेख बनाएं। मॉडल एक बार में 4 पूरी तरह से अलग-अलग संस्करण बनाता है: एक ही मोना लिसा + ईजेनवेक्टर शिक्षण, और प्रत्येक संस्करण की संरचना, रंग मिलान और सूचना घनत्व पूरी तरह से अलग हैं।
इस मामले का वास्तविक मूल्य "गणितीय ग्राफ़ बनाने में सक्षम होना" नहीं है, बल्कि पिछले दो वर्षों में एआई ग्राफ़ पीढ़ी के एक महत्वपूर्ण समस्या बिंदु को हल करना है: एकल आउटपुट और वेरिएंट की खराब नियंत्रणीयता।
जीपीटी इमेज 2 पहली बार "एक प्रॉम्प्ट मुझे 4 पूरी तरह से अलग-अलग दिशाएँ देता है" को उत्पाद-स्तरीय क्षमता बनाता है।
उद्योग में एक वरिष्ठ एलएम एरिना परीक्षक ने टिप्पणी की:
GPT इमेज 2 और नैनो बनाना प्रो के बीच का अंतर नैनो बनाना प्रो और DALL-E के बीच का अंतर जितना बड़ा है।
एक पूरी पीढ़ी गुजर गई.

जीपीटी इमेज 2 मंगा-शैली कॉमिक पेज थिंकिंग मोड द्वारा तैयार किया गया है: एक सरल संकेत शब्द से शुरू होकर, मॉडल चरित्र स्थिरता बनाए रखता है और मल्टी-फ्रेम प्लॉट तैयार करता है।
DALL-E सेवानिवृत्त हो गए
Adobe Canva एक कोने में समर्थित है
लॉन्च के दिन, डाउनस्ट्रीम टूल एकीकरण तकनीकी समुदाय की अपेक्षा से अधिक तेज़ था।
फिग्मा, कैनवा, एडोब फायरफ्लाई, फाल और हर्मीस एजेंट सभी को 21 अप्रैल को एकीकृत किया गया था।
एपीआई मूल्य निर्धारण और भी खतरनाक है:
उच्च-गुणवत्ता वाली छवियों की कीमत $0.21 प्रति चित्र है; चैटजीपीटी प्लस की लागत $20 प्रति माह है, और छवि निर्माण पैकेज में शामिल है।
इस मूल्य अंतर के पीछे, यह 2026 में छवि निर्माण उद्योग में सबसे बड़ा औद्योगिक पुनर्गठन ला सकता है।

जीपीटी इमेज 2 द्वारा उत्पन्न फोटोरियलिस्टिक कैंडिड। तट, बादलों वाला आकाश, रेट्रो कारें, फिल्म की बनावट - इस प्रकार का दृश्य प्रभाव जिसके लिए पेशेवर फोटोग्राफरों को आउटडोर और पोस्ट-प्रोडक्शन की शूटिंग की आवश्यकता होती थी, अब $0.21 के एपीआई के साथ प्राप्त किया जा सकता है। ओपनएआई के शोधकर्ता गेब्रियल गोह ने कहा कि फोटोरियलिज्म वह क्षमता है जो उन्हें मॉडल के बारे में सबसे अधिक उत्साहित करती है।
12 मई को, DALL-E 2 और DALL-E 3 को आधिकारिक तौर पर सेवानिवृत्त कर दिया गया।
वे 2022 में संपूर्ण एआईजीसी दृश्य क्रांति के संस्थापक हैं। तीन साल बाद, इसे ओपनएआई के अपने उत्तराधिकारी द्वारा इतिहास में दर्ज किया गया।
आधिकारिक रिलीज़ नोट्स में OpenAI का उल्लेख किया गया है:
छवियाँ सजावट नहीं, भाषा हैं। एक अच्छी तस्वीर एक अच्छे वाक्य के समान ही कार्य करती है: चयन करती है, व्यवस्थित करती है, प्रकट करती है।
यह उत्पाद दर्शन में बदलाव का प्रतिनिधित्व करता है।
निःसंदेह, कोई विरोधी स्वर नहीं हैं। ZDNet ने वास्तविक परीक्षण में पाया कि GPT Image 2 ब्रांड लोगो को सटीक रूप से पुन: पेश नहीं कर सका, और यहां तक कि ZDNet का अपना लोगो भी विकृत हो गया था।
नैनो बनाना 2 में पोर्ट्रेट यथार्थवाद और बहु-संदर्भ स्थिरता में अभी भी फायदे हैं।
हालाँकि GPT इमेज 2 अभी भी सही नहीं है, ट्रैक पैटर्न बदल गया है।
प्रतिपादन का युग समाप्त हो गया है
तर्क-वितर्क का युग अभी शुरू हुआ है
Google छवि मॉडलों में अनुमान प्लग करता है। OpenAI इमेज टूल्स को अनुमान मॉडल में प्लग करता है। 242-पॉइंट एलो गैप दोनों के बीच वास्तुकला में अंतर को मापता है।
implicationator.ai की यह टिप्पणी छवि निर्माण के दो युगों को विभाजित करती है।
2022 से 2025 प्रतिपादन का युग है।
DALL-E, मिडजर्नी, स्टेबल डिफ्यूजन, सभी का लक्ष्य "पेंट लाइक" करना है। मॉडल ब्रश है, उपयोगकर्ता चित्रकार है, और संकेत ड्राइंग है।
जीपीटी छवि 2 तर्क के युग का प्रतिनिधित्व करती है।
मॉडल लिखने से पहले सोचता है, खोज सकता है, स्वयं जांच कर सकता है और कार्यों को पूरा कर सकता है। यह कोई तूलिका नहीं है, यह एक सहायक है जो चित्र बना सकता है।
जीपीटी इमेज 2 की रिलीज के साथ जो बात वास्तव में ध्यान देने योग्य है वह यह तथ्य है कि छवि निर्माण "सोच" की ओर बढ़ रहा है।
अल्पावधि में, ब्लैक फॉरेस्ट लैब्स (फ्लक्स 2) सबसे अधिक परेशानी में हो सकती है।
किंगी एआई ने स्पष्ट रूप से कहा: एक प्रसार-प्रथम निर्माता के रूप में, फ्लक्स 2 की संपूर्ण तकनीकी पाइपलाइन वास्तुशिल्प रूप से "टोकन-दर-टोकन" तर्क रेखा के साथ संघर्ष में है।
या तो फ़्यूज़ करें या फिर से लिखें, कोई तीसरा रास्ता नहीं है।
मध्यम अवधि में, Google अगली तिमाही में पलटवार कर सकता है। नैनो बनाना 3, या इमेजेन-रीज़न, लंबे समय तक मौजूद नहीं रहेगा।
दीर्घावधि में, इसका प्रभाव छवि निर्माण से कहीं आगे तक जाता है।
जब एआई छवियों, वीडियो, ऑडियो और कोड का उत्पादन करने के लिए "सोच" का उपयोग करना शुरू कर देता है, तो संपूर्ण जेनरेटिव एआई प्रतिमान तदनुसार बदल जाएगा।
जब अल्ट्रामैन ने पिछले साल दिसंबर में अपने मेमो में "कोड रेड" टाइप किया था, तो शायद उन्हें उम्मीद नहीं थी कि वह पांच महीने बाद इस तरह से एरेना के शीर्ष पर लौट आएंगे।
लेकिन इस पलटवार का वास्तविक महत्व यह नहीं हो सकता है कि OpenAI ने Google को हरा दिया है, बल्कि यह है कि OpenAI ने छवि निर्माण ट्रैक के नियमों को फिर से लिखा है।

Arena.AI सिंगल इमेज एडिटिंग लिस्ट (इमेज एडिट एरेना): GPT इमेज 2 (मीडियम) 1510+ अंकों के साथ सूची में शीर्ष पर बना हुआ है। दूसरे, तीसरे, चौथे और पांचवें स्थान पर OpenAI के अपने मॉडल और Google जेमिनी श्रृंखला का कब्जा है। https://arena.ai/leaderboard/image-edit
Google अपना अगला प्रहार कब करेगा? यह मुद्दा 2026 की दूसरी छमाही में एआई परिदृश्य की दिशा निर्धारित करता है।
और उस मुक्के को मारने से पहले, कोई नहीं जानता कि जीपीटी इमेज 2 एरिना के शीर्ष पर कब तक बैठा रहेगा।
सन्दर्भ:
https://x.com/gdb/status/2048449695622586576
https://arena.ai/leaderboard/image-edit