GPT Image2 पूरे नेटवर्क को रीफ्रेश करता है, लेकिन प्रभाव इतना अच्छा क्यों है? अनुसंधान नेता चेन बोयुआन ने खुलासा किया: अंतर्निहित वास्तुकला का पूरी तरह से पुनर्निर्माण किया गया है। लेकिन उन्होंने इस बात का जवाब देने से इनकार कर दिया कि क्या उन्होंने प्रसार मॉडल या ऑटोरेग्रेसिव तकनीक का उपयोग किया था, और रहस्यमय तरीके से इसे "सार्वभौमिक मॉडल" या "छवि क्षेत्र में जीपीटी" के रूप में वर्णित किया।


चेन बोयुआन के एक ट्वीट से यह भी पता चला कि पिछले साल दिसंबर के अंत में जीपीटी इमेज 1.5 से इतना बड़ा सुधार हासिल करने में केवल चार महीने लगे।


ऐसी महत्वपूर्ण उपलब्धि के लिए कोर टीम में केवल 13 लोग हैं।

पूरी टीम के नेता गेब्रियल गोह ने एआई टीम के सदस्यों की एक पारिवारिक तस्वीर पोस्ट की।


टिप्पणी क्षेत्र में कुछ नेटिज़न्स ने अफसोस जताया: वे सभी एशियाई क्यों हैं?


चेन बोयुआन: पायथन को न जानने से लेकर रिसर्च लीड तक

GPT इमेज 2 का आर्किटेक्चर वास्तव में क्या है?

ओपनएआई की घोषणा भले ही लंबे समय तक नहीं की गई हो, लेकिन कोर टीम के सदस्यों के शैक्षणिक अनुभव से कुछ निशान देखे जा सकते हैं।

चेन बोयुआन टीम के रिसर्च लीड हैं। जब वे और एक अन्य सदस्य किव्हान सॉन्ग अपनी पीएच.डी. की पढ़ाई कर रहे थे, तब उनके गुरु विन्सेंट सिट्ज़मैन एक ही थे। एमआईटी में.


उनकी पीएचडी के दौरान उनकी उत्कृष्ट कृति डिफ्यूजन फोर्सिंग: नेक्स्ट-टोकन प्रेडिक्शन मीट्स फुल-सीक्वेंस डिफ्यूजन को न्यूरआईपीएस 2024 के लिए चुना गया था।

यह अध्ययन डिफ्यूजन फोर्सिंग का प्रस्ताव करता है, एक नया अनुक्रम पीढ़ी प्रशिक्षण प्रतिमान जो टोकन-दर-टोकन स्वतंत्र शोर स्तर प्रसार को अगले टोकन भविष्यवाणी के साथ जोड़ता है, ऑटोरेग्रेसिव मॉडल की परिवर्तनीय लंबाई पीढ़ी और पूर्ण अनुक्रम प्रसार मॉडल के लंबी दूरी के मार्गदर्शन लाभों को एकीकृत करता है।


Google में अपनी इंटर्नशिप के दौरान, उन्होंने सह-लेखक के रूप में SpatialVLM भी प्रकाशित किया।

स्वचालित रूप से एक इंटरनेट-स्केल 3डी स्थानिक तर्क वीक्यूए डेटा सेट (10 मिलियन छवियां, 2 बिलियन क्यूए जोड़े) का निर्माण करके, दृश्य भाषा मॉडल मात्रात्मक/गुणात्मक स्थानिक तर्क क्षमताओं से संपन्न है, और मीट्रिक दूरी, आकार और अभिविन्यास जैसे सटीक मान एकल 2डी छवि से आउटपुट किए जा सकते हैं।

यह शोध सन्निहित बुद्धि के क्षेत्र में सोच श्रृंखला स्थानिक तर्क को लागू करता है।


Google में अपनी इंटर्नशिप के दौरान, उन्होंने जो इंस्ट्रक्शन फाइन-ट्यूनिंग तकनीक विकसित की, उसे बाद में जेमिनी 2.0 द्वारा अपनाया गया।

जब उन्होंने हाई स्कूल में एक वैज्ञानिक अनुसंधान ग्रीष्मकालीन शिविर में भाग लिया, तो उन्हें पायथन का मूल वाक्यविन्यास समझ में नहीं आया। Google DeepMind के एक वरिष्ठ शोधकर्ता ज़िया फ़ेई, जिनसे उनकी उस समय मुलाक़ात हुई, ने उन्हें AI की दुनिया से परिचित कराया।

ज़िया फ़ेई ने उन्हें दो बार डीपमाइंड में उच्च-गुणवत्ता वाली इंटर्नशिप पूरी करने के लिए आमंत्रित किया। इन अनुभवों ने चेन बोयुआन को बड़े पैमाने पर मॉडल प्रशिक्षण में इंजीनियरिंग अनुभव जमा करने में सक्षम बनाया, और उन्हें मल्टी-मोडल सिस्टम की डेटा आवश्यकताओं को समझने के लिए एक मूल्यवान परिप्रेक्ष्य भी प्रदान किया।

पीएचडी से स्नातक होने के बाद, चेन बोयुआन जून 2025 में ओपनएआई में शामिल हो गए और जल्दी ही जीपीटी छवि निर्माण के पांच प्रमुख सदस्यों में से एक बन गए। वह जीपीटी इमेज जेनरेशन मॉडल के सभी प्रशिक्षण के लिए जिम्मेदार थे और सोरा वीडियो जेनरेशन टीम के सदस्य भी थे।

प्रदर्शन में उन्होंने अपने गृहनगर वूशी के लिए एक पोस्टर बनाया। फिर मैंने सियोल के अपने साथियों के लिए कोरियाई पोस्टर और बांग्लादेश के अपने साथियों के लिए बंगाली पोस्टर बनाए। प्रत्येक में पाठ का प्रतिपादन सटीक है।


जियानफ़ेंग वांग, चीन के विज्ञान और प्रौद्योगिकी विश्वविद्यालय: शेंगटू एआई को विश्व ज्ञान को समझने दें

जियानफ़ेंग वांग, जिन्होंने पीएच.डी. के साथ स्नातक की उपाधि प्राप्त की। चीन के विज्ञान और प्रौद्योगिकी विश्वविद्यालय से, जीपीटी इमेज 2 टीम में एक और अद्भुत क्षमता के लिए जिम्मेदार हैं: निर्देशों का पालन करना और दुनिया को समझना।


पुराने मॉडल द्वारा खींची गई शाश्वत घड़ी हमेशा 10:10 का संकेत देती है, जो इंटरनेट पर घड़ी के विज्ञापन चित्रों से ली गई है, जिनमें से लगभग सभी 10:10 हैं।

ऐसा इसलिए है क्योंकि घड़ी निर्माताओं ने मनोवैज्ञानिकों के साथ प्रयोग किए हैं और उनका मानना ​​है कि इससे उपभोक्ताओं की घड़ियाँ खरीदने की इच्छा को प्रोत्साहित करने में मदद मिलेगी।


उन्होंने नए मॉडल को 2:25, 3:30, 9:10 और 7:45, सभी सटीक रूप से बनाने के लिए कहा।


यह सिर्फ एक क्षुधावर्धक है.

केंद्र में सेब, दाईं ओर कप, शीर्ष पर पुस्तक, बाईं ओर कैमरा और नीचे बास्केटबॉल के साथ अधिक जटिल स्थानिक लेआउट। सभी मॉडल सटीक ढंग से क्रियान्वित किए गए हैं।


OpenAI में शामिल होने से पहले, उन्होंने लगभग 9 वर्षों तक Microsoft में काम किया। माइक्रोसॉफ्ट में रहते हुए, मैंने DALLE-3 पर OpenAI टीम के साथ सहयोग किया।

उन्होंने कंप्यूटर विज़न के क्षेत्र में कई अकादमिक पेपर प्रकाशित किए हैं, और उनकी शोध सामग्री में छवि वर्गीकरण, लक्ष्य का पता लगाना, अर्थ विभाजन और दृश्य प्रतिनिधित्व सीखना शामिल हो सकता है।

विश्व ज्ञान को समझने की क्षमता में काफी सुधार हुआ है, और वस्तुओं की शब्दार्थ सामग्री और कार्यात्मक संरचना को सही ढंग से समझा गया है।

जियानफेंग वांग ने प्रदर्शन वीडियो के अंत में कहा: जीपीटी इमेज 2 आपके इरादे और मॉडल आउटपुट के बीच के अंतर को खत्म कर रहा है।

वास्तव में वही करें जो आप चाहते हैं, और मॉडल आपको वही देगा जो आप चाहते हैं।

युगुआंग यांग: उच्च परिशुद्धता वाले जटिल सूचना ग्राफिक्स तैयार करना

यूगुआंग यांग ने जीपीटी इमेज 2 के लॉन्च इवेंट में इन्फोग्राफिक्स और पीपीटी तैयार करने का प्रदर्शन किया।


पूरे 75 पेज वाले GPT-3 पेपर को ChatGPT में खींचें और स्वचालित रूप से 7 स्लाइड जेनरेट करें।


उनका अनुभव टीम के सदस्यों में सबसे समृद्ध कहा जा सकता है। वह जो भी काम करता है वह सीमा पार का होता है, लेकिन वे सभी मशीन लर्निंग पर ध्यान केंद्रित करते हैं।

उन्होंने अपनी स्नातक की डिग्री के लिए झेजियांग विश्वविद्यालय के झू केज़ेन कॉलेज में इंजीनियरिंग की पढ़ाई की, और अपनी पीएचडी के दौरान कम्प्यूटेशनल रासायनिक भौतिकी और मशीन लर्निंग का अध्ययन किया। जॉन्स हॉपकिन्स विश्वविद्यालय में।

उनकी पहली पूर्णकालिक नौकरी मात्रात्मक विश्लेषक के रूप में थी। सिंघुआ विश्वविद्यालय में एक विजिटिंग शोधकर्ता के रूप में काम करते हुए, यानियू ने नैनोरोबोट्स के लिए सुदृढीकरण सीखने और नियंत्रण एल्गोरिदम पर काम किया।

बाद में उन्होंने अमेज़न पर एलेक्सा वॉयस रिसर्च की।

मैंने बिंग खोज क्वेरी समझ और पुनर्प्राप्ति, और Microsoft में दस्तावेज़ समझ पर भी काम किया।

2025 की शुरुआत में ओपनएआई में शामिल होने के बाद, छवि निर्माण के अलावा, उन्होंने चैटजीपीटी एजेंट प्रोजेक्ट में भी भाग लिया।


उन्होंने अपने व्यक्तिगत खाते पर जीपीटी इमेज 2 की इन्फोग्राफिक पीढ़ी क्षमता पेश की, जो वैज्ञानिक शोधकर्ताओं का बहुत समय बचा सकती है।


मैं सभी को बार-बार यह भी याद दिलाता हूं कि इन्फोग्राफिक्स बनाते समय सोच मोड चुनना न भूलें।


DALL-E से GPT इमेज 2.0 तक

टीम के सदस्य केनजी हाटा के आत्म-परिचय से, हमें पता चला कि GPT इमेज 1.0, GPT-4o का इमेज जेनरेशन हिस्सा है।


एक व्यक्ति है जिसने DALL-E के बाद से संपूर्ण OpenAI मल्टी-मोडल श्रृंखला अनुसंधान में भाग लिया है।

वह GPT इमेज 2.0 टीम के लीडर गेब्रियल गोह हैं।

2019 में ओपनएआई में शामिल होने के बाद से, उनका प्रारंभिक शोध अधिक सैद्धांतिक रहा है, जो व्याख्या, उत्तल अनुकूलन आदि पर केंद्रित है।

DALL-E से शुरू करके, मैं धीरे-धीरे छवि निर्माण की ओर मुड़ गया।


टीम के एक अन्य सदस्य वेक्सिन लियांग के शोध बायोडाटा को देखने से जीपीटी इमेज 2 की तकनीकी पृष्ठभूमि का पता चला।

मेटा, मिक्सचर-ऑफ-ट्रांसफॉर्मर्स में उनकी इंटर्नशिप के दौरान उनके प्रतिनिधि कार्य ने मोडल डिकॉउलिंग एमओई की शुरुआत की और ध्यान को कम किया, जिससे मल्टी-मोडल मॉडल प्री-ट्रेनिंग की कम्प्यूटेशनल लागत में काफी कमी आई।


उन्होंने स्टैनफोर्ड से डॉक्टरेट की उपाधि और झेजियांग विश्वविद्यालय के झू केज़ेन कॉलेज से स्नातक की उपाधि प्राप्त की, लेकिन वे युगुआंग यांग से कई साल बाद थे।

वेक्सिन लियांग, चेन बोयुआन की तरह, दोनों के पास 25 साल की पीएचडी है। और स्नातक स्तर की पढ़ाई के तुरंत बाद ओपनएआई में शामिल हो गए और जल्दी ही टीम के मुख्य सदस्य बन गए।


GPT इमेज 2.0 टीम के अन्य सदस्यों में शामिल हैं:

अयान हक, जो पहले लूमा एआई में काम करते थे, ने लूमा के बुनियादी वीडियो जेनरेशन मॉडल, ड्रीम मशीन के प्रशिक्षण में भाग लिया।

बिंग लियांग ने इमेजेन3, वीओ और जेमिनी मल्टीमॉडल में भाग लेते हुए पांच साल से अधिक समय तक Google में काम किया है। 2025 में, वह छवि निर्माण अनुसंधान करने के लिए OpenAI में चले गए।

मेंगचाओ झोंग शंघाई जिओ टोंग विश्वविद्यालय के पूर्व छात्र हैं, जिनके पास स्नातक की डिग्री और टेक्सास ए एंड एम विश्वविद्यालय से मास्टर डिग्री है। उन्होंने Pinterest और Airtable में एक सॉफ्टवेयर इंजीनियर के रूप में काम किया है, और OpenAI में मल्टी-मोडल उत्पाद इंजीनियरिंग के लिए जिम्मेदार हैं।

दिब्या भट्टाचार्जी, येल विश्वविद्यालय, 2015 में आईपीएचओ कांस्य पदक, सीआईई ए-लेवल गणित और जीवविज्ञान में दुनिया में उच्चतम स्कोर।

किव्हान सॉन्ग अक्टूबर 2025 में शामिल होने वाले आखिरी व्यक्ति थे। शोध करने के अलावा, वह टीम में त्वरित शब्द मास्टर भी हैं। आपके द्वारा देखी गई कई आधिकारिक प्रदर्शन तस्वीरें उन्हीं की हैं।

आरंभिक DALL-E से लेकर आज की GPT Image 2.0 तक, इस टीम ने इसे एक के बाद एक हल किया है। आप स्पष्ट रूप से चित्र बना सकते हैं, सुंदर ढंग से चित्र बना सकते हैं, और सटीकता से चित्र बना सकते हैं।


हालाँकि OpenAI का प्रतिभा प्रवाह हाल के वर्षों में बहुत अच्छा रहा है, OpenAI अभी भी एक ऐसी कंपनी है जो विभिन्न व्यक्तित्वों के साथ प्रतिभाओं को आकर्षित करना जारी रख सकती है, बड़ी कंपनियों को सीमित नहीं करती है, सीमा पार अनुसंधान का स्वागत करती है, और नीचे से ऊपर के उभरते अनुसंधान में विश्वास करती है।

एक छोटी सी टीम से शुरुआत करके, सफलता मिलने के बाद, कंपनी तब तक अधिक संसाधन लगाती है जब तक कि वह दुनिया नहीं बदल देती।

एक और बात

एक समय, GPT-4o छवि पीढ़ी ने घिबली-शैली के अवतारों की नकल करके दुनिया में तूफान ला दिया था।

अब जीपीटी इमेज 2.0 की टीम के सभी सदस्यों ने अपने अवतारों को इस अजीब-गर्दन शैली में बदल दिया है।


तो पेंटिंग की इस शैली के सुराग क्या हैं? टीम के सदस्यों की भी घोषणा की गई

Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.

संदर्भ लिंक:

[1]https://x.com/gabeeegoooh/status/2046674385407512687?s=20

[2] https://venture Beat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly