ओपनएआई अनुसंधान वैज्ञानिक चेन बोयुआन ने झिहू पर एक लेख पोस्ट किया, जो बहुत सीधे शुरू होता है:"सभी को नमस्कार, मैं चेन बोयुआन, जीपीटी इमेज टीम का एक शोध वैज्ञानिक हूं। पिछले सप्ताह जारी किया गया जीपीटी इमेज जेनरेशन मॉडल मेरा मुख्य प्रशिक्षण था!"उन्होंने यह भी उल्लेख किया कि मॉडल का चीनी प्रतिपादन अंततः इस बार ठीक कर लिया गया था। यदि चीनी उपयोगकर्ताओं के पास कोई प्रतिक्रिया है, तो आप उन्हें सीधे उत्तर दे सकते हैं।
ChatGPT Images 2.0 के रिलीज़ होने के बाद, कई लोगों की पहली प्रतिक्रिया थी:इस मॉडल की चीनी क्षमता थोड़ी अनुचित है।
अतीत में छवि मॉडल कुछ हद तक "समझ से बाहर" थे। वे परिदृश्य और आकृतियाँ बना सकते हैं, लेकिन एक बार जब चीनी पात्र शामिल हो जाते हैं, तो वे आसानी से भूतिया प्रतीकों की एक अशोभनीय गड़बड़ी में बदल सकते हैं। लेकिन GPT-image-2 अलग है. यह न केवल सही शब्द लिख सकता है, बल्कि टाइपसेट, सेगमेंट भी कर सकता है और तार्किक संरचना के साथ चीनी सूचना ग्राफिक्स उत्पन्न कर सकता है।
"पाठ को देखकर यह निर्धारित करने की कि क्या यह एआई द्वारा उत्पन्न किया गया था" की पुरानी पद्धति अब इस पीढ़ी में काम नहीं करती है।

चेन बोयुआन उन लोगों में से एक हैं जो वास्तव में जीपीटी इमेज 2 प्रशिक्षण और क्षमता प्रदर्शन में फ्रंट डेस्क पर खड़े थे। प्रेस कॉन्फ्रेंस में, उन्होंने और अल्ट्रामैन ने टेक्स्ट रेंडरिंग क्षमताओं का प्रदर्शन किया। रिलीज के बाद, उन्होंने झिहू पर आधिकारिक वेबसाइट चित्रों के पीछे की कई बातें बताईं: एलएमएरेना के डबल-ब्लाइंड परीक्षण के दौरान, जीपीटी इमेज 2 ने कोड नाम के रूप में "डक्ट-टेप" का उपयोग किया; आधिकारिक वेबसाइट ब्लॉग पर कई तस्वीरें उनके द्वारा मॉडलों के साथ बनाई गई थीं; चीनी कॉमिक्स, चावल के दाने की नक्काशी, बहुभाषी पाठ, दृश्य प्रमाण और स्वचालित रूप से उत्पन्न क्यूआर कोड। प्रचार सामग्री जैसी दिखने वाली ये तस्वीरें असल में क्षमताओं को बार-बार परखने के लिए बनाई गई हैं।
उन्होंने इस "डक्ट-टेप" टेप के लिए एक बहुत ही दिलचस्प स्पष्टीकरण का उपयोग किया:
"जहां तक बात है कि इसे डक्ट टेप क्यों कहा जाता है...बेशक ऐसा इसलिए है क्योंकि आप दीवार पर केले चिपकाने के लिए डक्ट टेप का उपयोग कर सकते हैं!"

01
वह धीमा प्रश्न पूछ रहा है
चेन बोयुआन उस तरह के शोधकर्ता नहीं हैं जिन्हें एक नज़र में याद किया जा सके। यहां बार-बार सार्वजनिक भाषण नहीं दिया जाता और व्यक्तिगत अभिव्यक्ति का कोई जानबूझकर प्रबंधन नहीं किया जाता। वह ब्लॉग लिखते हैं और हल्की-फुल्की सामग्री पोस्ट करते हैं, लेकिन ये प्रभाव बनाने की तुलना में रिकॉर्ड की तरह अधिक हैं।
इसके उलट उनकी मौजूदगी मॉडल से ही ज्यादा मिलती है.

वह अब OpenAI में एक शोधकर्ता हैं, जो छवि मॉडल के प्रशिक्षण में शामिल हैं। इससे पहले, उन्होंने दर्शनशास्त्र में मामूली डिग्री के साथ एमआईटी में इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर विज्ञान में पीएचडी पूरी की। उन्होंने Google DeepMind में मल्टी-मोडल मॉडल के शोध में भी भाग लिया।
ये अनुभव काफी आकर्षक हैं, लेकिन अधिक महत्वपूर्ण उनकी दीर्घकालिक चिंताएँ हैं।
डीपमाइंड से ओपनएआई तक, चेन बोयुआन की शोध दिशा शायद ही बदली है। जब अधिकांश लोग अभी भी इस बात पर चर्चा कर रहे हैं कि क्या मॉडल को बेहतर ढंग से लिखा जा सकता है और अधिक बारीकी से तैयार किया जा सकता है, तो वे अधिक बुनियादी स्तर के बारे में चिंतित हैं: मॉडल क्या "समझ रहा है"।
विशेष रूप से, इसे तीन प्रश्नों के रूप में देखा जा सकता है: मॉडल छवि को कैसे समझता है? छवि और भाषा के बीच क्या संबंध है? जब कोई मॉडल वास्तविक दुनिया का सामना करता है, तो क्या वह परिणाम उत्पन्न कर रहा है या दुनिया का अनुकरण कर रहा है?
ये प्रश्न अमूर्त लगते हैं, लेकिन ये आज की पीढ़ी के मॉडलों की सीमाओं को काफी हद तक परिभाषित करते हैं।
अपने व्यक्तिगत मुखपृष्ठ पर, वह अपनी शोध दिशा के बारे में बहुत सीधे तौर पर लिखते हैं:विश्व मॉडल, सन्निहित बुद्धिमत्ता, और सुदृढीकरण सीखना।
तथाकथित विश्व मॉडल को एक चीज़ के रूप में समझा जा सकता है: एआई को आंतरिक रूप से दुनिया के बारे में निर्णय लेने की अनुमति देना।
उसे न केवल पता होना चाहिए कि आपके सामने क्या हो रहा है, बल्कि यह भी अनुमान लगाने में सक्षम होना चाहिए कि आगे क्या होगा।
यह आज के आम एलएलएम (बड़े भाषा मॉडल) से थोड़ा अलग है। एलएलएम प्रसंस्करण भाषा की तरह है, जबकि विश्व मॉडल एक संरचना के करीब है: इसे स्थान, समय, कारण और प्रभाव और व्यवहार के परिणामों को समझने की आवश्यकता है।
एक बहुत ही सरल उदाहरण का उपयोग करने के लिए, यदि एआई वास्तव में दुनिया को "समझती" है, तो उसे पता होना चाहिए कि प्लास्टिक का कप जमीन पर गिराए जाने पर उछल जाएगा, जबकि कांच का कप टूट जाएगा।
सन्निहित बुद्धिमत्ता और सुदृढीकरण सीखने को इस समस्या के विस्तार के रूप में समझा जा सकता है - यदि कोई मॉडल वास्तव में दुनिया को समझता है, तो उसे न केवल सवालों का जवाब देना चाहिए, बल्कि कार्य करने में भी सक्षम होना चाहिए और कार्रवाई के दौरान अपने निर्णय को लगातार संशोधित करना चाहिए।
जिस कार्य में वह शामिल होता है वह अक्सर एकल कार्य अनुकूलन नहीं होता है, बल्कि जेनरेटिव मॉडल, दृश्य समझ और निर्णय लेने वाली प्रणालियों को एक साथ जोड़ने का प्रयास होता है।

उनके सबसे अधिक प्रतिनिधि कार्यों में से एक डिफ्यूजन फोर्सिंग नामक एक अध्ययन है।
यह शोध एक बहुत ही बुनियादी प्रश्न को हल करने का प्रयास करता है: क्या मॉडल चरण दर चरण उत्पन्न होता है, या यह एक ही बार में उत्पन्न होता है?
एलएलएम पहला है, जो लचीली पीढ़ी में अच्छा है, लेकिन लंबी सामग्री में त्रुटियों की संभावना है; प्रसार मॉडल बाद वाले के करीब है, जो अधिक स्थिर है लेकिन संरचना का अभाव है।
चेन बोयुआन का दृष्टिकोण इन दो तरीकों को एक ही मॉडल में रखना है, ताकि मॉडल को धीरे-धीरे उत्पन्न किया जा सके और पूरे को बाधित किया जा सके।
यदि डिफ्यूजन फोर्सिंग समय आयाम में एकीकृत होने के बारे में है, तो SpatialVLM, एक अन्य कार्य जिसमें उन्होंने भाग लिया, स्थानिक आयाम में क्षमताओं को पूरक करने के बारे में है।
यह कार्य एक लंबे समय से चली आ रही समस्या का समाधान करता है: यद्यपि मॉडल चित्रों को देख सकता है और बोल सकता है, लेकिन यह वास्तव में स्थानिक संबंधों को नहीं समझता है। यह दूरी, आकार या वस्तुओं की सापेक्ष स्थिति को नहीं जानता है।
इस समस्या को हल करने के लिए, उनकी टीम ने एक त्रि-आयामी स्थानिक तर्क प्रणाली का निर्माण किया ताकि मॉडल न केवल "देख" सके बल्कि "तर्क" भी कर सके।
इसी तरह के विचार अन्य कार्यों में भी सामने आए हैं, जैसे इतिहास-निर्देशित पद्धति जो पीढ़ी का मार्गदर्शन करने के लिए ऐतिहासिक जानकारी का उपयोग करती है, या दृष्टि, क्रिया और भाषा के एकीकृत मॉडलिंग पर शोध करती है। ये प्रयास बिखरे हुए लग सकते हैं, लेकिन वे सभी एक ही दिशा में इशारा करते हैं: मॉडल को न केवल आउटपुट परिणाम देना, बल्कि आंतरिक रूप से एक स्थिर प्रतिनिधित्व बनाना।
अपनी गंभीर शोध दिशा के अलावा, चेन बोयुआन कभी-कभी एक बहुत ही ज्वलंत व्यक्तिगत रुचि भी प्रकट करते हैं।
उदाहरण के लिए, इस बार उन्होंने ज़ीहू पर एक लेख प्रकाशित किया, और उदाहरण के लिए, उन्होंने अपने व्यक्तिगत होमपेज पर विशेष रूप से परिचय दिया कि उनकी रुचि बोबा बनाने में है, और यहां तक कि ज़ीहू पर उनका नाम "एमआईटी मिल्क टी स्टोर मैनेजर" है।

उन्होंने संयुक्त राज्य अमेरिका में शीर्ष कंप्यूटर विज्ञान स्कूलों को रैंक करने के लिए एक ब्लॉग भी लिखा। कसौटी वैज्ञानिक शोध शक्ति नहीं बल्कि बबल मिल्क टी थी।
उन्होंने बर्कले को प्रथम स्थान दिया क्योंकि परिसर "लगभग उच्च गुणवत्ता वाली दूध वाली चाय की दुकानों से घिरा हुआ है", जबकि एमआईटी को कम अंक प्राप्त हुआ क्योंकि "आस-पास बहुत कम दूध वाली चाय की दुकानें हैं और गुणवत्ता अस्थिर है।"

इस प्रकार की अभिव्यक्ति बहुत आरामदायक है, लेकिन यह देखा जा सकता है कि उनकी शोध आदतें हैं: जटिल समस्याओं को सुलझाना, तुलनीय आयाम ढूंढना, और फिर निर्णय लेना।
उनका काम स्वयं भी कुछ ऐसा ही कर रहा है, लेकिन वस्तु को एक मॉडल द्वारा प्रतिस्थापित कर दिया गया है।
02
उन्होंने आसान दिशा से परहेज किया
यदि आप केवल छवि मॉडल के विकास पथ को देखें, तो अतीत में तर्क वास्तव में बहुत स्पष्ट है: बड़ा डेटा, उच्च रिज़ॉल्यूशन और अधिक स्थिर पीढ़ी प्रक्रिया। अधिकांश सुधार "अधिक समान चित्र बनाने" पर केंद्रित हैं।
लेकिन जैसे-जैसे मॉडल अधिक जटिल सामग्री को संसाधित करना शुरू करता है, यह पथ भी एक अड़चन तक पहुंच जाता है: जब छवि में न केवल दृश्य तत्व होते हैं, बल्कि पाठ, संरचना और यहां तक कि तार्किक संबंध भी होते हैं, तो सवाल अब सिर्फ पसंद या विपरीत नहीं है, बल्कि यह जानकारी एक ही समय में कैसे स्थापित की जाती है।
मुद्दा उत्पादन की गुणवत्ता से संरचनात्मक स्थिरता पर केंद्रित है।
सभी शोधकर्ता इस प्रकार की समस्या नहीं करेंगे। यह सीधे तौर पर एक निश्चित मूल्यांकन संकेतक के अनुरूप नहीं है, और इसे अल्पावधि में उत्पाद प्रभावों में अनुवाद करना मुश्किल है। इसके विपरीत, रिज़ॉल्यूशन, शैली और विवरण पर काम करते समय सुधार देखना अक्सर आसान होता है।
चेन बोयुआन का मार्ग उन "आसान" दिशाओं से बचने के लिए हुआ: शैक्षणिक चरण में अपने शोध की शुरुआत से, उनका ध्यान एकल-मोडल क्षमताओं पर नहीं था, बल्कि इस बात पर था कि विभिन्न क्षमताएं एक साथ कैसे जुड़ी हुई हैं।
लंबे समय से, दृश्य मॉडल, भाषा मॉडल और निर्णय लेने की प्रणालियाँ स्वतंत्र रूप से विकसित हुई हैं। उन्हें इंटरफ़ेस के माध्यम से जोड़ा जा सकता है, लेकिन वे अक्सर आंतरिक रूप से अलग होते हैं। इसलिए, हालांकि मॉडल "क्षमताओं को बुला सकता है", लगातार समझ प्रदर्शित करना मुश्किल है।
चेन बोयुआन का काम इस स्थिति को बदलने की कोशिश करना है।
इस बार मॉडल की कई क्षमताओं को "छवियों, पाठ, मीम्स, वास्तविक वस्तुओं और सांस्कृतिक संदर्भ" के चौराहे पर प्रदर्शित किया गया।
चेन बोयुआन ने कहा कि आधिकारिक ब्लॉग पर कई तस्वीरें उनके द्वारा बनाई गई थीं। संपूर्ण ब्लॉग छवियों का उपयोग करके तैयार किया गया है, जिसमें कोई सामान्य पाठ नहीं है। दूसरे शब्दों में, आधिकारिक वेबसाइट पर उपयोगकर्ताओं द्वारा देखे जाने वाले कई उदाहरण केवल प्रचार सामग्री नहीं हैं, बल्कि स्वयं मॉडल क्षमताओं का हिस्सा हैं।
उदाहरण के लिए, वह चीनी ईस्टर एग कॉमिक।
वह एक बहुत ही मज़ेदार कार्टून बनाना चाहते थे, इसलिए उन्होंने "कैच डंठल" और "केले के डंठल" का इस्तेमाल किया। अपनी लेखन क्षमता को प्रदर्शित करने के लिए, उन्होंने विशेष रूप से मॉडल को चित्र में कई भाषाओं में पाठ जोड़ने के लिए कहा, और गृहनगर पोस्टर के निचले दाएं कोने में बहुत छोटे चीनी अक्षर भी बनाए ताकि यह परीक्षण किया जा सके कि मॉडल विवरण को कितना अच्छा संभाल सकता है।
इससे भी महत्वपूर्ण बात यह है कि यह चित्र जुड़ा हुआ नहीं है - उनके अनुसार, चित्र-में-चित्र और चित्र-में-चित्र-में-चित्र सहित संपूर्ण चित्र, एक ही बार में उत्पन्न होता है। उन्हें चिंता थी कि लोग सोचेंगे कि यह एक जुड़ी हुई तस्वीर है, इसलिए उन्होंने जानबूझकर तस्वीर के नीचे एक नोट जोड़ दिया।
यह सिर्फ जीपीटी इमेज 2 की कठिनाई को दर्शाता है। यदि अतीत का इमेज मॉडल बिना गलती किए कुछ बड़े अक्षर लिख सकता है, तो इसे बहुत अच्छा माना जाएगा। लेकिन जीपीटी इमेज 2 को स्तरों के पूरे सेट से निपटना होगा: उसे यह जानना होगा कि यह एक कॉमिक बुक फोटो है, कॉमिक बुक में चित्र हैं, और चित्रों में चित्र हैं; इसे विभिन्न भाषाओं में विभिन्न स्तरों पर पाठ डालने की आवश्यकता है; इसे चित्र में बेतरतीब ढंग से बिखरे होने के बजाय इन शब्दों और चित्र के बीच संबंध स्थापित करने की भी आवश्यकता है।
एक अन्य उदाहरण चावल के दाने की नक्काशी है।
चेन बोयुआन ने कहा कि पहले तो उन्हें लगा कि सामान्य पाठ प्रतिपादन उतना आश्चर्यजनक नहीं था, इसलिए उन्होंने अपने साथियों द्वारा प्रेरित किए जाने के बाद एक 4K चित्र बनाया: चित्र में चावल के दानों का ढेर दिखाया गया था, जिनमें से एक पर शब्द खुदे हुए थे।

यह अत्यंत छोटे पैमाने पर पाठ को नियंत्रित करने की मॉडल की क्षमता का परीक्षण करता है।
और वह ब्लैकबोर्ड दृश्य प्रमाण।
चेन बोयुआन ने कहा: "यह बहुत सरल लगता है यदि आप उससे सामान्य गणित के समीकरणों आदि को हल करने के लिए कहते हैं। नैनो केला इसे सोच मोड + पाठ प्रतिपादन के माध्यम से करने में सक्षम लगता है। इसलिए मैंने एक दृश्य प्रमाण के बारे में सोचा जो मुझे वास्तव में जीपीटी इमेज 2 का परीक्षण करना बहुत पसंद है। अद्वितीय दृश्य तर्क प्रभाव। तस्वीर में संकेत यह साबित करने के लिए ब्लैकबोर्ड पर दृष्टि (बीजगणित के बजाय) का उपयोग करना है कि 1 से शुरू होने वाली विषम संख्याओं का योग एक वर्ग है। इसके बारे में तर्क करना वास्तव में आसान है बीजगणितीय समाधान, लेकिन ग्राफिकल समाधान केवल दृश्य मॉडल के साथ किया जा सकता है।
यह जीपीटी इमेज 2 की रिलीज़ में सबसे उल्लेखनीय परिवर्तनों में से एक है: यह एक अमूर्त संबंध को एक छवि संरचना में बदलना शुरू कर सकता है, और फिर इस संरचना को दृश्य रूप से व्यक्त कर सकता है।

इसलिए, यह कहने के बजाय कि जीपीटी इमेज 2 "छवियां उत्पन्न कर रहा है", यह कहना बेहतर है कि यह संरचना के साथ एक दृश्य अभिव्यक्ति उत्पन्न कर रहा है।
कॉमिक्स, पोस्टर, दृश्य प्रमाण... इनमें से कोई भी चीज़ पूरी तरह से प्रकृति में चित्र नहीं हैं। उनमें पाठ, टाइपोग्राफी, पदानुक्रम, वस्तु संबंध, कार्य लक्ष्य और सौंदर्य संबंधी निर्णय भी शामिल हैं।
पिछले छवि मॉडल यहां टूट जाते हैं क्योंकि वे छवियों को पिक्सेल परिणामों के रूप में मानते हैं। मजबूत छवि मॉडल की इस पीढ़ी को छवियों को एक संरचित अभिव्यक्ति के रूप में मानना चाहिए।
03
वह अकेला नहीं है
OpenAI के भीतर, मॉडल प्रशिक्षण में वास्तव में बहुत से लोग शामिल नहीं हैं। जीपीटी-इमेज-2 के जारी होने के बाद, अनुसंधान नेता गेब्रियल गोह ने सोशल मीडिया पर सार्वजनिक रूप से अपनी टीम के सदस्यों को धन्यवाद दिया।
सूची लंबी नहीं है, केवल एक दर्जन लोग हैं।

यह एक बड़ी इंजीनियरिंग प्रणाली की तुलना में एक छोटी टीम की तरह है।
टीम के सदस्य अलग-अलग दिशाओं में बिखरे हुए हैं, कुछ विज़न करते हैं, कुछ जनरेशन मैकेनिज्म करते हैं, और कुछ सिस्टम संरचना से निपटते हैं, लेकिन वे अंततः एक ही चीज़ की ओर इशारा करते हैं: मॉडल को क्षमताओं का एक सेट देना जो एक ही समय में छवियों, भाषा और संरचना को संभाल सकता है।
ट्वीट में चित्रण भी कुछ हद तक एक रूपक की तरह है: लोगों का एक समूह एक साथ इकट्ठा होता है, प्रत्येक व्यक्ति एक हिस्से के लिए ज़िम्मेदार होता है, और अंततः वे एक ही तस्वीर बनाते हैं।
मॉडल की संरचना, क्षमताओं की सीमाएं, और यहां तक कि "छवि क्या होनी चाहिए" ये सभी चीजें ऐसी टीम में धीरे-धीरे बनाई जाती हैं।
गौर करने लायक बात यह है कि एक दर्जन से ज्यादा लोगों की कोर टीम में हमें चीनी नामों की अच्छी-खासी संख्या देखने को मिल सकती है.
चेन बोयुआन के अलावा, इसमें जियानफेंग वांग भी शामिल हैं जो दृश्य भाषा मॉडलिंग करते हैं, वेक्सिन लियांग जो मॉडल मूल्यांकन और डेटा मुद्दे करते हैं, युगुआंग यांग जो लंबे समय से छवि निर्माण में लगे हुए हैं, और छवि निर्माण और सिस्टम प्रशिक्षण में शामिल कई शोधकर्ता शामिल हैं।
चेन बोयुआन ने इस घटना को व्यक्तिगत जीत के रूप में नहीं लिखा। झिहू लेख के अंत में उन्होंने पूरी टीम को विशेष रूप से धन्यवाद दिया। उन्होंने कहा कि सभी ने बहुत-बहुत काम किये हैं। प्री-लॉन्च अवधि के अंत में, कुछ छोटी चीज़ों को ठीक करने के अलावा, उन्होंने प्रेस कॉन्फ्रेंस और वेबसाइट तैयार करने के लिए मार्केटिंग विभाग के सहयोगियों और कला सहयोगियों के साथ काम किया।
दूसरे शब्दों में, जीपीटी इमेज 2 अनुसंधान, उत्पाद, सौंदर्यशास्त्र और संचार का संयुक्त समापन है। मॉडल टीम को क्षमताएं बनाने की जरूरत है, कला टीम को यह जानने की जरूरत है कि किस तरह की तस्वीरें क्षमताओं को प्रदर्शित कर सकती हैं, और मार्केटिंग टीम को इन क्षमताओं को उन तस्वीरों में अनुवाद करने की जरूरत है जिन्हें आम उपयोगकर्ता समझ सकें, परीक्षण करने के इच्छुक हों और फैलाने के इच्छुक हों।
इसीलिए इस रिलीज़ में कई उदाहरण विशेष हैं। वे केवल एक सुंदर चित्र उत्पन्न नहीं करते हैं, बल्कि सक्रिय रूप से समस्याएँ भी पैदा करते हैं: कई भाषाएँ, बहुत छोटा पाठ, चित्र-में-चित्र, वास्तविक वस्तुएँ, दृश्य प्रमाण, खोज-जनित पोस्टर और क्यूआर कोड एम्बेडिंग।
प्रत्येक चित्र उपयोगकर्ता को बताता है: आपने जो सोचा था कि छवि मॉडल पहले नहीं कर सका, आप अब फिर से प्रयास कर सकते हैं।
इस दृष्टिकोण से, चेन बोयुआन की स्थिति बहुत विशेष है।
वह मॉडल प्रशिक्षण पक्ष और प्रकाशन कथा पक्ष दोनों पर हैं; उन्होंने न केवल मॉडल बनाने में भाग लिया, बल्कि बाहरी दुनिया को मॉडल की क्षमताओं को समझाने के लिए व्यक्तिगत रूप से कई चित्र भी डिज़ाइन किए।
जीपीटी इमेज 2 निश्चित रूप से अकेले चेन बोयुआन का काम नहीं है, लेकिन सार्वजनिक जानकारी से देखते हुए, चेन बोयुआन वास्तव में इस छवि मॉडल रिलीज में चीनी समुदाय के सबसे अधिक ध्यान देने योग्य नामों में से एक है।
एक ओर, इस बार जारी किया गया GPT ग्राफ़ जेनरेशन मॉडल उनका मुख्य प्रशिक्षण था; दूसरी ओर, वह एक ऐसी सफलता के लिए ज़िम्मेदार हुआ जिसे चीनी उपयोगकर्ताओं द्वारा सबसे आसानी से समझा जाता है: चीनी प्रतिपादन।
जब एआई अंततः चीनी भाषा को जटिल छवियों में लिखने में सक्षम हो गया, तो इसके पीछे शोधकर्ता जिसने लंबे समय तक विश्व मॉडल, स्थानिक समझ और उत्पादक स्थिरता का अध्ययन किया था, सबसे आगे आया।
उन्होंने कहा, "उम्मीद है कि इस बार हमने सभी को सुरक्षित पकड़ लिया है।"