बुधवार को, OpenAI ने ChatGPT की मल्टी-मोडल क्षमताओं पर से प्रतिबंध हटाने की घोषणा की। अब, जैसे ही यह ऑनलाइन होता है, नेटिज़न्स तुरंत पागल हो जाते हैं। इसके बाद, आइए देखें कि चैटजीपीटी की छवि पहचान क्षमताएं कितनी मजबूत हैं।

01

एक फोटो लें और इसे अपलोड करें, और कोड तुरंत जेनरेट हो जाएगा

एक नेटिज़न ने एक मीटिंग के दौरान एक वीडियो रिकॉर्ड किया और एक व्हाइटबोर्ड तस्वीर अपलोड की, और फिर चैटजीपीटी से कोड लिखने के लिए कहा।


इसके अलावा, आप हाथ से बनाया गया स्केच अपलोड कर सकते हैं और ChatGPT को HTML में एक वेब पेज बनाने के लिए कह सकते हैं।


हूश हूश, हर मिनट कोड निकलता रहा।

यह बस ग्रेग ब्रॉकमैन द्वारा प्रदर्शित मल्टी-मोडल क्षमता है जब इस वर्ष जीपीटी-4 जारी किया गया था।


दूसरे उदाहरण के लिए, अपनी टूडोलिस्ट नोटबुक का फ़ोटो लें।


फिर GPT-4 को PythonTkinterGUI बनाने दें, और फिर इसे लागू किया गया...


02

प्राचीन स्क्रॉल पांडुलिपियाँ, एक नज़र में अनुवादित

यहां 17वीं सदी के कीमियागर रॉबर्ट बॉयल की एक और पांडुलिपि ड्राइंग है। क्या GPT-4 इसे पढ़ सकता है?


यह इसके लिए केक का एक टुकड़ा है.


उदाहरण के लिए "औषधीय ममियों पर कैटलन औषधीय मैनुअल"।


चैटजीपीटी ट्रांसक्राइब और अनुवाद भी कर सकता है।


यूसीएससी में इतिहास के एसोसिएट प्रोफेसर बेंजामिन ब्रीन ने कहा,

इसका इतिहासकारों पर महत्वपूर्ण प्रभाव पड़ेगा। पांडुलिपियों के एक विशिष्ट सेट पर प्रशिक्षित एक कस्टम मल्टी-मॉडल GPT-4 की कल्पना करें। यह न केवल प्रतिलेखन कर सकता है, बल्कि अनुवाद और वर्गीकरण भी कर सकता है। (यही है, एलएलएम के बिना लिखना, मेरी राय में यह बहुत बड़ी बात है)।


03

चार्ट सारांश भी बहुत अच्छा है 6

आप चार्ट के आधार पर डेटा निकालने के लिए GPT-4 को भी कमांड कर सकते हैं।


फिर चार्ट को दोहराने और इसे अधिक चार्ट जैसा बनाने के लिए पायथन कोड बनाया जा सकता है।


फिर स्टॉक ट्रेंड चार्ट को इसमें फेंकें, और यह विशेषताओं का विश्लेषण और सारांश भी कर सकता है।


04

तस्वीरें पढ़ने से "बुद्धिमत्ता बेहतर होती है"

GPT-4 को एक अमूर्त चित्र दें।

यह वास्तव में "संचार के महत्व" के रूपक की सटीक पहचान कर सकता है जिसे ये चार चित्र व्यक्त करना चाहते हैं। यह अपमानजनक है।


GPT-4V डॉक्टरों की लिखावट भी पढ़ सकता है।



कुछ जापानी नेटिज़न्स ने चैटजीपीटी परीक्षण लेने के लिए सीधे "ड्रैगन बॉल" से सन वुकोंग का उपयोग किया।


विभिन्न "क्या आप इंसान हैं" सत्यापन कोड भी हैं।


अपने स्वयं के कार्य का एक अंश अपलोड करें, और GPT-4 आपको सुधार के लिए सुझाव भी दे सकता है।


कुछ नेटिज़न्स ने पाया कि GPT-4V ने कोसमॉस-1 पेपर में इस प्रश्न का सही उत्तर दिया था, लेकिन तर्क प्रक्रिया में एक त्रुटि थी।


इस फीचर से अब बच्चों को होमवर्क नहीं करना पड़ेगा।


05

नेटिज़न्स का बड़ा सारांश

उपरोक्त अनुभव के अलावा, कुछ नेटिज़ेंस ने GPT-4V के अपने स्वयं के परीक्षण का परिचय देते हुए एक लंबा लेख लिखा।


परीक्षण एक:दृश्य प्रश्नोत्तर

मुझे एक इमोटिकॉन दें और देखें कि GPT-4V इसे कितनी अच्छी तरह समझता है?


GPT-4V सफलतापूर्वक बताता है कि यह दिलचस्प क्यों है और चित्र के व्यक्तिगत घटकों और वे कैसे जुड़े हुए हैं, इसका उल्लेख करता है।

यह ध्यान देने योग्य है कि GPT-4V प्रदान की गई ब्रैकेट वाली टिप्पणियों को पढ़ने और उनका जवाब देने में सक्षम है।

फिर भी, GPT-4V ने इसे "GPU" के बजाय "NVIDIABURGER" लेबल करके एक गलती की।

फिर, एक सिक्के, एक अमेरिकी पैसे की तस्वीर के साथ इसका दोबारा परीक्षण करें। GPT-4V सिक्के की उत्पत्ति और मूल्यवर्ग की सफलतापूर्वक पहचान करने में सक्षम है।


लेकिन अगर यह कई सिक्कों की तस्वीर है और GPT-4V पूछ रहा है, तो मेरे पास कितना पैसा होगा?

इस बिंदु पर, यह केवल सिक्कों की संख्या की पहचान कर सकता है, लेकिन मुद्रा के प्रकार की नहीं।


टेस्ट 2: ओसीआर पहचान

वेब पेजों से टेक्स्ट छवियां कैप्चर करें और उन्हें अपलोड करें। GPT-4V सामग्री को बहुत अच्छे से पढ़ सकता है।


टेस्ट 3: गणित ओसीआर

गणितीय ओसीआर ऑप्टिकल कैरेक्टर पहचान का एक विशेष रूप है जो गणितीय समीकरणों को लक्षित करता है।

एक नेटिज़न ने GPT-4V से एक गणितीय समस्या पूछी और उसे दस्तावेज़ के स्क्रीनशॉट के रूप में प्रस्तुत किया।

इस समस्या में छवि पर "इसे हल करें" संकेत के साथ, 2 कोण दिए गए ज़िपर लाइन की लंबाई की गणना करना शामिल है।



मॉडल उन समस्याओं की पहचान करता है जिन्हें त्रिकोणमिति का उपयोग करके हल किया जा सकता है, उपयोग किए जाने वाले कार्यों की पहचान करता है, और समस्या को हल करने के तरीके के बारे में चरण-दर-चरण पूर्वाभ्यास प्रदान करता है। GPT-4V तब प्रश्न का सही उत्तर प्रदान करता है।

ऐसा कहने के बाद, GPT-4V सिस्टम कार्ड बताता है कि मॉडल में गणितीय प्रतीक गायब हो सकते हैं।

कागज पर हाथ से लिखे गए समीकरणों या अभिव्यक्तियों वाले परीक्षणों सहित विभिन्न परीक्षण, गणित के प्रश्नों का उत्तर देने के लिए एक मॉडल की अपर्याप्त क्षमता का संकेत दे सकते हैं।

टेस्ट 4: ऑब्जेक्ट डिटेक्शन

GPT-4V को एक छवि में एक कुत्ते का पता लगाने दें और कुत्ते की स्थिति से संबंधित x_min, y_min, x_max और y_max मान प्रदान करें। GPT-4V द्वारा लौटाए गए बाउंडिंग बॉक्स निर्देशांक कुत्ते की स्थिति से मेल नहीं खाते हैं।


हालाँकि GPT-4V छवि प्रश्नों का उत्तर देने में बहुत शक्तिशाली है, लेकिन जब आप जानना चाहते हैं कि छवि में कोई वस्तु कहाँ है तो यह मॉडल फाइन-ट्यूनिंग ऑब्जेक्ट डिटेक्शन मॉडल को प्रतिस्थापित नहीं कर सकता है।

टेस्ट 5: सत्यापन कोड

GPT-4V सत्यापन कोड वाली छवियों को पहचानने में सक्षम पाया गया, लेकिन अक्सर परीक्षण में विफल रहा।

ट्रैफ़िक लाइट ग्रिड के चयन के एक उदाहरण में, GPT-4V ने ट्रैफ़िक लाइट वाले कम ग्रिड का चयन किया।


टेस्ट 6: क्रॉसवर्ड पहेलियाँ और सुडोकू

सुडोकू परीक्षण में, GPT-4V ने खेल को पहचान लिया लेकिन बोर्ड की संरचना को गलत समझा और इसलिए गलत परिणाम दिए।


वैसे, चैटजीपीटी नेटवर्किंग फ़ंक्शन वापस आ गया है।