बुधवार को, OpenAI ने ChatGPT की मल्टी-मोडल क्षमताओं पर से प्रतिबंध हटाने की घोषणा की। अब, जैसे ही यह ऑनलाइन होता है, नेटिज़न्स तुरंत पागल हो जाते हैं। इसके बाद, आइए देखें कि चैटजीपीटी की छवि पहचान क्षमताएं कितनी मजबूत हैं।
01
एक फोटो लें और इसे अपलोड करें, और कोड तुरंत जेनरेट हो जाएगा
एक नेटिज़न ने एक मीटिंग के दौरान एक वीडियो रिकॉर्ड किया और एक व्हाइटबोर्ड तस्वीर अपलोड की, और फिर चैटजीपीटी से कोड लिखने के लिए कहा।
इसके अलावा, आप हाथ से बनाया गया स्केच अपलोड कर सकते हैं और ChatGPT को HTML में एक वेब पेज बनाने के लिए कह सकते हैं।
हूश हूश, हर मिनट कोड निकलता रहा।
यह बस ग्रेग ब्रॉकमैन द्वारा प्रदर्शित मल्टी-मोडल क्षमता है जब इस वर्ष जीपीटी-4 जारी किया गया था।
दूसरे उदाहरण के लिए, अपनी टूडोलिस्ट नोटबुक का फ़ोटो लें।
फिर GPT-4 को PythonTkinterGUI बनाने दें, और फिर इसे लागू किया गया...
02
प्राचीन स्क्रॉल पांडुलिपियाँ, एक नज़र में अनुवादित
यहां 17वीं सदी के कीमियागर रॉबर्ट बॉयल की एक और पांडुलिपि ड्राइंग है। क्या GPT-4 इसे पढ़ सकता है?
यह इसके लिए केक का एक टुकड़ा है.
उदाहरण के लिए "औषधीय ममियों पर कैटलन औषधीय मैनुअल"।
चैटजीपीटी ट्रांसक्राइब और अनुवाद भी कर सकता है।
यूसीएससी में इतिहास के एसोसिएट प्रोफेसर बेंजामिन ब्रीन ने कहा,
इसका इतिहासकारों पर महत्वपूर्ण प्रभाव पड़ेगा। पांडुलिपियों के एक विशिष्ट सेट पर प्रशिक्षित एक कस्टम मल्टी-मॉडल GPT-4 की कल्पना करें। यह न केवल प्रतिलेखन कर सकता है, बल्कि अनुवाद और वर्गीकरण भी कर सकता है। (यही है, एलएलएम के बिना लिखना, मेरी राय में यह बहुत बड़ी बात है)।
03
चार्ट सारांश भी बहुत अच्छा है 6
आप चार्ट के आधार पर डेटा निकालने के लिए GPT-4 को भी कमांड कर सकते हैं।
फिर चार्ट को दोहराने और इसे अधिक चार्ट जैसा बनाने के लिए पायथन कोड बनाया जा सकता है।
फिर स्टॉक ट्रेंड चार्ट को इसमें फेंकें, और यह विशेषताओं का विश्लेषण और सारांश भी कर सकता है।
04
तस्वीरें पढ़ने से "बुद्धिमत्ता बेहतर होती है"
GPT-4 को एक अमूर्त चित्र दें।
यह वास्तव में "संचार के महत्व" के रूपक की सटीक पहचान कर सकता है जिसे ये चार चित्र व्यक्त करना चाहते हैं। यह अपमानजनक है।
GPT-4V डॉक्टरों की लिखावट भी पढ़ सकता है।
कुछ जापानी नेटिज़न्स ने चैटजीपीटी परीक्षण लेने के लिए सीधे "ड्रैगन बॉल" से सन वुकोंग का उपयोग किया।
विभिन्न "क्या आप इंसान हैं" सत्यापन कोड भी हैं।
अपने स्वयं के कार्य का एक अंश अपलोड करें, और GPT-4 आपको सुधार के लिए सुझाव भी दे सकता है।
कुछ नेटिज़न्स ने पाया कि GPT-4V ने कोसमॉस-1 पेपर में इस प्रश्न का सही उत्तर दिया था, लेकिन तर्क प्रक्रिया में एक त्रुटि थी।
इस फीचर से अब बच्चों को होमवर्क नहीं करना पड़ेगा।
05
नेटिज़न्स का बड़ा सारांश
उपरोक्त अनुभव के अलावा, कुछ नेटिज़ेंस ने GPT-4V के अपने स्वयं के परीक्षण का परिचय देते हुए एक लंबा लेख लिखा।
परीक्षण एक:दृश्य प्रश्नोत्तर
मुझे एक इमोटिकॉन दें और देखें कि GPT-4V इसे कितनी अच्छी तरह समझता है?
GPT-4V सफलतापूर्वक बताता है कि यह दिलचस्प क्यों है और चित्र के व्यक्तिगत घटकों और वे कैसे जुड़े हुए हैं, इसका उल्लेख करता है।
यह ध्यान देने योग्य है कि GPT-4V प्रदान की गई ब्रैकेट वाली टिप्पणियों को पढ़ने और उनका जवाब देने में सक्षम है।
फिर भी, GPT-4V ने इसे "GPU" के बजाय "NVIDIABURGER" लेबल करके एक गलती की।
फिर, एक सिक्के, एक अमेरिकी पैसे की तस्वीर के साथ इसका दोबारा परीक्षण करें। GPT-4V सिक्के की उत्पत्ति और मूल्यवर्ग की सफलतापूर्वक पहचान करने में सक्षम है।
लेकिन अगर यह कई सिक्कों की तस्वीर है और GPT-4V पूछ रहा है, तो मेरे पास कितना पैसा होगा?
इस बिंदु पर, यह केवल सिक्कों की संख्या की पहचान कर सकता है, लेकिन मुद्रा के प्रकार की नहीं।
टेस्ट 2: ओसीआर पहचान
वेब पेजों से टेक्स्ट छवियां कैप्चर करें और उन्हें अपलोड करें। GPT-4V सामग्री को बहुत अच्छे से पढ़ सकता है।
टेस्ट 3: गणित ओसीआर
गणितीय ओसीआर ऑप्टिकल कैरेक्टर पहचान का एक विशेष रूप है जो गणितीय समीकरणों को लक्षित करता है।
एक नेटिज़न ने GPT-4V से एक गणितीय समस्या पूछी और उसे दस्तावेज़ के स्क्रीनशॉट के रूप में प्रस्तुत किया।
इस समस्या में छवि पर "इसे हल करें" संकेत के साथ, 2 कोण दिए गए ज़िपर लाइन की लंबाई की गणना करना शामिल है।
मॉडल उन समस्याओं की पहचान करता है जिन्हें त्रिकोणमिति का उपयोग करके हल किया जा सकता है, उपयोग किए जाने वाले कार्यों की पहचान करता है, और समस्या को हल करने के तरीके के बारे में चरण-दर-चरण पूर्वाभ्यास प्रदान करता है। GPT-4V तब प्रश्न का सही उत्तर प्रदान करता है।
ऐसा कहने के बाद, GPT-4V सिस्टम कार्ड बताता है कि मॉडल में गणितीय प्रतीक गायब हो सकते हैं।
कागज पर हाथ से लिखे गए समीकरणों या अभिव्यक्तियों वाले परीक्षणों सहित विभिन्न परीक्षण, गणित के प्रश्नों का उत्तर देने के लिए एक मॉडल की अपर्याप्त क्षमता का संकेत दे सकते हैं।
टेस्ट 4: ऑब्जेक्ट डिटेक्शन
GPT-4V को एक छवि में एक कुत्ते का पता लगाने दें और कुत्ते की स्थिति से संबंधित x_min, y_min, x_max और y_max मान प्रदान करें। GPT-4V द्वारा लौटाए गए बाउंडिंग बॉक्स निर्देशांक कुत्ते की स्थिति से मेल नहीं खाते हैं।
हालाँकि GPT-4V छवि प्रश्नों का उत्तर देने में बहुत शक्तिशाली है, लेकिन जब आप जानना चाहते हैं कि छवि में कोई वस्तु कहाँ है तो यह मॉडल फाइन-ट्यूनिंग ऑब्जेक्ट डिटेक्शन मॉडल को प्रतिस्थापित नहीं कर सकता है।
टेस्ट 5: सत्यापन कोड
GPT-4V सत्यापन कोड वाली छवियों को पहचानने में सक्षम पाया गया, लेकिन अक्सर परीक्षण में विफल रहा।
ट्रैफ़िक लाइट ग्रिड के चयन के एक उदाहरण में, GPT-4V ने ट्रैफ़िक लाइट वाले कम ग्रिड का चयन किया।
टेस्ट 6: क्रॉसवर्ड पहेलियाँ और सुडोकू
सुडोकू परीक्षण में, GPT-4V ने खेल को पहचान लिया लेकिन बोर्ड की संरचना को गलत समझा और इसलिए गलत परिणाम दिए।
वैसे, चैटजीपीटी नेटवर्किंग फ़ंक्शन वापस आ गया है।