सोमवार शाम, बीजिंग समय, कृत्रिम बुद्धिमत्ता के क्षेत्र में एक प्रसिद्ध स्टार्टअप, OpenAI ने एक रिपोर्ट जारी की जिसका शीर्षक था "ChatGPT अब देख, सुन और बोल सकता है'' घोषणा करते हुए घोषणा की कि यह सुविधा अगले दो सप्ताह में भुगतान करने वाले उपयोगकर्ताओं के लिए बढ़ा दी जाएगी। इस साल मार्च में GPT-4 प्रेस कॉन्फ्रेंस में, सबसे चौंकाने वाला दृश्य यह होना चाहिए कि OpenAI के अध्यक्ष ग्रेग ब्रॉकमैन ने स्क्रैच पेपर का एक टुकड़ा लिया और एक स्केच बनाया, एक फोटो लिया और GPT-4 को 10 सेकंड में इस वेबसाइट के लिए कोड तैयार करने दिया।


(स्रोत: ओपनएआई)

चैटजीपीटी ने पहले एक "कोड दुभाषिया" फ़ंक्शन लॉन्च किया है जो छवियां अपलोड कर सकता है, और इसमें छवियों और टेक्स्ट फ़ोटो को संसाधित करने के लिए कुछ प्रारंभिक क्षमताएं हैं। लेकिन इसमें कोई संदेह नहीं है कि आज का "फ़ोटो लें और प्रश्न पूछें" अधिकांश उपयोगकर्ताओं के एआई सहायक उपयोग परिदृश्यों के करीब है।

रेफ्रिजरेटर की तस्वीर लें और बताएं कि आज रात क्या खाना चाहिए

शीर्षक के क्रम में, आज दो मुख्य विशेषताएं अपडेट की गई हैं:चित्र-आधारित वार्तालाप, और वास्तविक समय की ध्वनि वार्तालाप।

आइए सबसे पहले बात करते हैं उस पिक्चर चैट फ़ंक्शन के बारे में जिसने बहुत अधिक ध्यान आकर्षित किया है। OpenAI के अनुसार, उपयोगकर्ता अब कर सकते हैंअपने रेफ्रिजरेटर की एक तस्वीर लें और चैटजीपीटी को व्यंजनों की सिफारिश करने दें; यात्रा करते समयकिसी ऐतिहासिक स्थल का फोटो लें और चैटजीपीटी को बताएं कि उस स्थान के बारे में क्या दिलचस्प है। बेशक, आप गणित की किसी समस्या का फोटो भी ले सकते हैं और चैटजीपीटी को उसका उत्तर देने दे सकते हैं।

आधिकारिक उदाहरण में, ChatGPT दिया गया हैबाइक की फोटो खींची और पूछा कि कैसी बनीसीट नीचे कर दी गई. तब चैटजीपीटी ने कहा कि यह आपकी कार के मॉडल पर निर्भर करता है। कुछ कारों में त्वरित रिलीज़ छड़ें होती हैं, और कुछ को बोल्ट के साथ तय किया जाता है, और फिर विस्तृत चरण दिए जाते हैं।


फिर अधिकारी ने न समझने का नाटक किया और बोल्ट की फोटो ले ली.उन्होंने जोर देने के लिए इसे आधिकारिक ड्राइंग टूल से घेरा, और फिर चैटजीपीटी से पूछा कि क्या यह एक त्वरित रिलीज लीवर है। चैटजीपीटी ने कहायह एक बोल्ट है, इसलिए आपको एलन रिंच ढूंढने की आवश्यकता है।


फिर अधिकारी ने टूलबॉक्स की एक और तस्वीर ली और चैटजीपीटी से पूछा कि यह कौन सा रिंच है। ChatGPT ने भी रिंच को सफलतापूर्वक पहचान लिया और उपयोगकर्ता को बताया कि कौन सा आकार लेना है।


चैटजीपीटी बात कर सकता है!

इसके अलावा, OpenAI वाक् पहचान, ट्रांसक्रिप्शन और ऑडियो जेनरेशन फ़ंक्शंस और लॉन्च को भी पैकेज करता हैAI वॉयस चैट फ़ंक्शन, यह फ़ंक्शन केवल iOS और Android क्लाइंट के लिए उपलब्ध है। अधिकारियों ने कहा कि उपयोगकर्ता इस फ़ंक्शन का उपयोग घर पर बच्चों को सोते समय कहानियाँ सुनाने के लिए कर सकते हैं। या जब आप घर पर भोजन कर रहे हों और अचानक किसी मुद्दे पर बहस हो जाए, तो आप बहस को हल करने के लिए चैटजीपीटी को डेस्कटॉप पर रख सकते हैं।


OpenAI के अनुसार, यह सुविधा उपयोगकर्ता द्वारा कही गई बातों को टेक्स्ट में बदलने के लिए व्हिस्पर ओपन सोर्स स्पीच रिकग्निशन सिस्टम का उपयोग करती है। यह एक नए टेक्स्ट-टू-स्पीच मॉडल का भी उपयोग करता है और उपयोगकर्ताओं को चुनने के लिए 5 आवाजें प्रदान करने के लिए पेशेवर आवाज अभिनेताओं के साथ काम करता है।

अधिक उन्नत AI में नए जोखिम और सीमाएँ भी हैं

ओपनएआई का कहना है कि उसकी नई भाषण तकनीक वास्तविक भाषण के कुछ सेकंड से यथार्थवादी सिंथेटिक आवाजें बनाने में सक्षम है। यह क्षमता रचनात्मकता के द्वार खोलती है, लेकिन नए जोखिम भी पैदा करती है - जैसे कि यह संभावना कि अपराधी धोखाधड़ी करने के लिए सार्वजनिक हस्तियों का रूप धारण कर सकते हैं। इसलिए OpenAI का निर्णय इस सुविधा को "वॉयस चैट" जैसे विशिष्ट उपयोग के मामलों के माध्यम से लॉन्च करना है।

साथ ही, OpenAI अधिक संस्थानों के साथ भी सहयोग कर रहा है। उदाहरण के लिएस्ट्रीमिंग कंपनी Spotify ध्वनि अनुवाद के लिए इस सुविधा का परीक्षण कर रही है, जिससे पॉडकास्ट होस्टों को पॉडकास्ट ऑडियो को अन्य भाषाओं में अनुवाद करने के लिए अपनी आवाज का उपयोग करके अपनी वैश्विक पहुंच का विस्तार करने में मदद मिलेगी।

छवियाँ नई चुनौतियाँ भी लाती हैं, जैसे मतिभ्रम की समस्याएँ और उपयोगकर्ता उच्च जोखिम वाले क्षेत्रों में छवियों की मॉडल व्याख्या पर भरोसा करते हैं। इसलिए, ऑनलाइन होने से पहले, ओपनएआई ने उग्रवाद और वैज्ञानिक क्षमताओं जैसे क्षेत्रों में जोखिम परीक्षण भी किए।

इसके अलावा, इस लेख को पढ़ने वाले चीनी पाठकों के लिए, चित्र संवाद का अनुभव शायद आगे देखने लायक है, लेकिन ध्वनि संवाद को छूट देनी पड़ सकती है। ओपनएआई ने कहा,मॉडल अंग्रेजी पाठ को लिखने में अच्छा है, लेकिन कुछ अन्य भाषाओं में खराब प्रदर्शन करता है, विशेष रूप से गैर-रोमन वर्णमाला का उपयोग करने वालों में, और गैर-अंग्रेजी उपयोगकर्ताओं को सलाह दी जाती है कि वे ऐसे उद्देश्यों के लिए चैटजीपीटी का उपयोग न करें।