सोमवार शाम, बीजिंग समय, कृत्रिम बुद्धिमत्ता के क्षेत्र में एक प्रसिद्ध स्टार्टअप, OpenAI ने एक रिपोर्ट जारी की जिसका शीर्षक था "
(स्रोत: ओपनएआई)
चैटजीपीटी ने पहले एक "कोड दुभाषिया" फ़ंक्शन लॉन्च किया है जो छवियां अपलोड कर सकता है, और इसमें छवियों और टेक्स्ट फ़ोटो को संसाधित करने के लिए कुछ प्रारंभिक क्षमताएं हैं। लेकिन इसमें कोई संदेह नहीं है कि आज का "फ़ोटो लें और प्रश्न पूछें" अधिकांश उपयोगकर्ताओं के एआई सहायक उपयोग परिदृश्यों के करीब है।
शीर्षक के क्रम में, आज दो मुख्य विशेषताएं अपडेट की गई हैं:
आइए सबसे पहले बात करते हैं उस पिक्चर चैट फ़ंक्शन के बारे में जिसने बहुत अधिक ध्यान आकर्षित किया है। OpenAI के अनुसार, उपयोगकर्ता अब कर सकते हैं
आधिकारिक उदाहरण में, ChatGPT दिया गया है
फिर अधिकारी ने न समझने का नाटक किया और बोल्ट की फोटो ले ली.
फिर अधिकारी ने टूलबॉक्स की एक और तस्वीर ली और चैटजीपीटी से पूछा कि यह कौन सा रिंच है। ChatGPT ने भी रिंच को सफलतापूर्वक पहचान लिया और उपयोगकर्ता को बताया कि कौन सा आकार लेना है।
इसके अलावा, OpenAI वाक् पहचान, ट्रांसक्रिप्शन और ऑडियो जेनरेशन फ़ंक्शंस और लॉन्च को भी पैकेज करता है
OpenAI के अनुसार, यह सुविधा उपयोगकर्ता द्वारा कही गई बातों को टेक्स्ट में बदलने के लिए व्हिस्पर ओपन सोर्स स्पीच रिकग्निशन सिस्टम का उपयोग करती है। यह एक नए टेक्स्ट-टू-स्पीच मॉडल का भी उपयोग करता है और उपयोगकर्ताओं को चुनने के लिए 5 आवाजें प्रदान करने के लिए पेशेवर आवाज अभिनेताओं के साथ काम करता है।
ओपनएआई का कहना है कि उसकी नई भाषण तकनीक वास्तविक भाषण के कुछ सेकंड से यथार्थवादी सिंथेटिक आवाजें बनाने में सक्षम है। यह क्षमता रचनात्मकता के द्वार खोलती है, लेकिन नए जोखिम भी पैदा करती है - जैसे कि यह संभावना कि अपराधी धोखाधड़ी करने के लिए सार्वजनिक हस्तियों का रूप धारण कर सकते हैं। इसलिए OpenAI का निर्णय इस सुविधा को "वॉयस चैट" जैसे विशिष्ट उपयोग के मामलों के माध्यम से लॉन्च करना है।
साथ ही, OpenAI अधिक संस्थानों के साथ भी सहयोग कर रहा है। उदाहरण के लिए
छवियाँ नई चुनौतियाँ भी लाती हैं, जैसे मतिभ्रम की समस्याएँ और उपयोगकर्ता उच्च जोखिम वाले क्षेत्रों में छवियों की मॉडल व्याख्या पर भरोसा करते हैं। इसलिए, ऑनलाइन होने से पहले, ओपनएआई ने उग्रवाद और वैज्ञानिक क्षमताओं जैसे क्षेत्रों में जोखिम परीक्षण भी किए।
इसके अलावा, इस लेख को पढ़ने वाले चीनी पाठकों के लिए, चित्र संवाद का अनुभव शायद आगे देखने लायक है, लेकिन ध्वनि संवाद को छूट देनी पड़ सकती है। ओपनएआई ने कहा,