OpenAI ने आज तीन नए रीयल-टाइम स्पीच मॉडल जारी किए, जिसका लक्ष्य डेवलपर्स के लिए "स्पीच एप्लिकेशन फॉर्म की एक नई पीढ़ी को अनलॉक करना" है। ये तीन स्पीच इंटेलिजेंस मॉडल विभिन्न परिदृश्य आवश्यकताओं पर ध्यान केंद्रित करते हैं जैसे तर्कपूर्ण संवाद, वास्तविक समय अनुवाद और वास्तविक समय प्रतिलेखन।

OpenAI द्वारा जारी जानकारी के अनुसार, नई श्रृंखला में तीन मॉडल शामिल हैं: GPT‑Realtime‑2, GPT‑Realtime‑Translate और GPT‑Realtime‑Whisper। उनमें से, GPT‑Realtime‑2 को GPT‑5 स्तर की तर्क क्षमताओं के साथ पहले भाषण मॉडल के रूप में तैनात किया गया है, जो जटिल अनुरोधों को बेहतर ढंग से संभाल सकता है और अधिक प्राकृतिक तरीके से बातचीत को आगे बढ़ाना जारी रख सकता है। आधिकारिक परिचय के अनुसार, यह मॉडल विशेष रूप से रीयल-टाइम वॉयस इंटरैक्शन के लिए बनाया गया है। जब उपयोगकर्ता प्रश्न पूछते हैं या निर्देश जारी करते हैं, तो वे सुसंगत बातचीत बनाए रखते हुए तर्क कर सकते हैं। साथ ही, वे टूल को कॉल भी कर सकते हैं, उपयोगकर्ता की रुकावटों और सुधारों को संभाल सकते हैं, और वर्तमान स्थिति के आधार पर अधिक उपयुक्त प्रतिक्रियाएँ दे सकते हैं।
दूसरा मॉडल, GPT‑Realtime‑Translate, वास्तविक समय अनुवाद क्षमताओं पर ध्यान केंद्रित करता है, "70 से अधिक इनपुट भाषाओं और 13 आउटपुट भाषाओं" का समर्थन करता है और अनुवाद प्रक्रिया के दौरान स्पीकर की बोलने की गति को बनाए रखने की कोशिश करता है। इस सुविधा का मतलब है कि क्रॉस-भाषा कॉल, मीटिंग या लाइव प्रसारण जैसे परिदृश्यों में, इस मॉडल से "एक साथ व्याख्या" के करीब एक अनुभव प्रदान करने की उम्मीद है।
तीसरा जीपीटी‑रियलटाइम‑व्हिस्पर एक रीयल-टाइम स्ट्रीमिंग स्पीच ट्रांसक्रिप्शन मॉडल है जो कम-विलंबता स्पीच-टू-टेक्स्ट क्षमताओं पर केंद्रित है। ओपनएआई ने कहा कि स्पीकर के बोलने के दौरान मॉडल तुरंत ट्रांसक्रिप्शन पूरा कर सकता है, जिससे विभिन्न वास्तविक समय के उत्पाद तेज, अधिक प्रतिक्रियाशील और अधिक प्राकृतिक दिखाई देते हैं। लाइव उपशीर्षक "बोलते समय बोलना" से लेकर बैठक रिकॉर्ड तक जो चर्चा की गति को बनाए रख सकते हैं, ऐसे एप्लिकेशन परिदृश्यों को जीपीटी‑रियलटाइम‑व्हिस्पर की मुख्य दिशा माना जाता है।
एक्सेस तरीकों और कीमतों के संदर्भ में, OpenAI ने कहा कि तीन नए स्पीच मॉडल को इसके रियलटाइम एपीआई सिस्टम में शामिल किया गया है। GPT‑Realtime‑2 की कीमत $32 प्रति 1 मिलियन ऑडियो इनपुट टोकन (कैश्ड इनपुट टोकन के लिए $0.40) और $64 प्रति 1 मिलियन ऑडियो आउटपुट टोकन है। GPT‑Realtime‑Translate की कीमत $0.034 प्रति मिनट है, जबकि GPT‑Realtime‑Whisper की कीमत $0.017 प्रति मिनट है।
OpenAI ने कहा कि डेवलपर्स सीधे प्लेग्राउंड के माध्यम से इन नए रीयल-टाइम स्पीच मॉडल का परीक्षण कर सकते हैं। यदि आपके पास पहले से ही कोडेक्स स्थापित है, तो किसी मौजूदा एप्लिकेशन में GPT‑Realtime‑2 जोड़ने या मॉडल के आधार पर तुरंत एक नया एप्लिकेशन बनाने के लिए निर्दिष्ट प्रॉम्प्ट पर सबमिट पर क्लिक करें। अधिकारी ने अपनी वेबसाइट पर इन तीन वॉयस मॉडलों के तकनीकी विवरण भी पेश किए और बताया कि कैसे कुछ साझेदार कंपनियों ने वास्तविक उत्पादों में उनका उपयोग किया है।
जेनेरेटिव एआई के मल्टी-मोडैलिटी और रियल-टाइम इंटरेक्शन की ओर विकसित होने के संदर्भ में, ओपनएआई द्वारा जारी तीन स्पीच मॉडल को "वॉयस इंटेलिजेंस" की दिशा में एक और महत्वपूर्ण लेआउट माना जाता है। तर्क, अनुवाद और प्रतिलेखन क्षमताओं के एकीकृत एकीकरण के साथ, डेवलपर्स उपयोगकर्ताओं को वॉयस एआई अनुभव अधिक आसानी से प्रदान करने में सक्षम होंगे जो "एक टोपी की बूंद पर उपलब्ध है"। सहायक उपकरणों से लेकर उत्पादकता अनुप्रयोगों तक, सामग्री निर्माण और पहुंच सेवाओं तक, इससे अन्वेषण और नवाचार के एक नए दौर की शुरुआत होने की उम्मीद है।