Google ने इस महीने के "मेड ऑन यूट्यूब" इवेंट में घोषणा की कि यूट्यूब की स्वचालित डबिंग तकनीक ने एक नए अपग्रेड की शुरुआत की है: एआई लिप-सिंक (लिप-सिंक) फ़ंक्शन की शुरूआत, जिसका उद्देश्य मशीन-अनुवादित वीडियो सामग्री में "ध्वनि और चित्र के बीच समन्वय में कमी" की लंबे समय से चली आ रही समस्या को हल करना है। यह सुविधा सबसे पहले अंग्रेजी, जर्मन, फ्रेंच और स्पेनिश समेत 20 भाषाओं में शुरू की जाएगी, आने वाले महीनों में और भी भाषाओं में इसे पेश किया जाएगा।

यह बताया गया है कि वीडियो शीर्षक और ऑडियो ट्रैक को स्वचालित रूप से पुन: प्रस्तुत करने के लिए YouTube की स्वचालित डबिंग और स्वचालित अनुवाद विवादास्पद रहे हैं। कई उपयोगकर्ता इस तरह के स्वचालित अनुवाद और डबिंग को बंद करने के लिए एक एकीकृत विकल्प की उम्मीद करते हैं। बहुभाषी उपयोगकर्ताओं और बिलिबिली रचनाकारों ने बताया है कि मानव अनुवादों की तुलना में एआई-जनित अनुवादों की गुणवत्ता असमान है। वर्तमान में, YouTube विश्व स्तर पर डबिंग बंद करने का कार्य प्रदान नहीं करता है। उपयोगकर्ताओं को वीडियो-दर-वीडियो आधार पर ऑडियो ट्रैक को मैन्युअल रूप से समायोजित करने की आवश्यकता है। इसने कुछ डेवलपर्स को विशेष रूप से स्वचालित अनुवाद और डबिंग परतों को अवरुद्ध करने के लिए "यूट्यूब एंटी-ट्रांसलेट" जैसे ब्राउज़र प्लग-इन लॉन्च करने के लिए प्रेरित किया है।

इस अपडेट की मुख्य सफलता यह है कि एआई लिप सिंक फ़ंक्शन वीडियो में पात्रों के मुंह के आकार के साथ स्वचालित रूप से उत्पन्न ऑडियो ट्रैक को पूरी तरह से संरेखित करने के लिए कृत्रिम बुद्धिमत्ता तकनीक का उपयोग कर सकता है, जिससे लुक और फील में काफी सुधार होता है और एक सहज और अधिक प्राकृतिक वीडियो अनुभव प्राप्त होता है। क्रिएटर्स YouTube स्टूडियो के माध्यम से लिप सिंक डबिंग फ़ंक्शन को चालू करना चुन सकते हैं। पहला पायलट YouTube पार्टनर प्रोग्राम के सदस्यों के लिए खुला है, और उम्मीद है कि Google इसे भविष्य में सभी वीडियो तक विस्तारित करेगा।
बहुभाषी डबिंग के संदर्भ में, YouTube बहुभाषी ऑडियो ट्रैक उत्पन्न करने के लिए स्व-विकसित AI मॉडल (जेमिनी और अलाउड सहित) पर निर्भर करता है, जो न केवल मूल वक्ता की आवाज़ की भावना और स्वर को पुनर्स्थापित करता है, बल्कि पृष्ठभूमि ध्वनियों और मानव आवाज़ों को भी अलग करता है। Google के अनुसार, कुछ चैनलों द्वारा बहुभाषी डबिंग सक्षम करने के बाद, गैर-देशी दर्शकों की संख्या तीन गुना हो गई, जो मजबूत विकास क्षमता को दर्शाता है।
हालाँकि एआई स्वचालित डबिंग और लिप सिंक्रोनाइज़ेशन तकनीक रचनाकारों के दर्शकों और विज्ञापन राजस्व को बढ़ाने में महत्वपूर्ण भूमिका निभाती है, लेकिन अभी भी इस बात पर बहुत विवाद है कि क्या यह मूल सामग्री की प्रामाणिकता और दर्शकों के अनुभव को प्रभावित करेगा। समर्थकों का मानना है कि यह कदम वैश्विक दर्शकों को देखने में सुविधा प्रदान करता है और सामग्री के प्रभाव को बढ़ाता है; जबकि आलोचकों को चिंता है कि स्वचालन मूल कार्य की अनूठी शैली को नुकसान पहुँचाएगा। क्या एआई लिप सिंक आदर्श और वास्तविकता के बीच के अंतर को पूरी तरह से पाट सकता है, उद्योग अभी भी इसके प्रभाव को देख रहा है।