"प्रोजेक्ट गुटेनबर्ग" 5,000 मुफ्त ऑडियोबुक जारी करने के लिए न्यूरल टेक्स्ट-टू-स्पीच तकनीक का उपयोग करता है

हाल के वर्षों में अपनी पठनीयता के कारण ऑडियोबुक की लोकप्रियता में तेजी से वृद्धि हुई है, लेकिन ऑडियोबुक को रिकॉर्ड करना कठिन और महंगा है। हाल ही में, शोधकर्ताओं ने संश्लेषित टेक्स्ट-टू-स्पीच का उपयोग करके एक स्वचालित विधि का प्रदर्शन किया जो प्रौद्योगिकी के सामने आने वाली कई समस्याओं को हल करता है और सामान्य उपयोगकर्ताओं को ऑडियोबुक बनाने की अनुमति देता है। अब पाठक प्रोजेक्ट गुटेनबर्ग के माध्यम से हजारों क्लासिक साहित्यिक ऑडियोबुक और अन्य सार्वजनिक डोमेन सामग्री मुफ्त में सुन सकते हैं। माइक्रोसॉफ्ट और एमआईटी के शोधकर्ताओं ने टेक्स्ट-टू-स्पीच सॉफ़्टवेयर का उपयोग करके पुस्तकों को स्कैन करके संग्रह बनाया।

इन ग्रंथों में शेक्सपियर, अगाथा क्रिस्टी, जेन ऑस्टेन, लियोनार्डो दा विंची और अन्य की रचनाएँ शामिल हैं। उपयोगकर्ता InternetArchive, Spotify, ApplePodcasts और GooglePodcasts पर सुन सकते हैं:

https://marhamilresearch4.blob.core.Windows.net/gutberg-public/Website/index.html

ऑडियोबुक संग्रह बनाने के लिए उपयोग किया गया कोड GitHub पर उपलब्ध है:

https://github.com/microsoft/SynapseML

Apple ने इस साल जनवरी में स्वचालित टेक्स्ट-टू-स्पीच तकनीक का उपयोग करके ऑडियोबुक बेचना शुरू किया। हालाँकि, इस प्रयास को साहित्यिक प्रतिष्ठान की ओर से संदेह का सामना करना पड़ा है, जो एप्पल के व्यावसायिक लक्ष्यों की आलोचना करते हैं, और आवाज अभिनेताओं की ओर से जो कंपनी की कृत्रिम बुद्धिमत्ता के लिए प्रशिक्षण प्रदान करते हैं। गुटेनबर्ग के दृष्टिकोण पर मिश्रित प्रतिक्रिया हो सकती है क्योंकि यह खुला स्रोत है और इसका कोई लाभ उद्देश्य नहीं है।

प्रोजेक्ट गुटेनबर्ग ने पाठ प्रारूप में मुफ्त साहित्य का एक भंडार बनाने में दशकों का समय बिताया है जो व्यापक रूप से मुफ्त में उपलब्ध है, लेकिन ऑडियोबुक इस सामग्री को और अधिक सुलभ बना सकते हैं। ऑडियोबुक उन पाठकों के लिए सहायक हैं जो गाड़ी चलाते हैं, एक साथ कई काम करते हैं, दृष्टिबाधित हैं, पढ़ना सीखते हैं या कोई नई भाषा सीखते हैं।

पारंपरिक तरीकों का उपयोग करके ऑडियोबुक तैयार करने में समय और पैसा खर्च करना शामिल है ताकि कोई पूरी किताब पढ़ सके। पढ़ने लायक प्रत्येक पुस्तक का ऑडियो संस्करण मैन्युअल रूप से रिकॉर्ड करना लागत प्रभावी नहीं है। टेक्स्ट-टू-स्पीच तकनीक प्रोजेक्ट गुटेनबर्ग के लिए बेहतर उपयुक्त थी। हालाँकि, शोधकर्ताओं को अपने मशीन लर्निंग टूल्स के साथ कई बाधाओं का सामना करना पड़ता है।

पहला और सबसे महत्वपूर्ण मुद्दा यह निर्धारित करना है कि सॉफ़्टवेयर कौन सी डिजिटल पुस्तकों को पार्स कर सकता है। प्रोजेक्ट गुटेनबर्ग विभिन्न प्रारूपों में सामग्री एकत्र करता है, और कई फाइलों में त्रुटियां या अपूर्ण स्कैन होते हैं। इसलिए शोधकर्ताओं ने HTML फ़ाइल प्रारूप में संग्रहीत पुस्तकों पर ध्यान केंद्रित किया और यह पता लगाने के लिए एक टूल (ऊपर चित्रित) बनाया कि कौन सी वस्तुएं समान प्रारूप प्रदर्शित करती हैं।

शोधकर्ताओं द्वारा संबोधित एक और समस्या यह सुनिश्चित करना थी कि सिस्टम को पता था कि कौन सा पाठ पढ़ना है या अनदेखा करना है। इसमें सामग्री तालिका, पृष्ठ संख्या, फ़ुटनोट, तालिकाएँ और अन्य बाहरी सामग्री जैसे घटक शामिल हैं।

इसके अतिरिक्त, परिणाम को प्राकृतिक मानव भाषण के काफी करीब होना चाहिए। शोधकर्ताओं ने आवाज के भावों पर ध्यान केंद्रित किया जो नॉनफिक्शन और कथन के लिए सबसे अच्छा काम करते हैं, लेकिन उपयोगकर्ता नाटकीय रीडिंग के साथ प्रयोग करने के लिए सॉफ्टवेयर में बदलाव भी कर सकते हैं।

शोधकर्ताओं ने एक प्रदर्शन आयोजित करने की योजना बनाई है जो उपयोगकर्ताओं को अपनी आवाज से ऑडियोबुक बनाने की सुविधा देगा। एल्गोरिदम को प्रशिक्षित करने के लिए कुछ वाक्यों को रिकॉर्ड करने के बाद, प्रत्येक प्रतिभागी सॉफ्टवेयर द्वारा पूरी किताब पढ़ने से पहले एक नमूना सुन सकता है। उन्हें ईमेल के माध्यम से ऑडियोबुक की एक प्रति भी प्राप्त होगी। उपयोगकर्ता प्रत्येक ऑडियोबुक को अनुकूलित करने के लिए संश्लेषित आवाज़ों में से चुन सकते हैं।

पहुँच:

अलीबाबा क्लाउड - 1888 युआन तक के यूनिवर्सल वाउचर तुरंत उपलब्ध हैं