हाल के वर्षों में अपनी पठनीयता के कारण ऑडियोबुक की लोकप्रियता में तेजी से वृद्धि हुई है, लेकिन ऑडियोबुक को रिकॉर्ड करना कठिन और महंगा है। हाल ही में, शोधकर्ताओं ने संश्लेषित टेक्स्ट-टू-स्पीच का उपयोग करके एक स्वचालित विधि का प्रदर्शन किया जो प्रौद्योगिकी के सामने आने वाली कई समस्याओं को हल करता है और सामान्य उपयोगकर्ताओं को ऑडियोबुक बनाने की अनुमति देता है। अब पाठक प्रोजेक्ट गुटेनबर्ग के माध्यम से हजारों क्लासिक साहित्यिक ऑडियोबुक और अन्य सार्वजनिक डोमेन सामग्री मुफ्त में सुन सकते हैं। माइक्रोसॉफ्ट और एमआईटी के शोधकर्ताओं ने टेक्स्ट-टू-स्पीच सॉफ़्टवेयर का उपयोग करके पुस्तकों को स्कैन करके संग्रह बनाया।
इन ग्रंथों में शेक्सपियर, अगाथा क्रिस्टी, जेन ऑस्टेन, लियोनार्डो दा विंची और अन्य की रचनाएँ शामिल हैं। उपयोगकर्ता InternetArchive, Spotify, ApplePodcasts और GooglePodcasts पर सुन सकते हैं:
https://marhamilresearch4.blob.core.Windows.net/gutberg-public/Website/index.html
ऑडियोबुक संग्रह बनाने के लिए उपयोग किया गया कोड GitHub पर उपलब्ध है:
https://github.com/microsoft/SynapseML
Apple ने इस साल जनवरी में स्वचालित टेक्स्ट-टू-स्पीच तकनीक का उपयोग करके ऑडियोबुक बेचना शुरू किया। हालाँकि, इस प्रयास को साहित्यिक प्रतिष्ठान की ओर से संदेह का सामना करना पड़ा है, जो एप्पल के व्यावसायिक लक्ष्यों की आलोचना करते हैं, और आवाज अभिनेताओं की ओर से जो कंपनी की कृत्रिम बुद्धिमत्ता के लिए प्रशिक्षण प्रदान करते हैं। गुटेनबर्ग के दृष्टिकोण पर मिश्रित प्रतिक्रिया हो सकती है क्योंकि यह खुला स्रोत है और इसका कोई लाभ उद्देश्य नहीं है।
प्रोजेक्ट गुटेनबर्ग ने पाठ प्रारूप में मुफ्त साहित्य का एक भंडार बनाने में दशकों का समय बिताया है जो व्यापक रूप से मुफ्त में उपलब्ध है, लेकिन ऑडियोबुक इस सामग्री को और अधिक सुलभ बना सकते हैं। ऑडियोबुक उन पाठकों के लिए सहायक हैं जो गाड़ी चलाते हैं, एक साथ कई काम करते हैं, दृष्टिबाधित हैं, पढ़ना सीखते हैं या कोई नई भाषा सीखते हैं।
पारंपरिक तरीकों का उपयोग करके ऑडियोबुक तैयार करने में समय और पैसा खर्च करना शामिल है ताकि कोई पूरी किताब पढ़ सके। पढ़ने लायक प्रत्येक पुस्तक का ऑडियो संस्करण मैन्युअल रूप से रिकॉर्ड करना लागत प्रभावी नहीं है। टेक्स्ट-टू-स्पीच तकनीक प्रोजेक्ट गुटेनबर्ग के लिए बेहतर उपयुक्त थी। हालाँकि, शोधकर्ताओं को अपने मशीन लर्निंग टूल्स के साथ कई बाधाओं का सामना करना पड़ता है।
पहला और सबसे महत्वपूर्ण मुद्दा यह निर्धारित करना है कि सॉफ़्टवेयर कौन सी डिजिटल पुस्तकों को पार्स कर सकता है। प्रोजेक्ट गुटेनबर्ग विभिन्न प्रारूपों में सामग्री एकत्र करता है, और कई फाइलों में त्रुटियां या अपूर्ण स्कैन होते हैं। इसलिए शोधकर्ताओं ने HTML फ़ाइल प्रारूप में संग्रहीत पुस्तकों पर ध्यान केंद्रित किया और यह पता लगाने के लिए एक टूल (ऊपर चित्रित) बनाया कि कौन सी वस्तुएं समान प्रारूप प्रदर्शित करती हैं।
शोधकर्ताओं द्वारा संबोधित एक और समस्या यह सुनिश्चित करना थी कि सिस्टम को पता था कि कौन सा पाठ पढ़ना है या अनदेखा करना है। इसमें सामग्री तालिका, पृष्ठ संख्या, फ़ुटनोट, तालिकाएँ और अन्य बाहरी सामग्री जैसे घटक शामिल हैं।
इसके अतिरिक्त, परिणाम को प्राकृतिक मानव भाषण के काफी करीब होना चाहिए। शोधकर्ताओं ने आवाज के भावों पर ध्यान केंद्रित किया जो नॉनफिक्शन और कथन के लिए सबसे अच्छा काम करते हैं, लेकिन उपयोगकर्ता नाटकीय रीडिंग के साथ प्रयोग करने के लिए सॉफ्टवेयर में बदलाव भी कर सकते हैं।
शोधकर्ताओं ने एक प्रदर्शन आयोजित करने की योजना बनाई है जो उपयोगकर्ताओं को अपनी आवाज से ऑडियोबुक बनाने की सुविधा देगा। एल्गोरिदम को प्रशिक्षित करने के लिए कुछ वाक्यों को रिकॉर्ड करने के बाद, प्रत्येक प्रतिभागी सॉफ्टवेयर द्वारा पूरी किताब पढ़ने से पहले एक नमूना सुन सकता है। उन्हें ईमेल के माध्यम से ऑडियोबुक की एक प्रति भी प्राप्त होगी। उपयोगकर्ता प्रत्येक ऑडियोबुक को अनुकूलित करने के लिए संश्लेषित आवाज़ों में से चुन सकते हैं।
पहुँच:
अलीबाबा क्लाउड - 1888 युआन तक के यूनिवर्सल वाउचर तुरंत उपलब्ध हैं