WIRED द्वारा जारी खबर के मुताबिक, संयुक्त राज्य अमेरिका में कई वेबसाइटों ने इंटरनेट आर्काइव की वेबैक मशीन के स्नैपशॉट फ़ंक्शन को ब्लॉक करना शुरू कर दिया है, यानी वेबैक मशीन को अब इन समाचार वेबसाइटों के पृष्ठों को कैप्चर करने और उन्हें संग्रहीत करने की अनुमति नहीं है। इसका कारण यह है कि एआई क्रॉलर डेटा कैप्चर करते हैं और मॉडल को प्रशिक्षित करने के लिए इसका उपयोग करते हैं।

मौजूदा आर्टिफिशियल इंटेलिजेंस बूम के कारण बड़ी संख्या में वेबसाइट ट्रैफ़िक में काफी गिरावट आई है, और एआई कंपनियां प्रतिबंधों को दरकिनार करने और वेबसाइट सामग्री को अवैध रूप से क्रॉल करने के तरीके ढूंढ रही हैं, और अंततः एआई वार्तालाप रोबोटों के लिए या बाद के कृत्रिम इंटेलिजेंस मॉडल के प्रशिक्षण के लिए कैप्चर किए गए डेटा का उपयोग करती हैं।

वेबसाइटों के लिए, इस व्यवहार में बिना अनुमति के सामग्री को क्रॉल करना और उसका उपयोग करना शामिल है, और इससे वेबसाइट ट्रैफ़िक में गिरावट आएगी। इसलिए, कई वेबसाइटों ने कृत्रिम बुद्धिमत्ता खोज क्रॉलरों को robots.txt में वेबसाइट डेटा क्रॉल करने से स्पष्ट रूप से प्रतिबंधित कर दिया है।

इंटरनेट आर्काइव और उसके उपयोगकर्ता दोनों गलती से मारे गए:

अपने वैध अधिकारों और हितों की रक्षा के लिए, यूएसए टुडे, न्यूयॉर्क टाइम्स आदि सहित कई प्रसिद्ध समाचार मीडिया ने इंटरनेट आर्काइव की वेबसाइट टाइम मशीन को ब्लॉक कर दिया है। ये समाचार वेबसाइटें ia_archiverbot क्रॉलर को बाहर कर देती हैं, जो कि इंटरनेट आर्काइव द्वारा उपयोग किया जाने वाला क्रॉलर है।

समाचार मीडिया के अलावा, रेडिट जैसे ऑनलाइन फ़ोरम भी इंटरनेट आर्काइव को सामग्री क्रॉल करने से रोकते हैं। Reddit ने Google और OpenAI के साथ लाइसेंसिंग समझौतों पर हस्ताक्षर किए हैं ताकि इन कंपनियों को डेटा क्रॉल करने और कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करने के लिए इसका उपयोग करने की अनुमति मिल सके। कम से कम रेडिट के लिए, यदि इंटरनेट आर्काइव को डेटा क्रॉल करने की अनुमति दी जाती है, और एआई कंपनियां इंटरनेट आर्काइव के डेटा को क्रॉल करती हैं, तो यह डेटा बेचना जारी रखने में सक्षम नहीं हो सकता है।

समस्या यह है कि बहुत सारी सामग्री स्थायी रूप से मौजूद नहीं है। वेबसाइट टाइम मशीन का महत्व यह है कि आप वेब पेज सामग्री में परिवर्तन देख सकते हैं और वेब पेज हटाए जाने पर स्नैपशॉट के माध्यम से सामग्री ब्राउज़ करना जारी रख सकते हैं। यह कई उपयोगकर्ताओं के लिए बहुत महत्वपूर्ण है.

इसलिए, एआई सनक के तहत, समाचार मीडिया इंटरनेट आर्काइव को डेटा क्रॉल करने से रोक रहा है, यह वास्तव में इंटरनेट आर्काइव और उपयोगकर्ताओं की हत्या है: एआई कंपनियों को ब्लॉक करने के लिए और फिर उन उपयोगकर्ताओं को ब्लॉक करने के लिए जो सामान्य रूप से संबंधित कार्यों का उपयोग करते हैं।

यूएसए टुडे ने कहा कि यह इंटरनेट आर्काइव पर निर्देशित नहीं था:

यूएसए टुडे के एक प्रवक्ता ने कहा कि इंटरनेट आर्काइव द्वारा क्रॉल की गई सामग्री को ब्लॉक करना विशेष रूप से इंटरनेट आर्काइव को लक्षित नहीं कर रहा है। सभी वेब क्रॉलर्स को व्यापक रूप से ब्लॉक करना कंपनी की सामान्य योजना है।

गार्जियन के वाणिज्यिक मामलों और लाइसेंसिंग के निदेशक ने कहा कि कंपनी संरक्षण उद्देश्यों के लिए सामग्री को क्रॉल करने के लिए कृत्रिम बुद्धिमत्ता कंपनियों के संभावित दुरुपयोग पर चर्चा करने के लिए इंटरनेट आर्काइव के साथ संचार कर रही है (लेकिन अभी तक कोई स्पष्ट परिणाम नहीं आया है)।

इस स्थिति को देखते हुए, भविष्य में अधिक से अधिक मीडिया अपनी सामग्री को इंटरनेट आर्काइव के माध्यम से एआई कंपनियों द्वारा क्रॉल किए जाने से रोकने के लिए इंटरनेट आर्काइव को ब्लॉक कर सकते हैं। अंतिम विश्लेषण में, मूल कारण अभी भी ये एआई कंपनियां हैं।

इन AI कंपनियों के लिए बिना प्राधिकरण के सामग्री को क्रॉल करना और उच्च आवृत्तियों पर सामग्री को क्रॉल करना असामान्य नहीं है। अंततः, यह खुले इंटरनेट के परिदृश्य को बदल सकता है, जिससे अधिक वेबसाइटें सार्वजनिक पहुंच से पंजीकृत लॉगिन पहुंच या यहां तक ​​कि भुगतान पहुंच में स्थानांतरित हो सकेंगी।