प्रसिद्ध इंटरनेट फोरम Reddit ने हाल ही में खुलासा किया कि कंपनी ने पाया कि एक कृत्रिम बुद्धिमत्ता कंपनी ने इंटरनेट आर्काइव की वेबसाइट वेबैक मशीन के माध्यम से Reddit से डेटा स्क्रैप किया, जिसने Reddit के उपयोग की शर्तों का उल्लंघन किया।

Reddit ने पहले अधिकांश खोज इंजन क्रॉलर और कृत्रिम बुद्धिमत्ता क्रॉलर को डेटा क्रॉल करने से रोक दिया है। यदि आप कृत्रिम बुद्धिमत्ता मॉडल प्रशिक्षण के लिए डेटा क्रॉल करना चाहते हैं, तो आपको क्रॉल करने से पहले Reddit के साथ एक वाणिज्यिक लाइसेंस पर हस्ताक्षर करना होगा और शुल्क का भुगतान करना होगा।
उदाहरण के लिए, Google डेटा एक्सेस के लिए Reddit फोरम को प्रति वर्ष $60 मिलियन तक का भुगतान करता है। Google मॉडल प्रशिक्षण के लिए बड़े पैमाने पर Reddit पोस्ट और अन्य डेटा को क्रॉल कर सकता है। यह अभी भी Google के लिए एक सार्थक सौदा है।
जबकि इंटरनेट आर्काइव ने पोस्टों को अनुक्रमित करने और उन्हें साइट की टाइम मशीन में स्नैपशॉट करने के लिए रेडिट के साथ लंबे समय से काम किया है ताकि उन्हें भविष्य में देखा जा सके, कृत्रिम बुद्धिमत्ता कंपनियां जो शुल्क का भुगतान नहीं करना चाहती हैं, उन्होंने रेडिट को क्रॉल करने के लिए एक माध्यम के रूप में इंटरनेट आर्काइव का उपयोग करते हुए अपने क्रॉलर को इंटरनेट आर्काइव में बदलना शुरू कर दिया।
इस स्थिति का पता चलने के बाद, Reddit ने तुरंत इंटरनेट आर्काइव द्वारा अधिकांश पेजों की क्रॉलिंग और इंडेक्सिंग को ब्लॉक करना शुरू करने का निर्णय लिया। वेबसाइट टाइम मशीन फ़ंक्शन अब पोस्ट विवरण पृष्ठों, टिप्पणियों और व्यक्तिगत जानकारी को क्रॉल नहीं कर सकता है। इसके विपरीत, वेबसाइट टाइम मशीन केवल Reddit होमपेज या लोकप्रिय पोस्ट नेविगेशन को सीमित रूप से क्रॉल कर सकती है, यानी यह केवल शीर्षक जैसी सामग्री को क्रॉल कर सकती है।
रेडिट के सीईओ ने कहा कि वह आज से इंटरनेट आर्काइव के डेटा स्क्रैपिंग को रोक देंगे और प्रतिबंधों के प्रभावी होने से पहले उन्हें सूचित करने के लिए उन्होंने इंटरनेट आर्काइव से पहले ही संपर्क कर लिया था। इंटरनेट आर्काइव ने कहा कि वह वर्तमान में इस मामले के बारे में रेडिट के साथ सक्रिय रूप से संवाद कर रहा है।
रेडिट ने पहले क्लाउड डेवलपर एंथ्रोपिक पर भी मुकदमा दायर किया था। रेडिट ने एंथ्रोपिक पर बिना अनुमति के सामग्री क्रॉल करने का आरोप लगाया। भले ही Reddit ने कहा हो कि उसने अपने क्रॉलर को डेटा क्रॉल करने से रोक दिया है, Anthropic सामग्री को क्रॉल करना जारी रखेगा और Reddit के उपयोग की शर्तों का उल्लंघन करेगा।