विकिपीडिया विशेष रूप से AI मॉडल के प्रशिक्षण के लिए अनुकूलित डेटासेट प्रकाशित करके कृत्रिम बुद्धिमत्ता डेवलपर्स को प्लेटफ़ॉर्म की नकल करने से रोकने की कोशिश कर रहा है।विकिमीडिया फाउंडेशन ने बुधवार को घोषणा की कि उसने मशीन लर्निंग डेटा होस्ट करने के लिए Google के डेटा साइंस कम्युनिटी प्लेटफॉर्म के साथ साझेदारी की हैकागल ने "अंग्रेजी और फ्रेंच संरचित विकिपीडिया सामग्री" का बीटा डेटासेट जारी करने के लिए सहयोग किया।

विकिपीडिया का कहना है कि कागल द्वारा होस्ट किए गए डेटासेट "मशीन लर्निंग वर्कफ़्लो को ध्यान में रखकर डिज़ाइन किए गए हैं", जिससे एआई डेवलपर्स के लिए मॉडलिंग, फाइन-ट्यूनिंग, बेंचमार्किंग, संरेखण और विश्लेषण के लिए मशीन-पठनीय लेख डेटा तक पहुंच आसान हो जाती है। डेटासेट में सामग्री को 15 अप्रैल से सार्वजनिक रूप से लाइसेंस प्राप्त है और इसमें अध्ययन सार, संक्षिप्त विवरण, छवि लिंक, इन्फोबॉक्स डेटा और लेख अध्याय शामिल हैं, लेकिन इसमें संदर्भ या ऑडियो फ़ाइलों जैसे गैर-लिखित तत्व शामिल नहीं हैं।
विकिपीडिया का कहना है कि कागल उपयोगकर्ता "JSON प्रारूप में अच्छी तरह से संरचित विकिपीडिया सामग्री" का उपभोग कर सकते हैं, जो "कच्चे लेख पाठ को क्रॉल करने या पार्स करने" से अधिक आकर्षक होना चाहिए। विकिपीडिया के सर्वर वर्तमान में काफी दबाव में हैं क्योंकि स्वचालित AI बॉट प्लेटफ़ॉर्म की बैंडविड्थ का उपभोग करना जारी रखते हैं। विकिपीडिया के पास पहले से ही Google और इंटरनेट आर्काइव के साथ सामग्री-साझाकरण समझौते हैं, लेकिन कागल के साथ साझेदारी से डेटा को छोटी कंपनियों और स्वतंत्र डेटा वैज्ञानिकों के लिए अधिक सुलभ बनाना चाहिए।
"मशीन लर्निंग समुदाय के लिए एक उपकरण और परीक्षण मंच के रूप में, कागल विकिमीडिया फाउंडेशन डेटा के लिए होस्टिंग मंच बनने के लिए उत्साहित है," कागल में साझेदारी प्रमुख ब्रेंडा फ्लिन ने कहा। "कागल इस डेटा की पहुंच, प्रयोज्यता और उपयोगिता सुनिश्चित करने में भूमिका निभाने के लिए उत्साहित हैं।"