विकिपीडिया बॉट हार्वेस्टिंग टूल्स_5iter.com से बचाव के लिए एआई डेवलपर्स को अपना डेटा प्रदान करता है

विकिपीडिया विशेष रूप से AI मॉडल के प्रशिक्षण के लिए अनुकूलित डेटासेट प्रकाशित करके कृत्रिम बुद्धिमत्ता डेवलपर्स को प्लेटफ़ॉर्म की नकल करने से रोकने की कोशिश कर रहा है।विकिमीडिया फाउंडेशन ने बुधवार को घोषणा की कि उसने मशीन लर्निंग डेटा होस्ट करने के लिए Google के डेटा साइंस कम्युनिटी प्लेटफॉर्म के साथ साझेदारी की हैकागल ने "अंग्रेजी और फ्रेंच संरचित विकिपीडिया सामग्री" का बीटा डेटासेट जारी करने के लिए सहयोग किया।

Kaggle_SS_1920x1080_v3.width-1000.format-webp.webp

विकिपीडिया का कहना है कि कागल द्वारा होस्ट किए गए डेटासेट "मशीन लर्निंग वर्कफ़्लो को ध्यान में रखकर डिज़ाइन किए गए हैं", जिससे एआई डेवलपर्स के लिए मॉडलिंग, फाइन-ट्यूनिंग, बेंचमार्किंग, संरेखण और विश्लेषण के लिए मशीन-पठनीय लेख डेटा तक पहुंच आसान हो जाती है। डेटासेट में सामग्री को 15 अप्रैल से सार्वजनिक रूप से लाइसेंस प्राप्त है और इसमें अध्ययन सार, संक्षिप्त विवरण, छवि लिंक, इन्फोबॉक्स डेटा और लेख अध्याय शामिल हैं, लेकिन इसमें संदर्भ या ऑडियो फ़ाइलों जैसे गैर-लिखित तत्व शामिल नहीं हैं।

विकिपीडिया का कहना है कि कागल उपयोगकर्ता "JSON प्रारूप में अच्छी तरह से संरचित विकिपीडिया सामग्री" का उपभोग कर सकते हैं, जो "कच्चे लेख पाठ को क्रॉल करने या पार्स करने" से अधिक आकर्षक होना चाहिए। विकिपीडिया के सर्वर वर्तमान में काफी दबाव में हैं क्योंकि स्वचालित AI बॉट प्लेटफ़ॉर्म की बैंडविड्थ का उपभोग करना जारी रखते हैं। विकिपीडिया के पास पहले से ही Google और इंटरनेट आर्काइव के साथ सामग्री-साझाकरण समझौते हैं, लेकिन कागल के साथ साझेदारी से डेटा को छोटी कंपनियों और स्वतंत्र डेटा वैज्ञानिकों के लिए अधिक सुलभ बनाना चाहिए।

"मशीन लर्निंग समुदाय के लिए एक उपकरण और परीक्षण मंच के रूप में, कागल विकिमीडिया फाउंडेशन डेटा के लिए होस्टिंग मंच बनने के लिए उत्साहित है," कागल में साझेदारी प्रमुख ब्रेंडा फ्लिन ने कहा। "कागल इस डेटा की पहुंच, प्रयोज्यता और उपयोगिता सुनिश्चित करने में भूमिका निभाने के लिए उत्साहित हैं।"