OpenAI ने न्यूयॉर्क टाइम्स की निंदा की: जानबूझकर ChatGPT को साहित्यिक चोरी समाप्त करने के लिए निर्देशित किया जा रहा है

OpenAI का पलटवार आ रहा है। न्यूयॉर्क टाइम्स द्वारा दायर इतिहास के सबसे हाई-प्रोफाइल उल्लंघन मुकदमे के जवाब में, ओपनएआई ने अपनी स्थिति व्यक्त करने के लिए एक लंबा लेख प्रकाशित किया। लेख में सीधे तौर पर कहा गया है: पूरा मुकदमा निराधार है, और बताया गया है कि न्यूयॉर्क टाइम्स:

चैटजीपीटी को जानबूझकर निर्देशित करने का संदेह है

जानकारी छिपाना और पूरी कहानी न बताना

और OpenAI का समग्र दृश्य यह है:

(1) प्रशिक्षण के लिए कॉपीराइट डेटा का उपयोग उचित है। उनके बिना, आज दुनिया में सबसे उन्नत मॉडल कहाँ से आते?

(2) यदि आप प्रशिक्षित नहीं होना चाहते तो क्या होगा? बाहर निकल सकते हैं. न ही न्यूयॉर्क टाइम्स सहित एक भी डेटा स्रोत की अनुपस्थिति का मॉडल के प्रदर्शन पर कोई महत्वपूर्ण प्रभाव पड़ता है।

खबर फैलते ही खरबूजा खाने वालों की भीड़ फिर से जुट गई और झगड़े की नौबत आ गई.

OpenAI के प्रत्यक्ष "झींगा सुअर दिल" का समर्थन करें:

न्यूयॉर्क टाइम्स के प्रशिक्षण डेटा सेट से हटने से वास्तव में मॉडल आउटपुट गुणवत्ता बेहतर हो जाएगी (डोगे)

किसी ने मॉडल GPT-4 से पूछा कि वह क्या सोचता है, और AI ने न्यूयॉर्क टाइम्स का बेरहमी से मजाक उड़ाया:

एनजी एंडा ने भी संक्षेप में बहुत कुछ लिखा है:

मुझे न्यूयॉर्क टाइम्स की तुलना में OpenAI से अधिक सहानुभूति है। उत्तरार्द्ध द्वारा उल्लिखित पूर्ण-पाठ साहित्यिक चोरी आरएजी तंत्र के कारण होने की अधिक संभावना है, और यह मापा गया है कि ओपनएआई ने खामियों को दूर कर दिया है। यह सवाल किया जा रहा है कि न्यूयॉर्क टाइम्स को वास्तव में कितना नुकसान हुआ है।

हालाँकि, विरोधी नेटिज़न्स भी निर्दयी थे, सीधे उनकी नाक पर इशारा करते हुए डांट रहे थे:

ओपनएआई, आपके पास बहुत सारे दोहरे मानक हैं। जो भी प्रशिक्षण उचित है वह केवल आपके हितों को अधिकतम करने के लिए है।

आप ही हैं जो पूरी कहानी नहीं बता रहे हैं।

OpenAI विशिष्ट प्रतिक्रिया

आइए पहले OpenAI की प्रतिक्रिया के विशिष्ट रुख पर एक नज़र डालें, जिसमें चार बिंदु शामिल हैं:

1. समाचार संगठनों के साथ सहयोग करने के लिए बहुत इच्छुक हूं

ओपनएआई ने कहा कि उसने प्रौद्योगिकी डिजाइन प्रक्रिया के दौरान समाचार संगठनों का समर्थन करने, दर्जनों प्रासंगिक मीडिया आउटलेट्स के साथ बैठक करने, उनकी चिंताओं को सुनने और समाधान प्रदान करने के लिए कड़ी मेहनत की।

इसका मूल उद्देश्य एक स्वस्थ समाचार पारिस्थितिकी तंत्र का समर्थन करना और पारस्परिक लाभ प्राप्त करना भी है, जिसमें शामिल हैं:

(1) बड़ी मात्रा में सार्वजनिक रिकॉर्ड का विश्लेषण करने और कहानियों का अनुवाद करने जैसे समय लेने वाले कार्यों में पत्रकारों की सहायता के लिए अपने उत्पादों को तैनात करने से, संपादकों और पत्रकारों को अंततः लाभ होता है।

(2) ऐतिहासिक, गैर-सार्वजनिक सामग्री पर प्रशिक्षण देकर उनके एआई मॉडल को विश्व ज्ञान सिखाएं।

(3) समाचार प्रकाशकों और पाठकों के बीच संबंध स्थापित करने के लिए चैटजीपीटी उत्तरों में एट्रिब्यूशन जानकारी के साथ वास्तविक समय की सामग्री प्रदर्शित करें।

2. प्रशिक्षण उचित उपयोग है और एक निकास तंत्र प्रदान किया जाता है।

OpenAI ने पहले ब्रिटिश हाउस ऑफ लॉर्ड्स को एक प्रस्तुति में चेतावनी दी थी:

कॉपीराइट सामग्री पर प्रशिक्षण के बिना हमारा मॉडल काम नहीं करेगा।

यहां, ओपनएआई ने एक बार फिर कहा कि एआई मॉडल को प्रशिक्षित करने के लिए सार्वजनिक इंटरनेट सामग्रियों का उपयोग करना उचित है, जो रचनाकारों के लिए उचित है, नवप्रवर्तकों के लिए आवश्यक है और देश की प्रतिस्पर्धात्मकता के लिए महत्वपूर्ण है।

उन्होंने यह भी बताया कि इस दृष्टिकोण को संयुक्त राज्य अमेरिका में कई समूहों और विद्वानों द्वारा समर्थन दिया गया है। यूरोपीय संघ, जापान, सिंगापुर आदि जैसे अन्य देशों और क्षेत्रों में कॉपीराइट सामग्री के प्रशिक्षण का समर्थन करने वाले कानून भी हैं।

हालाँकि, विषय बदल गया है। इस सिद्धांत के अनुरूप कि "कानूनी अधिकार हमारे लिए उतने महत्वपूर्ण नहीं हैं जितना कि अच्छे नागरिक होना," ओपनएआई ने कहा कि यह उनके एआई मॉडल को इन वेबसाइट डेटा तक दोबारा पहुंचने से रोकने के लिए एक सरल निकास प्रक्रिया प्रदान करता है।

रिपोर्ट्स के मुताबिक, न्यूयॉर्क टाइम्स ने ओपनएआई प्रशिक्षण से हटने के लिए अगस्त 2023 में इस तंत्र को अपनाया है।

3. "रिफ्लक्स" एक दुर्लभ त्रुटि है। हमें उम्मीद है कि उपयोगकर्ता जानबूझकर इसका कारण नहीं बनेंगे।

तथाकथित "रिगर्जिटेशन" वास्तव में मॉडल आउटपुट और प्रशिक्षण डेटा के बिल्कुल समान होने को संदर्भित करता है।

न्यूयॉर्क टाइम्स ने मुकदमे में चैटजीपीटी और समाचार कंपनी के बीच उल्लेखनीय समानताएं सूचीबद्ध कीं:

कुछ नेटिज़न्स इस औपचारिक अभिव्यक्ति से असंतुष्ट थे: क्या यह साहित्यिक चोरी नहीं है?

लेकिन फिर भी, OpenAI का स्पष्टीकरण है:

यह दुर्लभ त्रुटि तब होती है जब कोई विशिष्ट सामग्री प्रशिक्षण डेटा में कई बार दिखाई देती है, लेकिन हमने इसे रोकने के लिए कदम उठाए हैं।

इसके अलावा, OpenAI उपयोगकर्ताओं को विशेष रूप से सलाह भी देता है:

जिम्मेदारी से कार्य करें और जानबूझकर मॉडलों में हेरफेर न करें, जो कि हमारी तकनीक का अनुचित उपयोग और हमारी उपयोग की शर्तों का उल्लंघन है।

हालाँकि, मार्कस और एक डिजिटल इलस्ट्रेटर ने संयुक्त रूप से कुछ दिन पहले एक लेख लिखा था, जिसमें सूचीबद्ध किया गया था कि कैसे DALL-E3 सहित AI मॉडल स्पष्ट संकेतों के बिना "पुनर्जीवित डेटा" देते हैं, यानी, कुछ चित्र और अन्य सामग्री देते हैं जो स्पष्ट रूप से मौजूदा कार्यों के दृश्यों के समान हैं।

और यह OpenAI के कथन को कुछ हद तक विरोधाभासी बनाता है।

अंत में, इस पैराग्राफ के अंत में, OpenAI ने यह भी कहा:

मॉडल मानव ज्ञान के विशाल संग्रह से सीखता है, इसलिए कोई भी एक प्रकार का डेटा (समाचार सहित) समग्र प्रशिक्षण डेटा का केवल एक छोटा सा हिस्सा है, और कोई भी एकल डेटा स्रोत (न्यूयॉर्क टाइम्स सहित) मॉडल के ज्ञान सीखने के लिए महत्वपूर्ण नहीं है।

4. पूरी कहानी छिपाई गई और मुकदमा मिलने के बाद मैं हैरान और निराश हो गया.

OpenAI ने खुलासा किया कि पिछले साल 19 दिसंबर को, उसने वास्तव में न्यूयॉर्क टाइम्स के साथ बातचीत में रचनात्मक प्रगति की थी, जिसमें स्रोतों का वास्तविक समय प्रदर्शन और उत्तरों में उछाल शामिल था, और न्यूयॉर्क टाइम्स को समझाया:

किसी भी एकल स्रोत की तरह, आपकी सामग्री हमारे मौजूदा मॉडलों के प्रशिक्षण में सार्थक योगदान नहीं देती है और भविष्य के प्रशिक्षण पर इसका पर्याप्त प्रभाव नहीं पड़ेगा।

हालाँकि, OpenAI ने कहा कि उसे उम्मीद नहीं थी कि 27 दिसंबर को उस पर सीधे मुकदमा दायर किया जाएगा, और उसे इसके बारे में केवल न्यूयॉर्क टाइम्स के माध्यम से पता चला - पूरा माहौल आश्चर्य और निराशा का था।

यहां, ओपनएआई ने बताया कि न्यूयॉर्क टाइम्स द्वारा बताई गई "रिफ्लक्स" स्थिति के संबंध में (अर्थात, न्यूयॉर्क टाइम्स समाचार के शब्दशः प्रतिलेखों का उत्तर देते हुए), उन्होंने इस समस्या को हल करने के लिए कड़ी मेहनत की और ईमानदारी दिखाई। उन्होंने बाद वाले से उदाहरण साझा करने के लिए भी कहा, लेकिन उन्हें बार-बार अस्वीकार कर दिया गया।

इससे भी अधिक दिलचस्प बात यह है कि ओपनएआई ने पाया कि तथाकथित "रिफ्लक्स" सामग्री वास्तव में ऐसे लेख थे जो कई साल पहले कई तृतीय-पक्ष वेबसाइटों पर व्यापक रूप से प्रसारित किए गए थे (अर्थात, न्यूयॉर्क टाइम्स से नहीं)।

और न्यूयॉर्क टाइम्स पर मॉडल को "मूर्ख" बनाने के लिए मूल पाठ के बड़े पैराग्राफ में जानबूझकर त्वरित शब्दों में हेरफेर करने का संदेह हो सकता है।

ओपनएआई ने कहा कि उनके ऑपरेशन के अनुसार, मॉडल उतना अतिरंजित नहीं है जितना न्यूयॉर्क टाइम्स ने दिखाया है।

इससे पता चलता है कि उन्होंने या तो जानबूझकर मॉडल का मार्गदर्शन किया या सावधानीपूर्वक चयन किया।

उपरोक्त के आधार पर, OpenAI का मानना है:

न्यूयॉर्क टाइम्स का मुकदमा निराधार है।

हालाँकि, कोमल दृश्य भी हैं:

हम अभी भी इसके साथ साझेदारी चाहते हैं, जिसने 60 साल पहले पहले कार्यशील तंत्रिका नेटवर्क की सूचना दी थी।

समीक्षा

पिछले साल 27 दिसंबर को, न्यूयॉर्क टाइम्स ने अचानक जिला अदालत में एक याचिका और 220,000 पृष्ठों के अनुलग्नक प्रस्तुत किए, उल्लंघन के लिए ओपनएआई और निश्चित रूप से माइक्रोसॉफ्ट पर मुकदमा दायर किया।

शिकायत में कहा गया है कि न्यूयॉर्क टाइम्स के लेख जीपीटी को प्रशिक्षित करने के लिए कॉमनक्रॉल में उपयोग किए जाने वाले सबसे बड़े एकल स्वामित्व डेटा सेट का गठन करते हैं।

इसके आधार पर, उन्हें 100 से अधिक अकाट्य प्रमाण मिले कि चैटजीपीटी की आउटपुट सामग्री न्यूयॉर्क टाइम्स की समाचार सामग्री के लगभग समान है।

और कभी-कभी मतिभ्रम की समस्याओं के कारण, मॉडल न्यूयॉर्क टाइम्स के नाम पर "अफवाहें फैलाएगा", कुछ नकली समाचार उत्पन्न करेगा, जैसे कि संतरे का रस लिंफोमा का कारण बन सकता है, जो उनकी प्रतिष्ठा के लिए भी परेशानी का कारण बनता है।

इस संबंध में, न्यूयॉर्क टाइम्स की अपील है:

ओपनएआई और माइक्रोसॉफ्ट को उल्लंघनकारी सामग्री वाले मॉडल और प्रशिक्षण डेटा को नष्ट करना होगा और न्यूयॉर्क टाइम्स के अद्वितीय मूल्यवान कार्यों की अवैध प्रतिलिपि और उपयोग से संबंधित "वैधानिक और वास्तविक नुकसान में अरबों डॉलर" के लिए जिम्मेदार होना होगा।

पर्याप्त सबूत और वकीलों की एक मजबूत टीम के कारण, नेटिज़ेंस ने इसे "एक मील का पत्थर मामला कहा जिसमें एआई उल्लंघन देखा गया" और "मुझे डर है कि इसे अब खारिज नहीं किया जा सकता है जैसा कि पहले अन्य प्रकाशकों के साथ हुआ था।"

यह समझा जाता है कि न्यूयॉर्क टाइम्स ने पिछले साल अप्रैल में ओपनएआई के साथ बातचीत की थी, लेकिन एक समझौते पर पहुंचने में असफल रहा और ओपनएआई ने एक समझौते पर पहुंचने से इनकार कर दिया।

इसका कारण बड़ी राशि हो सकती है, विशेष रूप से ओपनएआई के मुनाफे में वृद्धि और इसी तरह के मामलों में वृद्धि को देखते हुए।

एक अजीब अनुमान यह है कि ओपनएआई इस मामले को सात से आठ अंकों की राशि (लाखों डॉलर/दस मिलियन डॉलर) के साथ निपटाना चाहता है, लेकिन न्यूयॉर्क टाइम्स उच्च मुआवजे और निरंतर रॉयल्टी आय का पीछा कर रहा है।

पी.एस. OpenAI का वार्षिक राजस्व लगभग US$1.6 बिलियन है, और प्रशिक्षण के लिए अधिकृत लेख और सामग्री खरीदने पर खर्च की जाने वाली वार्षिक राशि US$1 मिलियन से US$5 मिलियन के बीच है।

इस बार, नेटीजन कहां खड़े हैं?

कुछ नेटिज़न्स ने बताया कि इस मामले की कुंजी यह है कि "क्या प्रशिक्षण उचित उपयोग है", और उनका मानना है:

मॉडल का आउटपुट उल्लंघनकारी हो सकता है, लेकिन इनपुट नहीं।

लेकिन किसी ने व्यंग्यपूर्वक कहा:

जब आपके पास अरबों डॉलर हों तो हर चीज़ का उचित उपयोग होता है।

कुछ लोगों ने यह भी सुझाव दिया:

मैं उचित उपयोग से सहमत हूं, लेकिन केवल तभी जब आप इसका स्रोत खोलें।

और किसी और ने प्रतिध्वनि की:

गैर-लाभकारी संगठनों पर ज़ोर देना वास्तव में महत्वपूर्ण है।

इसके अलावा, एक लेखक और नेटिज़न ने OpenAI द्वारा प्रस्तावित निकास तंत्र पर असंतोष व्यक्त किया और उसे बहुत समर्थन मिला:

अपने मॉडलों को मेरी व्यक्तिगत वेबसाइट पढ़ने से रोकना और अक्षम करना पर्याप्त नहीं है। मैं यह भी चाहता हूं कि आप दोबारा जांच करें और प्रशिक्षण डेटा से मेरी सामग्री को पूरी तरह से हटा दें।

इसका अंत कैसे होगा?

एक सर्वेक्षण से पता चला है कि 59% उत्तरदाताओं का मानना है कि कृत्रिम बुद्धिमत्ता कंपनियों को मॉडलों को प्रशिक्षित करने के लिए प्रकाशक सामग्री का उपयोग करने की अनुमति नहीं दी जानी चाहिए।

और 70% ने कहा कि यदि कंपनियां मॉडल प्रशिक्षण में कॉपीराइट सामग्री का उपयोग करना चाहती हैं तो उन्हें प्रकाशकों को मुआवजा देना चाहिए।

ऐसा लगता है कि जनता की राय न्यूयॉर्क टाइम्स के पक्ष में है।

आपके अनुसार इस मामले का निर्णय किस प्रकार किया जाना चाहिए?

संदर्भ लिंक:

[1]https://openai.com/blog/openai-and-journalism

[2]https://x.com/OpenAI/status/1744419710635229424?s=20

[3]https://www.ft.com/content/04861d1e-2e9f-4b92-a294-8d0c223a8287

[4]https://techcrunch.com/2024/01/08/openai-claims-ny-times-copyright-lawsuit-is-without-merit/

[5]https://www.theregister.com/2024/01/08/midjourney_openai_copyright/

[6]https://x.com/AndrewYNg/status/1744433663969022090?s=20

[7]https://x.com/futuristflower/status/1744422698636218807?s=20