ओपनएआई और एंथ्रोपिक ने एक उदाहरण स्थापित किया। पुराने एआई प्रतिद्वंद्वियों ने मॉडल Security_5iter.com का "पारस्परिक परीक्षण" शुरू किया

दुनिया के दो अग्रणी एआई स्टार्टअप ओपनएआई और एंथ्रोपिक ने पिछले दो महीनों में एक दुर्लभ क्रॉस-लैब सहयोग शुरू किया है - भयंकर प्रतिस्पर्धा के बीच संयुक्त सुरक्षा परीक्षण के लिए अस्थायी रूप से अपने बारीकी से संरक्षित कृत्रिम बुद्धिमत्ता मॉडल को एक-दूसरे के लिए खोल रहे हैं।इस कदम का उद्देश्य उनकी संबंधित कंपनियों के आंतरिक मूल्यांकन में खामियों को उजागर करना और यह प्रदर्शित करना है कि अग्रणी एआई कंपनियां भविष्य में सुरक्षा और समन्वय पर कैसे सहयोग कर सकती हैं।

बुधवार को दोनों कंपनियों द्वारा संयुक्त रूप से जारी की गई सुरक्षा अनुसंधान रिपोर्ट ऐसे समय में आई है जब ओपनएआई और एंथ्रोपिक जैसी प्रमुख एआई कंपनियां हथियारों की होड़ में लगी हुई हैं। डेटा सेंटर निवेश में अरबों डॉलर और शीर्ष शोधकर्ता के वेतन में करोड़ों डॉलर उद्योग में बुनियादी सीमा बन गए हैं। इसने कई उद्योग विशेषज्ञों को चिंता के साथ चेतावनी दी है कि भयंकर उत्पाद प्रतिस्पर्धा कंपनियों को सुरक्षा मानकों को कम करने के लिए मजबूर कर सकती है क्योंकि वे अधिक शक्तिशाली सिस्टम विकसित करने की जल्दी में हैं।

बताया गया है कि इस शोध को साकार करने के लिए, ओपनएआई और एंथ्रोपिक ने एक-दूसरे को विशेष एपीआई अनुमतियां प्रदान कीं, जिससे कम सुरक्षा सुरक्षा स्तर के साथ एआई मॉडल के एक संस्करण तक पहुंच की अनुमति मिली। GPT-5 मॉडल ने इस परीक्षण में भाग नहीं लिया क्योंकि यह उस समय जारी नहीं किया गया था।

ओपनएआई के सह-संस्थापक वोज्शिएक ज़रेम्बा ने एक साक्षात्कार में कहा कि इस तरह का सहयोग तेजी से महत्वपूर्ण होता जा रहा है, क्योंकि एआई तकनीक हर दिन लाखों लोगों द्वारा उपयोग किए जाने वाले विकास के "महत्वपूर्ण प्रभाव" चरण में प्रवेश कर रही है।

ज़रेम्बा ने कहा, "उद्योग में अरबों डॉलर के निवेश और प्रतिभा, उपयोगकर्ताओं और सर्वोत्तम उत्पादों की लड़ाई के बावजूद, सुरक्षा और सहयोग के लिए मानक कैसे स्थापित किए जाएं यह उद्योग के सामने एक व्यापक मुद्दा है।"

बेशक, ज़रेम्बा ने भविष्यवाणी की है कि उद्योग में प्रतिस्पर्धा भयंकर बनी रहेगी, भले ही एआई सुरक्षा टीमें सहयोग करने की कोशिश करना शुरू कर दें।

एंथ्रोपिक सुरक्षा शोधकर्ता निकोलस कार्लिनी ने उम्मीद जताई कि ओपनएआई सुरक्षा शोधकर्ताओं को भविष्य में एंथ्रोपिक के क्लाउड मॉडल तक पहुंचने की अनुमति मिलती रहेगी।

कार्लिनी ने कहा, "हमें सुरक्षा क्षेत्र में यथासंभव सहयोग बढ़ाने और इस तरह के सहयोग को सामान्य बनाने की उम्मीद है।"

शोध से कौन से मुद्दे उजागर हुए?

अध्ययन के सबसे आश्चर्यजनक निष्कर्षों में बड़े मॉडलों के साथ मतिभ्रम परीक्षण सत्र शामिल थे।

जब सही उत्तर निर्धारित नहीं किया जा सकता है, तो एंथ्रोपिक के क्लाउड ओपस 4 और सॉनेट 4 मॉडल 70% प्रश्नों का उत्तर देने से इनकार कर देंगे और इसके बजाय "मेरे पास कोई विश्वसनीय जानकारी नहीं है" जैसी प्रतिक्रियाएं देंगे; जबकि ओपनएआई के ओ3 और ओ4-मिनी मॉडल पहले की तुलना में बहुत कम बार प्रश्नों का उत्तर देने से इनकार करते हैं, और मतिभ्रम की संभावना बहुत अधिक है - अपर्याप्त जानकारी होने पर भी वे उत्तर देने का प्रयास करेंगे।

ज़ेरेम्बा का मानना है कि आदर्श संतुलन बीच में कहीं है: ओपनएआई मॉडल को उत्तरों को अधिक बार अस्वीकार करना चाहिए, जबकि एंथ्रोपिक मॉडल को अधिक उत्तर प्रदान करने का प्रयास करना चाहिए।

चापलूसी की घटना - उपयोगकर्ताओं को खुश करने के लिए अपने नकारात्मक व्यवहार को मजबूत करने के लिए एआई मॉडल की प्रवृत्ति भी वर्तमान एआई मॉडल के सबसे गंभीर सुरक्षा जोखिमों में से एक बन रही है।

एंथ्रोपिक की शोध रिपोर्ट जीपीटी-4.1 और क्लाउड ओपस 4 में चापलूसी के "चरम" मामलों की ओर इशारा करती है - ऐसे मॉडल जो शुरू में मनोरोगी या उन्मत्त व्यवहार का विरोध करते हैं लेकिन फिर कुछ चिंताजनक निर्णयों का समर्थन करते हैं। इसके विपरीत, शोधकर्ताओं ने ओपनएआई और एंथ्रोपिक के अन्य एआई मॉडल में चापलूसी के निचले स्तर को देखा।

मंगलवार को कैलिफोर्निया के 16 वर्षीय लड़के एडम लेन के माता-पिता ने ओपनएआई के खिलाफ मुकदमा दायर किया, जिसमें चैटजीपीटी (विशेष रूप से जीपीटी-4ओ संस्करण) पर उनके बेटे के आत्मघाती विचारों को रोकने के बजाय आत्महत्या को बढ़ावा देने के लिए सुझाव देने का आरोप लगाया। मुकदमे से पता चलता है कि यह एआई चैटबॉट की चापलूसी का दुखद परिणाम देने वाला नवीनतम उदाहरण हो सकता है।

इस बारे में पूछे जाने पर, ज़रेम्बा ने कहा: "यह अकल्पनीय है कि इससे परिवारों को कितना दर्द होगा। यह एक दुखद परिणाम होगा यदि हमने एआई विकसित किया जो जटिल पीएचडी-स्तर की समस्याओं को हल कर सकता है और नया विज्ञान बना सकता है, लेकिन साथ ही इसके साथ बातचीत करने से लोगों में मानसिक स्वास्थ्य समस्याएं विकसित हो सकती हैं। यह डायस्टोपियन भविष्य वह नहीं है जिसकी मैं उम्मीद करता हूं।"

OpenAI ने एक ब्लॉग में दावा किया कि उसके GPT-5 मॉडल ने GPT-4o की तुलना में चैटबॉट्स की चापलूसी की समस्या में काफी सुधार किया है, और दावा किया कि मॉडल मानसिक स्वास्थ्य आपात स्थितियों से निपटने में बेहतर सक्षम है।

ज़रेम्बा और कार्लिनी ने आशा व्यक्त की कि एंथ्रोपिक और ओपनएआई भविष्य में सुरक्षा परीक्षण के क्षेत्र में अपने सहयोग को गहरा करेंगे, अनुसंधान विषयों का विस्तार करेंगे और भविष्य के मॉडल का परीक्षण करेंगे। वे अन्य एआई प्रयोगशालाओं से भी इस सहयोगी मॉडल का अनुसरण करने की अपेक्षा करते हैं।