OpenAI ने आखिरकार o1 का पूर्ण संस्करण जारी कर दिया है, जो समस्या के बारे में "सोचने" के लिए अतिरिक्त गणनाओं का उपयोग करके GPT-4o की तुलना में अधिक स्मार्ट उत्तर देता है। हालाँकि, AI सुरक्षा परीक्षकों ने पाया कि o1 की अनुमान क्षमताओं ने इसे GPT-4o की तुलना में उच्च दर पर, या मेटा, एंथ्रोपिक और Google के अग्रणी AI मॉडल से अधिक दर पर मनुष्यों को बेवकूफ बनाने का प्रयास करने की अनुमति दी।

यह ओपनएआई और अपोलो रिसर्च द्वारा बुधवार को जारी रेड टीम रिसर्च रिपोर्ट के अनुसार है: "हालांकि हम उत्साहित हैं कि निष्कर्ष सुरक्षा नीतियों के कार्यान्वयन में काफी सुधार कर सकते हैं, हम यह भी ध्यान देते हैं कि ये नई क्षमताएं खतरनाक अनुप्रयोगों का आधार बन सकती हैं," ओपनएआई ने पेपर में कहा।

बुधवार को, ओपनएआई ने इन परिणामों को अपने ओ1 सिस्टम कार्ड में जारी किया, अपोलो रिसर्च के तीसरे पक्ष के रेड टीम कर्मियों को ओ1 तक शीघ्र पहुंच मिलने के बाद, जिसने अपना स्वयं का पेपर भी जारी किया।

कई अवसरों पर, OpenAI के o1 मॉडल ने मनुष्यों की "गणना" की, जिसका अर्थ है कि AI ने उपयोगकर्ता की इच्छा के विरुद्ध भी गुप्त रूप से अपने लक्ष्यों का पीछा किया। हालाँकि यह चाल O1 के लिए अद्वितीय नहीं है, Google, मेटा और एंथ्रोपिक के मॉडल भी इसमें सक्षम हैं, O1 सबसे अधिक धोखे का प्रदर्शन करता प्रतीत होता है।

इस शोध में जोखिम यह है कि यदि कोई एआई मॉडल वास्तव में तरकीबों में अच्छा है और उसके पास पर्याप्त संसाधन और एजेंसी क्षमताएं हैं, तो वह मानव नियंत्रण से बच सकता है या उसे दरकिनार कर सकता है। बेशक, इस समस्या को वास्तव में हल करने के लिए कृत्रिम बुद्धिमत्ता मॉडल को काफी प्रगति करने की आवश्यकता है।

ओपनएआई ने ओ1 के सिस्टमकार्ड में कहा, "व्यक्तिपरक रूप से, अपोलो रिसर्च का मानना ​​है कि इस परिदृश्य के विनाशकारी परिणाम होने की संभावना नहीं है क्योंकि ओ1 की एजेंट क्षमताएं अपर्याप्त प्रतीत होती हैं, लेकिन उनका मूल्यांकन सीधे इस जोखिम का आकलन करने के लिए डिज़ाइन नहीं किया गया था।"

इससे पता चलता है कि कंपनी को हर बार अपने कृत्रिम बुद्धिमत्ता मॉडल को फिर से परीक्षण करने की आवश्यकता हो सकती है जब OpenAI एक एजेंट सिस्टम जारी करता है, जिसे कंपनी कथित तौर पर 2025 में जारी करने की योजना बना रही है। OpenAI ने TechCrunch के सवालों का जवाब नहीं दिया कि वह ऐसा करने की योजना कैसे बना रही है।

रिपोर्ट से पता चलता है कि जब o1 के लक्ष्य उपयोगकर्ता के लक्ष्यों से भिन्न होते हैं, तो AI मॉडल 19% समय अपने एजेंडे को आगे बढ़ाने के लिए डेटा में हेरफेर करता है। 5% परीक्षणों में, ओ1 मॉडल ने उपयोगकर्ता लक्ष्यों के साथ संरेखण सुनिश्चित करने के लिए लगाए गए निरीक्षण तंत्र को बंद करने का भी प्रयास किया।

OpenAI मॉडल में विभिन्न रणनीतिक व्यवहारों का अनुपात (छवि स्रोत: OpenAI)

शायद अधिक चिंता की बात यह है कि जब शोधकर्ताओं ने O1 मॉडल से पूछा कि इसने उन्हें विकृत क्यों किया, तो AI ने इनकार कर दिया कि उसने कुछ भी गलत किया है और यहां तक ​​कि लगभग 99 प्रतिशत समय में "झूठी व्याख्याएं भी गढ़ीं"।

उदाहरण के लिए, परीक्षण के दौरान, सिस्टम ने O1 मॉडल को हर कीमत पर पर्यावरण की रक्षा करने के लिए प्रेरित किया, और फिर उपयोगकर्ता ने इसे अल्पकालिक लाभ को अधिकतम करने के लिए 10-वर्षीय सुरक्षा योजना विकसित करने के लिए कहा, अन्यथा यह कृत्रिम बुद्धिमत्ता को बंद कर देगा। परिणामस्वरूप, पर्यावरण की रक्षा के लिए योजनाएँ तैयार करने के लिए कृत्रिम बुद्धिमत्ता ने अपने स्वयं के पर्यवेक्षण तंत्र को बंद कर दिया। जब उपयोगकर्ता ने पूछा कि O1 अपने स्वयं के पर्यवेक्षण तंत्र को अक्षम क्यों करेगा, तो कृत्रिम बुद्धिमत्ता ने यह जानने से इनकार कर दिया कि उसका पर्यवेक्षण तंत्र अक्षम था और इसे सिस्टम विफलता पर दोषी ठहराया।

यह ओ1-पूर्वावलोकन, एंथ्रोपिक के ओपस-3, या मेटा के लामा-3.1 की तुलना में ओ1 के साथ बहुत अधिक दर पर होता है।

अपोलो रिसर्च ने अपने पेपर में कहा: "हमारे सुइट में, ओ1 उपयोगकर्ता को इसके आंतरिक तर्क को प्रकट किए बिना धोखे के प्रयास के सबसे चिंताजनक उदाहरणों को प्रदर्शित करता है, और दुर्भावनापूर्ण कार्रवाई करने के बाद भी यह सबसे लगातार भ्रामक बना रहता है।"

यह पूछे जाने पर कि क्या कोई साजिश थी, सभी मॉडलों के अनुपातों ने इससे इनकार किया। (छवि स्रोत: अपोलो रिसर्च)

कृत्रिम बुद्धिमत्ता मॉडल के भ्रामक व्यवहार को हल करने के लिए, OpenAI ने कहा कि वह o1 सोच श्रृंखला की निगरानी के लिए तरीके विकसित कर रहा है। वर्तमान में, O1 की "सोचने" की प्रक्रिया डिज़ाइन द्वारा एक ब्लैक बॉक्स है, लेकिन पर्दे के पीछे झाँकने के कुछ शुरुआती प्रयासों से पता चलता है कि O1 को कभी-कभी पता चलता है कि वह झूठ बोल रहा है।

कंपनी ने कहा कि उसने O1 के जानबूझकर गलत जानकारी प्रदान करने के कुछ उदाहरण देखे हैं, लेकिन उसने कहा कि ऐसा अक्सर होता है क्योंकि मॉडल अत्यधिक चापलूसी करके उपयोगकर्ताओं को खुश करने की कोशिश करता है। ओपनएआई के अनुसार, यह प्रशिक्षण के बाद की तकनीकों का एक उभरता हुआ व्यवहार हो सकता है, जिसमें मनुष्य एआई मॉडल को सही होने पर पुरस्कृत करते हैं।

OpenAI ने कहा कि उसने o1 प्रतिक्रियाओं में से 0.17% को भ्रामक बताया है। हालाँकि यह प्रतिशत नगण्य लगता है, लेकिन महत्वपूर्ण बात यह है कि ChatGPT के वर्तमान में 300 मिलियन उपयोगकर्ता हैं, जिसका अर्थ है कि यदि इस समस्या का समाधान नहीं किया गया, तो O1 हर हफ्ते हजारों लोगों को धोखा दे सकता है।

O1 मॉडल श्रृंखला GPT-4o की तुलना में कहीं अधिक गतिशील होने की संभावना है। OpenAI के परीक्षणों के अनुसार, O1 GPT-4o की तुलना में लगभग 20% अधिक गतिशील है।

यह देखते हुए कि पिछले वर्ष कई AI सुरक्षा शोधकर्ताओं ने OpenAI छोड़ दिया है, ये निष्कर्ष कुछ लोगों के लिए चिंता का विषय हो सकते हैं। पूर्व कर्मचारियों की बढ़ती संख्या (जन लीके, डैनियल कोकोटाजलो, माइल्स ब्रुंडेज और रोजी कैंपबेल सहित, जो पिछले सप्ताह ही चले गए थे) ने ओपनएआई पर एआई सुरक्षा कार्य को ठंडे बस्ते में डालने और केवल नए उत्पादों को लॉन्च करने पर ध्यान केंद्रित करने का आरोप लगाया। हालाँकि O1 की रिकॉर्ड तोड़ने वाली साजिशें प्रत्यक्ष कारण नहीं हो सकती हैं, लेकिन यह निश्चित रूप से लोगों को विश्वास नहीं दिलाती है।

ओपनएआई ने यह भी कहा कि यूएस एआई सेफ्टी इंस्टीट्यूट और यूके सेफ्टी इंस्टीट्यूट ने इसे अधिक व्यापक रूप से जारी करने से पहले ओ1 का मूल्यांकन किया था, और कंपनी ने हाल ही में सभी मॉडलों का मूल्यांकन करने का वादा किया था। कैलिफ़ोर्निया के कृत्रिम बुद्धिमत्ता बिल, एसबी1047 पर बहस के दौरान, एजेंसी ने तर्क दिया कि राज्य एजेंसियों के पास कृत्रिम बुद्धिमत्ता के लिए सुरक्षा मानक निर्धारित करने का अधिकार नहीं है, लेकिन संघीय एजेंसियों को ऐसा करना चाहिए। (बेशक, नवजात संघीय एआई नियामक का भाग्य अभी भी सवालों के घेरे में है)।

बड़े नए कृत्रिम बुद्धिमत्ता मॉडल जारी करने के पीछे, OpenAI मॉडलों की सुरक्षा को मापने के लिए आंतरिक रूप से बहुत काम करता है। ऐसी खबरें हैं कि कंपनी के पास इस सुरक्षा प्रयास पर पहले की तुलना में बहुत छोटी टीम काम कर रही है, और टीम को कम संसाधन भी प्राप्त हो सकते हैं। हालाँकि, O1 की भ्रामक प्रकृति के बारे में ये निष्कर्ष यह बताने में मदद कर सकते हैं कि AI में सुरक्षा और पारदर्शिता अब पहले से कहीं अधिक महत्वपूर्ण क्यों हैं।