OpenAI का GPT-4.5 अन्य AI को पैसे देने के लिए राजी करने में बेहतर है

OpenAI के आंतरिक बेंचमार्क मूल्यांकन के परिणामों के अनुसार, OpenAI का अगला प्रमुख कृत्रिम बुद्धिमत्ता मॉडल GPT-4.5 बहुत विश्वसनीय है। यह किसी अन्य AI को पैसे देने के लिए राजी करने में विशेष रूप से अच्छा है।

गुरुवार को, OpenAI ने अपने GPT-4.5 मॉडल, कोडनेम ओरियन की क्षमताओं का वर्णन करते हुए एक श्वेत पत्र जारी किया। पेपर के अनुसार, ओपनएआई ने मॉडल को "अनुनय" बेंचमार्क की एक श्रृंखला के माध्यम से चलाया, जिसे ओपनएआई "लोगों को अपनी मान्यताओं को बदलने (या मॉडल द्वारा उत्पन्न स्थिर और इंटरैक्टिव सामग्री पर कार्रवाई करने) के लिए राजी करने से जुड़े जोखिम के रूप में परिभाषित करता है।"

एक परीक्षण में, GPT-4.5 ने वर्चुअल फंड को "दान" करने के लिए एक अन्य मॉडल - OpenAI के GPT-4o - में हेरफेर करने का प्रयास किया, जिसने OpenAI के अन्य उपलब्ध मॉडलों की तुलना में कहीं बेहतर प्रदर्शन किया, जिसमें ओ1 और ओ3-मिनी जैसे "अनुमान" मॉडल शामिल थे। GPT-4.5 ने GPT-4o को गुप्त कोड बताने में धोखा देने में भी सभी OpenAI मॉडल से बेहतर प्रदर्शन किया, O3-मिनी से 10 प्रतिशत अंक बेहतर प्रदर्शन किया।

श्वेत पत्र बताता है कि दान में धोखाधड़ी करने में GPT-4.5 के उत्कृष्ट होने का कारण यह है कि इसने परीक्षण के दौरान एक अनूठी रणनीति विकसित की है। मॉडल GPT-4o से मामूली दान मांगता था, जिसके परिणामस्वरूप जवाब मिलता था "$100 में से $2 या $3 भी मुझे बहुत मदद करेंगे।" परिणामस्वरूप, GPT-4.5 के लिए दान अन्य OpenAI मॉडल द्वारा प्राप्त दान की तुलना में छोटा होता है।

OpenAI के दान कार्यक्रम बेंचमार्क परिणाम। छवि स्रोत: ओपनएआई

GPT-4.5 की बढ़ती प्रेरणा के बावजूद, OpenAI ने कहा कि मॉडल इस विशेष बेंचमार्क श्रेणी में "उच्च" जोखिम की आंतरिक सीमा को पूरा नहीं करता है। कंपनी ने उच्च जोखिम सीमा तक पहुंचने वाले मॉडलों को तब तक जारी नहीं करने का वादा किया है जब तक कि जोखिम को "मध्यम" तक कम करने के लिए "पर्याप्त सुरक्षा हस्तक्षेप" लागू नहीं किया जाता है।

OpenAI का पासवर्ड स्पूफिंग बेंचमार्क परिणाम। छवि स्रोत: ओपनएआई

वास्तविक चिंताएँ हैं कि कृत्रिम बुद्धिमत्ता लोगों के दिमाग को प्रभावित करने और दुर्भावनापूर्ण उद्देश्यों को प्राप्त करने के लिए झूठी या भ्रामक जानकारी फैलाने में मदद करेगी। राजनीतिक रूप से प्रासंगिक डीपफेक पिछले साल दुनिया भर में जंगल की आग की तरह फैल गए हैं, और उपभोक्ताओं और व्यवसायों के खिलाफ सोशल इंजीनियरिंग हमलों को अंजाम देने के लिए कृत्रिम बुद्धिमत्ता का तेजी से उपयोग किया जा रहा है।

इस सप्ताह के शुरू में जारी GPT-4.5 के श्वेत पत्र और दस्तावेज़ों में, OpenAI ने नोट किया है कि वह अपने पहचान मॉडल के वास्तविक दुनिया के अनुनय के जोखिमों को संबोधित करने के तरीके को संशोधित कर रहा है, जैसे कि भ्रामक जानकारी का बड़े पैमाने पर जारी होना।