जब अन्य एआई निर्माता मॉडल जारी करेंगे, तो वे निश्चित रूप से आपको बताएंगे कि "इस बार हमारा उत्पाद कितना शानदार और शक्तिशाली है।" लेकिन एंथ्रोपिक अलग है। उन्होंने कहा, "हमारे पास कुछ मजबूत है, लेकिन हम इसे अभी तक आपको नहीं दे सकते।" इसलिए 17 अप्रैल, 2026 को एंथ्रोपिक ने क्लाउड ओपस 4.7 जारी किया। इस रिलीज में ज्यादा सस्पेंस नहीं है. आधिकारिक ब्लॉग चरण दर चरण चल रहे स्कोर, क्षमता में सुधार और एप्लिकेशन परिदृश्यों को सूचीबद्ध करता है। लेकिन अगर आप पूरी घोषणा को ध्यान से पढ़ेंगे तो आपको कुछ असामान्य नजर आएगा।

ओपस 4.7 एंथ्रोपिक के प्रोजेक्ट ग्लासविंग और मिथोस प्रीव्यू का अनुसरण करता है। और पिछले सप्ताह उन्होंने घोषणा की कि अत्यधिक नेटवर्क सुरक्षा क्षमताओं के कारण मिथोस प्रीव्यू को अस्थायी रूप से रिलीज़ होने से प्रतिबंधित कर दिया गया है।

इसलिए, ओपस 4.7 को स्पष्ट रूप से "नए नेटवर्क सुरक्षा रेलिंग का परीक्षण करने के लिए उपयोग किया जाने वाला पहला सार्वजनिक मॉडल" के रूप में तैनात किया गया है।

अधिकारियों ने यहां तक ​​कहा कि उन्होंने प्रशिक्षण के दौरान मॉडल की साइबर सुरक्षा क्षमताओं को प्रयोगात्मक रूप से कमजोर कर दिया।

तो वास्तव में ओपस 4.7 क्या है?

01 ओपस 4.7 का प्रदर्शन क्या है?

आइए पहले नियमित भाग के बारे में बात करते हैं।

कई बेंचमार्क पर ओपस 4.7 ओपस 4.6 से बेहतर प्रदर्शन करता है, खासकर उन्नत सॉफ्टवेयर इंजीनियरिंग कार्यों पर।

आधिकारिक चार्ट में, ओपस 4.7 87.6% है और ओपस 4.6 एसडब्ल्यूई-बेंच सत्यापित पर 80.8% है; अधिक कठिन एसडब्ल्यूई-बेंच प्रो पर, ओपस 4.7 64.3% है और ओपस 4.6 53.4% ​​है; टर्मिनल-बेंच 2.0 पर, ओपस 4.7 69.4% है और ओपस 4.6 65.4% है; फाइनेंस ऑन एजेंट v11, ओपस 4.7 64.4% है और ओपस 4.6 60.1% है।


आइए संख्याओं की इस श्रृंखला को मानवीय शब्दों में समझाएं: अब आप अधिक जटिल प्रोग्रामिंग कार्यों को ओपस 4.7 को सौंप सकते हैं, जो लंबे समय तक चलने वाले कार्यों को अधिक कठोरता से संभालेगा, निर्देशों का अधिक सटीक रूप से पालन करेगा, और इसकी रिपोर्ट करने से पहले इसके आउटपुट को सत्यापित करने के तरीके ढूंढेगा।

ओपस 4.7 के शुरुआती परीक्षकों की प्रतिक्रिया में, ध्यान देने योग्य कई बिंदु हैं।

पहला यह कि निर्देशों का पालन करने की क्षमता में काफी सुधार हुआ है।

ओपस 4.7 निर्देशों की कड़ाई से शाब्दिक व्याख्या करता है, जबकि पिछले मॉडलों में उनकी शिथिल व्याख्या करने या कुछ हिस्सों को छोड़ देने की प्रवृत्ति थी।

यह एक अच्छी बात लगती है, लेकिन वास्तव में यह परेशानी का कारण बन सकती है। प्रदर्शन यह है कि ओपस 4.7 अधिक "आज्ञाकारी" है, लेकिन यह कुछ पुराने शीघ्र शब्दों को अमान्य कर देगा।

पिछला क्लाउड शायद अधिक "समझदार" रहा होगा। आप एक अस्पष्ट निर्देश लिखते हैं, और यह स्वचालित रूप से आपके सच्चे इरादे को पूरा कर देगा, या कुछ कम महत्वपूर्ण, विरोधाभासी, या अस्पष्ट रूप से लिखित आवश्यकताओं को अनदेखा कर देगा। कई उपयोगकर्ताओं के त्वरित शब्द वास्तव में इस पुराने मॉडल की आदत के आधार पर समायोजित किए जाते हैं।

लेकिन ओपस 4.7 के अधिकारियों का कहना है कि यह निर्देशों का अक्षरशः कड़ाई से पालन करना पसंद करता है। इस तरह, पुराने त्वरित शब्दों में छोटे विवरण जिन्हें मॉडल द्वारा स्वचालित रूप से अनदेखा कर दिया गया था, अब सावधानीपूर्वक लागू किए जा सकते हैं। मॉडल जिन अस्पष्ट अभिव्यक्तियों से लचीले ढंग से निपटता था, उन्हें अब सबसे सीधे तरीके से समझा जाता है।

नतीजा यह है कि मॉडल स्पष्ट रूप से मजबूत है, लेकिन आउटपुट उपयोगकर्ता की अपेक्षा से भिन्न है।

दूसरा है मल्टी-मॉडल सपोर्ट सुधार।

ओपस 4.7 2576 पिक्सेल तक लंबी छवियों को स्वीकार कर सकता है, जो लगभग 3.75 मेगापिक्सेल है, जो पिछले क्लाउड मॉडल की तुलना में तीन गुना अधिक है।

यह कोई सामान्य "छवि पहचान क्षमता" अपग्रेड नहीं है, बल्कि एआई को सॉफ्टवेयर इंटरफ़ेस को समझने और एंथ्रोपिक के कंप्यूटर उपयोग फ़ंक्शन की सेवा करने में सक्षम बनाने के लिए है।

ओपस 4.7 का विज़ुअल अपग्रेड उपयोगकर्ताओं को यह पूछने के लिए नहीं है कि "इस चित्र में क्या है?" लेकिन एजेंटों को सॉफ़्टवेयर इंटरफ़ेस को समझने में सक्षम बनाने के लिए।

यदि कोई एजेंट घने फॉर्म, टर्मिनल आउटपुट, डिज़ाइन ड्राफ्ट विवरण और कोड स्क्रीनशॉट नहीं देख सकता है, तो यह बेकार होगा, भले ही इसकी परिचालन क्षमताएं कितनी भी मजबूत हों, क्योंकि यह केवल यह जानता है कि कैसे काम करना है, लेकिन यह नहीं कि कहां काम करना है।

एंथ्रोपिक ने छवि रिज़ॉल्यूशन को बढ़ाया, जिससे क्लाउड को स्पष्ट आंखें मिलीं।

भविष्य में, एआई कार्यालय, एआई परीक्षण, एआई सुरक्षा और एआई फ्रंट-एंड डेवलपमेंट में कई कार्य शुद्ध टेक्स्ट कार्य नहीं, बल्कि स्क्रीन कार्य होंगे।

तीसरा वास्तविक कार्य प्रदर्शन है।

आंतरिक परीक्षण से पता चलता है कि ओपस 4.7 वित्तीय विश्लेषण कार्यों में ओपस 4.6 की तुलना में अधिक प्रभावी है, जो अधिक कठोर विश्लेषण और मॉडल, अधिक पेशेवर प्रस्तुतियाँ और सख्त क्रॉस-टास्क एकीकरण का उत्पादन करता है।

तृतीय-पक्ष मूल्यांकन GPQAval-AA में भी इसका उच्चतम स्कोर है, जो वित्त, कानून और अन्य क्षेत्रों को कवर करने वाला मूल्यांकन है।

चौथी है स्मरण क्षमता.

ओपस 4.7 फ़ाइल सिस्टम-आधारित मेमोरी का भी उपयोग करेगा। यह दीर्घकालिक, बहु-सत्रीय कार्य के दौरान महत्वपूर्ण नोट्स को याद रख सकता है, और बाद के कार्यों के लिए कम पूर्व-जानकारी की आवश्यकता होती है।

आधिकारिक घोषणा में यह बिंदु स्पष्ट नहीं है, लेकिन मुझे लगता है कि दीर्घकालिक उपयोग में यह सबसे महत्वपूर्ण अद्यतन सुविधा हो सकती है।

केवल एक एजेंट जो परियोजना की बाधाओं, उपयोगकर्ता प्राथमिकताओं, वास्तुशिल्प निर्णयों और सत्रों में अंतिम विफलता के कारणों को याद रख सकता है, वह "स्मार्ट अस्थायी कार्यकर्ता" से "स्थिर सहयोगी" में बदल सकता है।

सुरक्षा और संरेखण के संदर्भ में, ओपस 4.7 और ओपस 4.6 का समग्र प्रदर्शन समान है।

यह दुर्भावनापूर्ण टिप इंजेक्शन हमलों के प्रति ईमानदारी और प्रतिरोध में सुधार करता है, और हानिकारक सलाह देने की क्षमता में कमी करता है, जैसे कि विनियमित चाकू कैसे बनाएं और उपयोग करें।

आधिकारिक संरेखण मूल्यांकन का निष्कर्ष है कि मॉडल "आम तौर पर संरेखित और भरोसेमंद है, लेकिन अभी तक पूरी तरह से इष्टतम व्यवहार नहीं कर रहा है।"

कीमत के मामले में ओपस 4.7 और ओपस 4.6 एक समान हैं। इनपुट की लागत $5 प्रति मिलियन टोकन है, और आउटपुट की लागत $25 प्रति मिलियन टोकन है।

लेकिन माइग्रेशन गाइड में दो लागत परिवर्तनों का उल्लेख किया गया है। नया टोकनाइज़र उसी इनपुट को 1.0 से 1.35 गुना टोकन में बदल सकता है। मजबूत सोच मोड में, विशेष रूप से एजेंट के बहु-गोल संवाद में, मॉडल अधिक सोचेगा और अधिक टोकन आउटपुट कर सकता है।

तो यहीं पर एंथ्रोपिक सावधानी बरत रहा है। नाममात्र कीमत में बदलाव नहीं होता है, लेकिन यदि आप इसे अधिक चलाएंगे तो यह अधिक महंगा हो जाएगा।

अतीत में, मॉडल बिलिंग मुख्य रूप से इनपुट और आउटपुट की लंबाई पर निर्भर करती थी, लेकिन अब यह सोच के स्तर, कार्य बजट, एजेंट ने कितने राउंड चलाए हैं, और क्या टूल विफल होने के बाद भी तर्क जारी रहता है, पर भी निर्भर करता है।

एंथ्रोपिक के नए जोड़े गए एक्स-हाई प्रयास और कार्य बजट से पता चलता है कि हाई-एंड मॉडल का उपयोग क्लाउड कंप्यूटिंग के समान तर्क का पालन कर रहा है। आप जिसके लिए भुगतान कर रहे हैं वह कोई उत्तर नहीं है, बल्कि एक कार्य प्रक्रिया है जिसमें सोच, परीक्षण और त्रुटि और सत्यापन शामिल है।

02 एंथ्रोपिक ने नपुंसक मॉडल क्यों जारी किए?

फिर, ओपस 4.7 का एक वास्तविक विक्रय बिंदु यह है कि यह अपनी क्षमताओं को पूरी तरह से उजागर नहीं करता है।

यह उल्टा लग सकता है, लेकिन यह अगली पीढ़ी की मॉडल कंपनियों के लिए आदर्श हो सकता है।

मॉडल वास्तविक उत्पादन वातावरण के जितना करीब होगा, हम उतना ही मजबूत परिणाम प्राप्त कर सकेंगे। यह जानने की जरूरत है कि क्या किया जा सकता है और क्या नहीं, कौन से उपयोगकर्ता अधिक अनुमतियाँ खोल सकते हैं, और कौन से अनुरोधों को अवरुद्ध किया जाना चाहिए।

एंथ्रोपिक ने ओपस 4.7 जारी करने के साथ ही साइबर सत्यापन कार्यक्रम भी लॉन्च किया।

यह प्रोग्राम अनिवार्य रूप से क्षमताओं को ग्रेड करता है। सामान्य उपयोगकर्ताओं को रेलिंग के साथ ओपस मिलता है, और केवल सत्यापित सुरक्षा विशेषज्ञ ही व्यापक नेटवर्क सुरक्षा उपयोग के लिए आवेदन कर सकते हैं।

मॉडल स्वचालित रूप से उन अनुरोधों का पता लगाता है और ब्लॉक करता है जो निषिद्ध या उच्च जोखिम वाले साइबर सुरक्षा उपयोग का संकेत देते हैं।

एंथ्रोपिक का कहना है कि वह भविष्य में मिथोस-स्तरीय मॉडलों की व्यापक रिलीज की तैयारी के लिए ओपस 4.7 की वास्तविक दुनिया की तैनाती से सीखेगा।

मुझे कहना होगा कि एंथ्रोपिक अभी भी खेलना जानता है। उनका मानना ​​है कि ओपस की वर्तमान क्षमताएं अधिशेष हैं, इसलिए उन्होंने सुरक्षा को उत्पाद क्षमताओं में बदल दिया।

पिछले कुछ वर्षों में, AI कंपनियों का प्रतिस्पर्धी तर्क यह रहा है कि "मैं तुमसे बेहतर हूँ।" इसमें उच्च रनिंग स्कोर, अधिक पैरामीटर और अधिक जटिल चीजें हैं जो यह कर सकता है। लेकिन जब मॉडल क्षमता एक निश्चित महत्वपूर्ण बिंदु तक पहुंचती है, तो यह तर्क विफल होने लगता है।

एक मॉडल जो साइबर सुरक्षा परीक्षणों में बहुत अच्छा प्रदर्शन करता है, इसका मतलब यह हो सकता है कि इसका उपयोग दुर्भावनापूर्ण रूप से भी किया जा सकता है। बिना किसी प्रतिबंध वाला एजेंट उपयोगकर्ता की जानकारी के बिना खतरनाक निर्णय ले सकता है।

एंथ्रोपिक द्वारा चुना गया मार्ग सबसे मजबूत मॉडल को पहले लॉक करना और सुरक्षा तंत्र का परीक्षण करने के लिए एक कमजोर लेकिन पर्याप्त अच्छे मॉडल का उपयोग करना है। ऐसा नहीं है कि यह तकनीकी रूप से असंभव है, बात यह है कि आप सक्रिय रूप से इसे न करने का निर्णय लेते हैं। यह "संयम" स्वयं उत्पाद विभेदीकरण का हिस्सा बन जाता है।

यह रणनीति सफल हो सकती है या नहीं यह इस बात पर निर्भर करता है कि बाज़ार "सावधानी" की अवधारणा को पहचानता है या नहीं।

यदि उपयोगकर्ता केवल "क्या यह किया जा सकता है" की परवाह करते हैं, तो एंथ्रोपिक का दृष्टिकोण रूढ़िवादी प्रतीत होगा। लेकिन अगर कॉर्पोरेट ग्राहक "क्या कुछ गलत हो जाएगा" पर ध्यान देना शुरू कर दें, तो इस तरह की पदानुक्रमित रिहाई और कुछ क्षमताओं का सक्रिय रूप से कमजोर होना वास्तव में प्रतिस्पर्धात्मक लाभ बन सकता है।

उसी समय जब ओपस 4.7 जारी किया गया था, एंथ्रोपिक ने ऑटो मोड और/अल्ट्रारिव्यू फ़ंक्शंस को जोड़ते हुए क्लाउड कोड को भी अपडेट किया।

ऑटो मोड स्वचालित मॉडल चयन नहीं है, बल्कि एक अनुमति विकल्प है। यह क्लाउड को उपयोगकर्ता के लिए कुछ अनुमति निर्णय लेने की अनुमति देता है, इसलिए लंबे कार्य कम बाधित होते हैं, लेकिन अनुमति की पुष्टि को पूरी तरह से छोड़ देने से जोखिम कम होता है।

यह डिज़ाइन एजेंट उत्पादों के मुख्य विरोधाभास को लक्षित करता है: यदि आप बहुत अधिक प्रश्न पूछते हैं, तो एजेंट एक प्रशिक्षु की तरह दिखेगा; यदि आप नहीं पूछेंगे तो जोखिम बहुत बड़ा होगा।

एजेंट युग में डिज़ाइन करने के लिए सबसे कठिन बटन "प्रारंभ" नहीं, बल्कि "अनुमति दें" है।

अतीत में, AI केवल प्रश्नों के उत्तर देता था और उसके पास बहुत कम अनुमतियाँ होती थीं।

अब इसे कोड बदलने, फ़ाइलें पढ़ने, कमांड चलाने, वेब पेज खोलने और पीआर सबमिट करने की आवश्यकता है। हर कदम में जोखिम शामिल होता है।

यदि प्रत्येक ऑपरेशन के लिए उपयोगकर्ता की पुष्टि की आवश्यकता होती है, तो एजेंट की स्वायत्तता अर्थहीन होगी। लेकिन अगर उन्हें पूरी तरह से जाने दिया जाता है, तो उपयोगकर्ताओं को चिंता होगी कि एआई अपरिवर्तनीय गलत निर्णय लेगा।

ऑटो मोड का सार "मुझे परेशान मत करो" और "गड़बड़ मत करो" के बीच संतुलन ढूंढना है।

ऑपरेशन के जोखिम स्तर के आधार पर, यह निर्णय लेता है कि इसे स्वचालित रूप से निष्पादित करना है, उपयोगकर्ता को संकेत देना है, या स्पष्ट प्राधिकरण की आवश्यकता है।

यह "एक एजेंट क्या कर सकता है" और "क्या इसका उपयोग किया जा सकता है" के बीच एक बड़ी छलांग है।

/ultrareview एक समर्पित कोड समीक्षा सत्र है जो परिवर्तनों को पढ़ता है और बग और डिज़ाइन समस्याओं को इंगित करता है।

यह फ़ंक्शन कोड लिखने से कहीं अधिक मजेदार है, क्योंकि यह दर्शाता है कि एआई प्रोग्रामिंग आधिकारिक तौर पर दूसरे चरण में प्रवेश कर चुकी है, जिससे एआई को एआई द्वारा उत्पन्न कोड की समीक्षा करने की अनुमति मिलती है।

AI के लिए कोड लिखना अब असामान्य नहीं रह गया है। वास्तव में दुर्लभ बात यह है कि क्या AI अपने कोड की समीक्षा कर सकता है।

/अल्ट्रारेव्यू क्लाउड कोड के लिए एंथ्रोपिक की आंखों की दूसरी जोड़ी की तरह है।

एक एजेंट लेखन के लिए जिम्मेदार है, और दूसरा, अधिक विवेकशील सत्र समीक्षा के लिए जिम्मेदार है।

मैं डेटा को देखे बिना अनुमान लगा सकता हूं कि ये दोनों फ़ंक्शन उच्च-आवृत्ति फ़ंक्शन होने चाहिए। क्योंकि अनिवार्य रूप से, ये दो कार्य वही हुआ करते थे जो क्लाउड कोड का उपयोग करने वाले सभी प्रोग्रामर करते थे।

कोड जनरेट करना विकास प्रक्रिया का ही एक हिस्सा है। समीक्षा, परीक्षण, रीफैक्टरिंग और दस्तावेज़ीकरण समान रूप से महत्वपूर्ण हैं। यदि एआई केवल पहला कदम ही उठा सकता है, तो यह हमेशा एक सहायक उपकरण ही रहेगा। यदि यह पूरी प्रक्रिया में भाग ले सकता है, तो यह वास्तव में सॉफ्टवेयर विकसित करने के तरीके को बदल सकता है।

इस रिलीज़ के बारे में ध्यान देने योग्य एक और विवरण है। अधिकारी माइग्रेशन गाइड में उपयोगकर्ताओं को विशेष रूप से याद दिलाता है कि ओपस 4.7 में टोकन का उपयोग बढ़ सकता है, लेकिन वास्तविक प्रोग्रामिंग मूल्यांकन में, समग्र दक्षता में सुधार हुआ है।

इससे पता चलता है कि वे एक कॉल की लागत का नहीं, बल्कि कार्य को पूरा करने की कुल लागत का अनुकूलन कर रहे हैं। यदि कोई एजेंट पहली बार में चीजें सही करता है, भले ही एक कॉल अधिक महंगी हो, तो कुल लागत बार-बार परीक्षण और त्रुटि से कम होगी।

यह एक अधिक परिपक्व उत्पाद विचार है. शुरुआती दिनों में, एआई उत्पादों ने "सस्ता" और "तेज़" का पीछा किया, लेकिन अब वे "विश्वसनीयता" का पीछा कर रहे हैं।

ओपस 4.7 सबसे मजबूत मॉडल नहीं है, और एंथ्रोपिक इसे सबसे मजबूत मॉडल के रूप में पैकेज नहीं करता है।

यह क्षमता, सुरक्षा और लागत के बीच संतुलन है। लेकिन क्या यह सचमुच संतुलित है, मैं नहीं जानता। इसे बाज़ार द्वारा सत्यापित करने की आवश्यकता है।

कम से कम रिलीज़ रणनीति के संदर्भ में, एंथ्रोपिक एक नया विचार देता है, क्योंकि कभी-कभी "क्या न करें" "क्या करें" से अधिक महत्वपूर्ण होता है।