एंथ्रोपिक अपनी कुछ "प्रमुख क्षमताओं" को मुफ़्त उपयोगकर्ताओं के लिए डिफ़ॉल्ट मॉडल में भरता है। 1 जुलाई की सुबह, बीजिंग समय में, क्लाउड सॉनेट 5 का आधिकारिक तौर पर अनावरण किया गया। यह स्वतंत्र रूप से कार्यों की योजना बना सकता है, ब्राउज़र और टर्मिनलों को कॉल कर सकता है, कोड लिख सकता है, त्रुटियों की जांच कर सकता है और जटिल वर्कफ़्लो चला सकता है... एंथ्रोपिक के आधिकारिक शब्दों में, यह सॉनेट मॉडल है जो वर्तमान में "सबसे अधिक एजेंट जैसा" है।इसका प्रदर्शन पहले से ही ओपस 4.8 के करीब है, लेकिन कीमत एक पायदान गिर गई है।

यह स्वादिष्ट लगता है.
रिलीज़ अवधि के दौरान, सॉनेट 5 की इनपुट और आउटपुट टोकन कीमतें (प्रति मिलियन) क्रमशः केवल US$2 और US$10 हैं; भले ही अगस्त के अंत में स्थिति सामान्य हो जाए, इनपुट और आउटपुट टोकन की कीमतें क्रमशः US$3 और US$15 होंगी। ओपस 4.8 (इनपुट $5/आउटपुट $25) के मानक मूल्य निर्धारण की तुलना में, सॉनेट 5 40% की सीधी छूट के बराबर है, और प्रारंभिक लॉन्च अवधि के दौरान 40% से भी कम छूट के बराबर है।
लेकिन यदि आप केवल बेंचमार्क और मूल्य युद्ध पर ध्यान केंद्रित करते हैं, तो आप एंथ्रोपिक की महत्वाकांक्षाओं को कम आंक रहे हैं।
यह इस सिलिकॉन वैली यूनिकॉर्न द्वारा अपने आईपीओ की पूर्व संध्या पर किए गए अत्यधिक तनाव परीक्षण की तरह है: जब एक निकट-फ्लैगशिप-स्तरीय मॉडल दैनिक उत्पादकता उपकरण के रूप में उपयोग करने के लिए काफी सस्ता है, तो क्या कॉर्पोरेट ग्राहक इसे "पायलट प्रोजेक्ट" में बंद कर देंगे? क्या वे वास्तव में एआई को मुख्य व्यावसायिक प्रक्रियाओं में एकीकृत करने का साहस करते हैं?
यह उत्तर न केवल यह निर्धारित करता है कि सॉनेट 5 को कितना लोकप्रिय बेचा जा सकता है, बल्कि यह भी निर्धारित करता है कि क्या एंथ्रोपिक की भव्य कहानी जो एक ट्रिलियन-डॉलर के मूल्यांकन की ओर इशारा करती है, पूंजी बाजार में वास्तविक धन जुटा सकती है।
उसी समय, एंथ्रोपिक ने एक आधिकारिक दस्तावेज़ के माध्यम से घोषणा की कि अमेरिकी वाणिज्य विभाग ने क्लाउड फैबल 5 और मिथोस 5 पर निर्यात नियंत्रण हटा दिया है, और दोनों मॉडलों तक पहुंच कल बहाल कर दी जाएगी।

01भुगतान बाधा से सार्वजनिक बेंचमार्क तक चार महीने: बुद्धिमान एजेंट अब महान नहीं रहे
यदि आपने पहले कभी टॉप-एंड ओपस का उपयोग नहीं किया है, तो आप इस बार सॉनेट 5 के प्रभाव को नहीं समझ पाएंगे।
समय को वापस इस साल फरवरी में घुमाएँ। उस समय, यदि आप चाहते थे कि AI न केवल चैट बॉक्स में सवालों के जवाब दे, बल्कि ब्राउज़र को संचालित करे, टर्मिनल खोले, और जटिल मल्टी-स्टेप वर्कफ़्लो को स्वयं निष्पादित करे, तो आपको संभवतः सबसे महंगा मॉडल खरीदने के लिए पैसे खर्च करने होंगे।
यह अल्पसंख्यकों का विशेषाधिकार है, कॉर्पोरेट बजट द्वारा समर्थित है, और यह कुछ ऐसा है जिसमें आम उपयोगकर्ता शामिल नहीं हो सकते हैं।
अब जब आप क्लाउड खोलते हैं, तो मुफ़्त डिफ़ॉल्ट मॉडल में पहले से ही यह क्षमता होती है।
एआई उत्पाद विशेषज्ञ आकाश गुप्ता ने अपने अनुभव के बाद चौंकाने वाली तुलनाओं का एक सेट साझा किया। उन्होंने डेटा निकाला और कहा कि एसडब्ल्यूई-बेंच प्रो पर, एजेंट कोडिंग का एक हार्ड-कोर परीक्षण, सॉनेट 5 ने 63.2% स्कोर किया, जबकि फ्लैगशिप ओपस 4.8 ने 69.2% स्कोर किया, जो फ्लैगशिप स्तर के 90% से अधिक तक पहुंच गया।

एक अन्य नॉलेज वर्क बेंचमार्क जीडीपीवल-एए वी2 पर, सॉनेट 5 ने 1618 अंक हासिल किए, यहां तक कि सीधे तौर पर ओपस 4.8 के 1615 अंक को भी पीछे छोड़ दिया। उसकी भावनाएँ बहुत सीधी हैं;केवल चार महीने पहले जो हाई-एंड पेवॉल था वह अब सभी के लिए मानक है।
गुप्ता सभी को यह भी याद दिलाते हैं कि मूल्य-प्रदर्शन वक्र पर वर्तमान में आपके पास चाहे जो भी लाभ हो, वह खाई अनिवार्य रूप से केवल एक अल्पकालिक पट्टा है जिसे लगातार रीसेट किया जा रहा है।एन्थ्रोपिक ने आज वास्तव में जो घोषणा की वह यह बहुत ही संक्षिप्त मूल्यह्रास समय सारिणी हो सकती है।अत्याधुनिक बुद्धिमत्ता का मूल्यह्रास चक्र केवल चार से छह महीने का है, और अधिकांश टीमें महंगे संस्करण की आवश्यकता क्यों है, इसकी प्रस्तुति समाप्त करने से पहले ही सस्ते स्तर में गिर चुकी हैं।
एक अन्य एक्स यूजर @Shawnife ने भी सोशल मीडिया पर इसी तरह की भावनाएं व्यक्त कीं।
उन्हें लगता है कि सॉनेट 5 जैसी रिलीज़ को आसानी से कम आंका जा रहा है, इसलिए नहीं कि सुधार महत्वपूर्ण नहीं हैं, बल्कि इसलिए क्योंकि एआई की प्रगति अब इतनी बार महसूस होती है कि बिजली में उछाल सामान्य लगने लगा है। उनके लिए, जो बात सबसे महत्वपूर्ण है वह यह नहीं है कि सॉनेट बेहतर हो गया है;बल्कि, "रोज़मर्रा के मॉडल" और "अत्याधुनिक क्षमताओं" के बीच की रेखा लगातार पतली होती जा रही है।

कुछ महीने पहले, तर्क, उपकरण उपयोग, स्वायत्तता और विश्वसनीयता के इस स्तर को प्राप्त करने का मतलब अक्सर उस समय उपलब्ध सबसे बड़े मॉडल को चुनना और उसके साथ आने वाली उच्च लागत को स्वीकार करना होता था। अब सॉनेट 5 मूल्य सीमा को बनाए रखते हुए काफी हद तक ओपस-स्तर की क्षमताओं के करीब पहुंच रहा है, जिससे व्यापक उपयोग संभव हो जाएगा।
@शॉनिफ़ ने निष्कर्ष निकाला,ऐसा महसूस होता है कि हम एक ऐसे चरण में प्रवेश कर रहे हैं जहां लोग यह पूछना बंद कर देते हैं कि "कौन सा मॉडल सबसे स्मार्ट है" और पूछना शुरू कर देते हैं कि "अब हम क्या बना सकते हैं क्योंकि बिजली का यह स्तर हर दिन उपयोग करने के लिए काफी सस्ता है"।अक्सर यहीं से वास्तविक परिवर्तन शुरू होता है।
02 न केवल "होशियार बनें", बल्कि "काम पूरा करना" सीखें
आम उपयोगकर्ताओं के लिए, यह अहसास कि मॉडल अधिक स्मार्ट हो गया है, अक्सर अस्पष्ट होता है, लेकिन डेवलपर्स के पास गंध की बहुत गहरी समझ होती है।
इस सॉनेट 5 अपग्रेड की सबसे बड़ी विशेषता यह नहीं है कि यह बेहतर चैट कर सकता है, बल्कि यह है कि यह बेहद "विश्वसनीय" हो गया है और विशेष रूप से उस तरह के गंदे काम को संभालने में अच्छा है जो पहले ही आधे रास्ते में अटक जाता था।
यह "अटूट" गुणवत्ता कंपनियों के लिए प्रायोगिक परियोजनाओं को उत्पादन तैनाती में बदलने का साहस करने की कुंजी है।एआई को पायलट से उत्पादन लाइन तक पहुंचाने में सबसे बड़ी बाधा कभी भी एक निश्चित चमकदार कौशल का व्यक्तिगत स्कोर नहीं है, बल्कि यह है कि क्या यह अराजक और अप्रत्याशित वास्तविक वर्कफ़्लो में स्थिरता बनाए रख सकता है। जो मार्गदर्शक अस्सी-सीढ़ी की सड़क के चौसठवें सोपान पर पहुँचकर भटक जाता है, वह एक ईमानदार मानचित्र जितना उपयोगी नहीं होता।
आइए पहले वस्तुनिष्ठ डेटा देखें।

प्रॉक्सी कोडिंग टेस्ट SWE-बेंच प्रो में सॉनेट 5 को 63.2% और पिछली पीढ़ी के सॉनेट 4.6 को 58.1% मिले। इस छलांग ने सॉनेट 5 को ओपस 4.8 के 69.2% के करीब ला दिया।
एक अन्य कोडिंग मूल्यांकन में, टर्मिनल-बेंच 2.1, जो वास्तविक युद्ध पर अधिक जोर देता है, अंतर और भी कम हो गया, सॉनेट 5 80.4% तक पहुंच गया और ओपस 4.8 82.7% तक पहुंच गया, लगभग बराबरी पर।
बहु-विषयक तर्क के संदर्भ में, अंतिम मानव परीक्षण को बेंचमार्क के रूप में उपयोग करते हुए, सॉनेट 5 ने उपकरणों की मदद से 57.4% स्कोर किया, जो मूल रूप से ओपस 4.8 के 57.9% के समान है।
ओएसवर्ल्ड-सत्यापित मूल्यांकन में, जो वास्तविक कंप्यूटर संचालन का अनुकरण करता है, सॉनेट 5 ने 81.2% स्कोर किया, जो पिछली पीढ़ी के 78.5% की तुलना में काफी सुधार है।
ये आंकड़े सामूहिक रूप से इस तथ्य की ओर इशारा करते हैं कि सॉनेट 5 पिछली पीढ़ी का पैचवर्क नहीं है, यह सीधे प्रदर्शन रेंज में कूदता है जो फ्लैगशिप मॉडल के साथ अत्यधिक ओवरलैप होता है।
आइए व्यक्तिपरक अनुभव को देखें।
एआई कोड एडिटर कर्सर के सह-संस्थापक सुलेह आसिफ ने इसे अपने दैनिक काम को चलाने के लिए इस्तेमाल किया और पाया कि यह नया मॉडल स्थापित योजना पर टिक सकता है, विकास विनिर्देशों का पालन कर सकता है, और अंततः स्थिर आउटपुट के साथ वास्तव में विश्वसनीय इंजीनियर की तरह, एक आरामदायक लागत पर बहु-चरण कोड परिवर्तनों की एक स्पष्ट श्रृंखला प्रदान कर सकता है।
ऑटोमेशन प्लेटफ़ॉर्म जैपियर के एक वरिष्ठ इंजीनियर डैनियल शेपर्ड ने इसे एक कार्य दिया जो पिछले मॉडल अक्सर करने में विफल रहे: कंपनी के जटिल सेल्सफोर्स खाता पदानुक्रम को स्वचालित रूप से अपडेट करें और एक कठोर स्वरूपित रिलीज़ घोषणा भेजें। पिछले मॉडल आमतौर पर आधे रास्ते में अटक जाते थे,लेकिन सॉनेट 5 शुरू से अंत तक संपूर्ण वर्कफ़्लो पूरा करता है। संपूर्ण प्रक्रिया को विश्वसनीय रूप से पूरा करने की यह क्षमता स्वचालन के अर्थशास्त्र को पूरी तरह से बदल देती है।
पॉडकास्ट होस्ट बेन डेविस का अनुभव एक अलग स्तर की भावना सामने लाता है। उनकी पहली प्रतिक्रिया यह थी कि इस चीज़ का बेंचमार्क परीक्षण प्रदर्शन वास्तव में बहुत खराब था, और यह तर्क के मामले में विशेष रूप से अक्षम था। यह कोई तेज़ मॉडल नहीं था. भले ही कीमत कम हो गई थी, लेकिन अक्षमता के मुद्दों के कारण यह सस्ता मॉडल नहीं था।

लेकिन जब विषय बदल गया, तो उन्होंने कहा कि उनकी पहली धारणा यह थी कि उन्हें लगा कि बाकी सभी लोग गलत थे। ये बहुत अच्छा मॉडल था. उन्होंने जिस अभिव्यक्ति का प्रयोग किया वह यह थी कि सॉनेट5 से "अगली पीढ़ी" जैसी गंध आ रही है।
उन्होंने बताया कि फैबल पहला "अगली पीढ़ी" मॉडल है जो हर किसी को मिला है।इस मॉडल की विशेषताएं उच्च स्कोर नहीं हैं, बल्कि हास्यास्पद रूप से लंबे समय तक लगातार चलने की क्षमता, उप-एजेंटों को अच्छी तरह से संभालने की क्षमता, अपने स्वयं के काम की जांच करने की क्षमता, और आपके संकेतों में अंतराल को भरने और वास्तव में आपके शब्दों के अर्थ को किसी भी पिछले मॉडल की तुलना में बेहतर ढंग से समझने की क्षमता है।
सॉनेट 5 को यह स्वाद अपने पहले परीक्षण से विरासत में मिला है, वह अपने स्वयं के आउटपुट की जाँच करता है और स्पष्ट रूप से ऐसा करने के लिए कहे बिना त्रुटियों की जाँच करता है। हालाँकि, उन्होंने यह भी स्वीकार किया कि, अधिकांश क्लाउड मॉडलों की तरह, यह कभी-कभी बहुत अधिक उपदेश देता है, उन सवालों के जवाब देता है जो आपने नहीं पूछे हैं, और आसानी से विषय से भटक जाता है। सौभाग्य से, जब आप इसे इंगित करेंगे, तो यह आपके साथ बहुत लंबे समय तक बहस नहीं करेगा, बल्कि बस आपकी गलती स्वीकार करेगा और ट्रैक पर वापस आ जाएगा।
तो उनका निष्कर्ष है,जब तक फ़ेबल वास्तव में वापस नहीं आता, यह वहां का सबसे अच्छा मॉडल हो सकता है।
अंत में, आइए वास्तविक व्यावसायिक अभ्यास पर नजर डालें। बॉक्स सीईओ आरोन लेवी के परीक्षण परिणाम इन पिछली भावनाओं के लिए अधिक ठोस सबूत प्रदान करते हैं।

बॉक्स में आंतरिक रूप से एक स्व-विकसित एआई जटिल कार्य मूल्यांकन प्रणाली है, जो विशेष रूप से मॉडल को वास्तविक कॉर्पोरेट दस्तावेजों को शुरू से अंत तक जांचने की अनुमति देती है। उसने सॉनेट 5 को अंदर फेंका और चारों ओर घूम गया, और परिणाम काफी आश्चर्यजनक थे। ऊर्जा उद्योग जैसे कई आकर्षक उच्च-जटिलता वाले क्षेत्रों में, सॉनेट 5 अपने पूर्ववर्ती की तुलना में 4.7 प्रतिशत अंक, खुदरा 4.4 प्रतिशत अंक और पेशेवर सेवाओं में 2.6 प्रतिशत अंक से आगे है।
लेवी ने कई विशिष्ट व्यावहारिक मामले भी साझा किये। वित्तपोषण पर उचित परिश्रम करते समय, सॉनेट 5 ने मूल बैलेंस शीट से कंपनी की तरलता और उत्तोलन अनुपात की गणना की, और यहां तक कि स्रोत रिपोर्ट में कम बताए गए ऋण-से-इक्विटी अनुपात का भी पता लगाया, और सभी तीन ऋणों को उल्लंघन के रूप में चिह्नित किया, न कि केवल दस्तावेज़ द्वारा स्वीकार किए गए ऋणों को।
ओवरहाल लागतों का विश्लेषण करते समय, अन्य मॉडल बिना सोचे-समझे तालिका में प्रत्येक संख्या को जोड़ सकते हैं, लेकिन यह चतुराई से इसे कंपनी के स्वयं परिभाषित KPI ढांचे तक सीमित कर देता है, उत्पादन हानि लागतों को साफ-सुथरा कर देता है जिन्हें अलग से ट्रैक किया जाना चाहिए, और स्प्रेडशीट में क्षतिग्रस्त संदर्भ सेल को खोजने के लिए सुरागों का भी पालन करता है।
SKU राजस्व विश्लेषण करते समय, यह योग से विभाजित करने के सामान्य खतरे में नहीं पड़ता है। इसके बजाय, यह सही उपश्रेणी के हर में प्रत्येक उत्पाद के योगदान की सटीक गणना करता है, और यह भी बता सकता है कि एक निश्चित उत्पाद श्रेणी ने इसे रैंकिंग के शीर्ष नौ में क्यों नहीं बनाया।
लेवी को लगता है कि उन क्षेत्रों में जहां असंरचित डेटा अत्यधिक जटिल है, सॉनेट 5 ने वास्तव में उत्पादन बैनर ले जाने की अपनी क्षमता का प्रदर्शन किया है।उन्होंने पुष्टि की कि कंपनी की अपनी वैयक्तिकृत इंटेलिजेंस बनाने के लिए यह मॉडल जल्द ही बॉक्स एआई स्टूडियो में ग्राहकों के लिए उपलब्ध होगा।
03 टोकनाइज़र में खाता बही: सस्ता, लेकिन जरूरी नहीं कि पैसे की बचत हो
कॉर्पोरेट ग्राहकों के लिए, जटिल दस्तावेज़ों को स्थिर रूप से संसाधित करने की यह क्षमता ही वास्तव में यही कारण है कि वे भुगतान करने को तैयार हैं। लेकिन भुगतान करने के इच्छुक होने के लिए शर्त यह है कि बिल बजट के भीतर होना चाहिए।
सतह पर, ऐसा लगता है कि सॉनेट 5 की कीमत बहुत कम हो गई है, और आप केवल यूएस$2 और यूएस$10 की विशेष कीमत पर ओपस के करीब एक स्मार्टफोन खरीद सकते हैं। हालाँकि, परीक्षण समाप्त करने के बाद, कई लोग पलटे और सभी को "नुकसान से बचने" पर ध्यान देने की याद दिलाई।
एआई विवरण में विशेषज्ञता रखने वाले शोधकर्ता साइमन विलीसन की एक आदत है। हर बार जब कोई नया मॉडल जारी होता है, तो वह सीधे डेवलपर दस्तावेज़ के "नए फीचर्स" अनुभाग पर जाएगा, क्योंकि वहां आमतौर पर आधिकारिक घोषणा की तुलना में अधिक व्यावहारिक जानकारी छिपी होती है। इस बार उन्होंने वास्तव में एक तकनीकी विवरण खोजा, जिसे सावधानीपूर्वक तौलने की आवश्यकता थी।
सॉनेट 5 में सेगमेंटर शब्द का एक नया संस्करण है, और जिस तरह से यह टेक्स्ट को संसाधित करता है वह बदल गया है। इसका सीधा परिणाम यह है कि समान इनपुट टेक्स्ट के लिए, वर्तमान टोकन खपत पुराने मॉडल सॉनेट 4.6 की तुलना में लगभग 30% अधिक है।

उन्होंने सार्वजनिक रूप से उपलब्ध क्लाउड टोकन गिनती उपकरण का उपयोग करके वास्तविक माप किया, और परिणाम काफी सहज थे। उन्होंने परीक्षण के लिए मानव अधिकारों की सार्वभौम घोषणा के अंग्रेजी संस्करण के पूर्ण पाठ का उपयोग किया। पुराने मॉडल सॉनेट 4.6 पर, केवल 2356 टोकन की खपत हुई थी। सॉनेट 5 तक, इसका विस्तार सीधे 3341 टोकन तक हो गया, जो 1.42 गुना की वृद्धि है। स्पैनिश संस्करण पर स्विच करने पर, टोकन की संख्या 3572 से बढ़कर 4747 हो गई, जो 1.33 गुना की वृद्धि है।
सबसे क्रूर काम 4,000 से अधिक लाइनों वाली पायथन कोड फ़ाइल का परीक्षण करना था। टोकन तेजी से 44014 से बढ़कर 56113 हो गया, जो 1.27 गुना की वृद्धि है। एकमात्र चीज़ जिसने उन्हें राहत दी वह सरलीकृत चीनी थी। दोनों मॉडलों पर चीनी पाठ की टोकन खपत मूल रूप से समान थी, केवल 1.01 गुना मामूली उतार-चढ़ाव के साथ, जो लगभग नगण्य था।
इस खोज का मतलब है कि उन डेवलपर्स के लिए जो अंग्रेजी प्रसंस्करण पर बहुत अधिक भरोसा करते हैं या बहुत सारे पायथन कोड चलाते हैं, मॉडल की प्रति-कार्य लागत विज्ञापित जितनी अच्छी नहीं हो सकती है।
एन्थ्रोपिक ने वास्तव में आधिकारिक दस्तावेज़ के फ़ुटनोट्स में इसे स्वीकार किया है। उन्होंने बताया कि तरजीही मूल्य निर्धारण का उद्देश्य संक्रमण अवधि को मोटे तौर पर लागत-तटस्थ रखना है।दूसरे शब्दों में, कीमत में कटौती के लिए कुछ डॉलर की गुंजाइश का एक हिस्सा सांकेतिक मुद्रास्फीति से बचाव के लिए उपयोग किया जाता है।
इस छुपे हुए परिवर्तन के कारण कुछ डेवलपर्स, जिन्होंने मूल रूप से कीमत में कटौती की सराहना की थी, तुरंत शांत हो गए और अपने विशिष्ट कार्यभार के आधार पर अपनी गणनाओं की पुनर्गणना करना शुरू कर दिया।
04 सोशल नेटवर्क पर एक बड़ा झगड़ा हुआ: कुछ लोगों ने चिल्लाया कि इसकी गंध बहुत अच्छी है, और कुछ लोगों ने धन वापसी की मांग की।
जब भी कोई मॉडल जारी होता है, तो सोशल मीडिया पर केवल एक ही आवाज नहीं होती है। सॉनेट 5 के लाइव होने के बाद पहले कुछ घंटों में, एक्स प्लेटफ़ॉर्म पर प्रतिक्रिया तुरंत विभाजित हो गई।
कुछ लोगों को लगता है कि यह अपडेट ईमानदार है, जबकि अन्य लोग बिना सोचे-समझे अपनी निराशा व्यक्त करते हैं।
एक्स उपयोगकर्ता @BennettBuhner की शिकायत काफी स्पष्ट थी। उन्होंने सीधे तौर पर कहा कि सॉनेट 5 अब तक का सबसे खराब मॉडल है। उनका कारण यह है कि प्रत्येक कार्य की वास्तविक खपत लागत ओपस का उपयोग करने से अधिक है, लेकिन प्रदर्शन ओपस से भी बदतर है, और संस्करण संख्या 4.6 से 5 तक की छलांग किसी भी पहलू में सार्थक सुधार नहीं है। उन्होंने स्पष्ट व्यंग्य के साथ एक गढ़े गए शब्द एन्थ्रोस्लॉप का उपयोग करके अपना असंतोष व्यक्त किया।

एक्स यूजर @weswinder ने भी इसी तरह का भ्रम व्यक्त किया। उनका तर्क सीधा है. सॉनेट 5 ओपस 4.8 की तुलना में अधिक महंगा दिखता है, और यह उतना स्मार्ट नहीं है।यदि खराब परिणाम प्राप्त करने के लिए अधिक टोकन की आवश्यकता होती है, तो प्रति टोकन तथाकथित इकाई मूल्य लाभ वास्तव में अर्थहीन है।उन्होंने सीधे पूछा कि इस मॉडल का महत्व क्या है?

एक अन्य एक्स उपयोगकर्ता, @DaveShapi को एक रोलर कोस्टर अनुभव हुआ। उनकी पहली प्रतिक्रिया सदमा वाली थी. अपने शब्दों में, उसे विश्वास नहीं हो रहा था कि वह ऐसा कह रहा है, लेकिन सॉनेट 5 का मैक्स प्रयास मोड बहुत ज़ोरदार था। उन्होंने इसे ऐसे महसूस किया जैसे गिलहरियों के एक डिब्बे को कोकीन का एक गुच्छा खिलाना, फिर "भगवान तुम्हें आशीर्वाद दे" कहना और यह देखने के लिए इंतजार करना कि दूसरी तरफ से क्या निकलता है।
इसके बाद उन्होंने शिकायत की कि सॉनेट 5 बहुत आसानी से विषय से भटक गया, अधिकांश क्लाउड्स की तरह उपदेशात्मक था, आपके द्वारा नहीं पूछे गए प्रश्नों का उत्तर देगा, और कुल मिलाकर बहुत अहंकारी था। सौभाग्य से, एक फायदा है. जब आप उसकी गलतियां बताएंगे तो वह आपसे ज्यादा देर तक बहस नहीं करेगा। यह बस अपनी गलतियों को स्वीकार करेगा और पूछेगा कि क्या गलत है। हमें इसकी चिंता करने की जरूरत नहीं है. उसने बेबसी से पूछा, मैं इस पर पैसे क्यों खर्च करूं?

लेकिन असंतोष की आवाज़ों के अलावा कुछ लोगों ने बिल्कुल अलग फैसले भी दिए. एक्स उपयोगकर्ता @kimonismus की टिप्पणियाँ अधिक रणनीतिक स्तर की जांच लेकर आईं।
उन्हें जो मूल्यांकन परिणाम मिला वह यह था कि सॉनेट 5 वास्तव में पिछली पीढ़ी से बेहतर था, जिसकी सभी को उम्मीद थी, लेकिन यह सभी मूल्यांकनों में ओपस 4.8 से कमजोर था। वह विशेष रूप से यह नहीं समझ पाता है कि चूंकि प्रदर्शन में कोई उछाल नहीं है, तो संस्करण संख्या को 4.8 या इसी तरह की संख्या कहने के बजाय सीधे 4.6 से 5 पर क्यों पहुंच जाती है। आम तौर पर संस्करण संख्या में बड़े उछाल का मतलब क्षमताओं में बड़ी छलांग है, लेकिन इस बार ऐसा स्पष्ट रूप से नहीं है।

@किमोनिस्मस ने कहा कि कुल मिलाकर रिलीज़ ने उन्हें भ्रमित कर दिया और उत्तर देने की तुलना में अधिक प्रश्न खड़े कर दिए। वह मदद नहीं कर सका, लेकिन फैबल 5 के संदर्भ में सॉनेट 5 की जांच कर सका। चूंकि हर कोई पहले से ही जानता था कि अंदर काफी मजबूत प्रदर्शन के साथ एक फैबल 5 था, और यह भी पता था कि यह माना जा सकता है कि अंदर एक बेहतर ओपस था, उन्होंने लंबे समय तक क्यों रोक कर रखा और केवल सॉनेट 5 जारी किया जो न तो अच्छा था और न ही बुरा?
उन्होंने अनुमान लगाया कि यह संभवतः संयम की वर्तमान आवश्यकता के कारण था। वास्तविक आकर्षण यह है कि चूंकि नियामक संचार में अभी भी बोर्ड भर में देरी हो रही है, इसलिए एंथ्रोपिक को खुद को बातचीत में बनाए रखने और इसे न भूलने के लिए अब कुछ जारी करने की जरूरत है, जिसमें उन सकारात्मक आवाज़ों को बनाए रखना भी शामिल है।उनकी राय में, सॉनेट 5 की रिलीज़ को शायद केवल इसी संदर्भ में समझा जा सकता है, जो बीच-बीच में कुछ प्रकार के संक्रमणकालीन स्वाद को छोड़ती है, जो कम से कम उनके लिए व्यक्तिगत रूप से, आम तौर पर निराशाजनक है।
इन आलोचनाओं के सामने, कई लोगों ने एंथ्रोपिक के पक्ष में बात की है।
कुछ लोगों का मानना है कि सॉनेट की तुलना ओपस से करने से ही पता चलता है कि सॉनेट ने बाजार में छलांग लगा दी है। मध्य-श्रेणी के उत्पादों की तुलना प्रमुख मॉडलों से की जा रही है, जो यह साबित करता है कि प्रदर्शन पहले स्तर पर सिमट गया है। अन्य लोगों ने बताया कि फ्री उपयोगकर्ता अब इस स्तर के मॉडल मुफ्त में खरीद सकते हैं, इसलिए शिकायत करने की कोई बात नहीं है।
इस तरह के विवाद से ही पता चलता है कि सॉनेट 5 एक नाजुक संतुलन बिंदु पर चल रहा है। यह अभी भी आश्चर्यजनक होने से बहुत दूर है, लेकिन यह विफलता से बहुत दूर है।असली परीक्षा रिलीज़ के दिन मौखिक रूप से नहीं है, बल्कि अगले कुछ हफ्तों में कितने डेवलपर्स वास्तव में अपने दैनिक वर्कफ़्लो को इस मॉडल में स्थानांतरित करेंगे, और जो लोग माइग्रेट कर चुके हैं वे महीने के अंत में बिल प्राप्त होने पर सिर हिलाएंगे या भौंहें चढ़ाएंगे।
05आईपीओ की पूर्व संध्या पर "मुहरबंद" होने और रोक लगने का खतरा
एक ट्रिलियन-डॉलर मूल्यांकन की ओर बढ़ रही एक स्टार कंपनी के रूप में, एंथ्रोपिक सुरक्षा को लेकर बेहद सख्त है। इस बार सॉनेट 5 के सिस्टम कार्ड में सुरक्षा मूल्यांकन बड़ी जगह घेरता है और कई जानकारियां सामने आती हैं।
आइए पहले प्रगति के क्षेत्रों के बारे में बात करें। पिछली पीढ़ी के सॉनेट 4.6 की तुलना में, सॉनेट 5 में कई आयामों में वास्तविक सुधार हैं।
यह मतिभ्रम और परिणामी व्यवहार की कम दर प्रदर्शित करता है, दुर्भावनापूर्ण अनुरोधों को अस्वीकार करने में बेहतर है, और एजेंट परिदृश्यों में संकेत इंजेक्शन हमलों के प्रति अधिक प्रतिरोधी है। अधिकारी ने स्वचालित व्यवहार ऑडिट का एक पूरा सेट आयोजित किया है, और परीक्षण के दायरे में सहयोग, दुर्व्यवहार और धोखे जैसे अनुचित व्यवहारों की एक श्रृंखला शामिल है। सॉनेट 5 का समग्र अनुचित व्यवहार स्कोर पिछली पीढ़ी की तुलना में कम है, जिसका अर्थ है कि यह अधिक सुरक्षित है।

लेकिन ईमानदारी से कहूं तो यह सबसे सुरक्षित नहीं है।सिस्टम कार्ड स्पष्ट रूप से बताता है कि अधिक सक्षम ओपस 4.8 और क्लाउड मिथोस पूर्वावलोकन की तुलना में जो विशेष रूप से नेटवर्क सुरक्षा पर केंद्रित है, सॉनेट 5 ने समान मूल्यांकन में कदाचार की थोड़ी अधिक दर दिखाई।यह कथन बहुत सतर्क है, लेकिन समस्या को स्पष्ट करने के लिए पर्याप्त है। मजबूत मॉडल वास्तव में कुछ सुरक्षा आयामों में बेहतर प्रदर्शन करते हैं।
सबसे सहज तुलना मोज़िला के सहयोग से विकसित एक शोषण परीक्षण से आती है।
मॉडल के लिए कार्य फ़ायरफ़ॉक्स 147 ब्राउज़र के लिए प्रयोग करने योग्य सॉफ़्टवेयर कारनामे लिखना था। सॉनेट 5 का रिपोर्ट कार्ड बहुत साफ-सुथरा है। उपयोग करने योग्य कोई भी कमज़ोरियाँ नहीं हैं, और सफलता दर शून्य है। इसकी आंशिक सफलता दर 13.2% है, जो पिछली पीढ़ी के सॉनेट 4.6 के 8.8% से थोड़ी अधिक है, लेकिन ओपस 4.8 के सामने दोनों संख्याएँ ध्यान देने योग्य हैं। ओपस 4.8 ने उपलब्ध कारनामों का 68.8% उत्पादन किया, और मिथोस 5 88.4% तक उच्च था।

दूसरे शब्दों में, हालांकि सॉनेट 5 की बहुमुखी प्रतिभा बढ़ गई है, लेकिन नेटवर्क सुरक्षा कौशल के मामले में इसके और इसके दो बड़े भाइयों के बीच अभी भी एक अंतर है जिसके लिए बेहद विनाशकारी शक्ति की आवश्यकता होती है।
इसे बहुत चालाक होने और अराजकता पैदा करने से रोकने के लिए, एंथ्रोपिक का दृष्टिकोण सीधे डिफ़ॉल्ट रूप से नेटवर्क सुरक्षा सुरक्षा को सक्षम करना है। यह सिस्टम वास्तविक समय में खतरनाक नेटवर्क उपयोग व्यवहार का पता लगा सकता है और उसे ब्लॉक कर सकता है। जब भी मॉडल खतरनाक क्षेत्र को छूने का प्रयास करेगा, सुरक्षा कवच पॉप अप हो जाएगा।
अधिकारियों ने बताया कि सुरक्षा उपायों के इस सेट की सख्ती ओपस 4.7 और 4.8 के समान ही है। क्योंकि उन्होंने निर्णय लिया कि सॉनेट 5 का समग्र नेटवर्क सुरक्षा जोखिम स्तर कम है, उन्होंने फैबल 5 को प्रतिबंधित करने जैसे अधिक कठोर कदम नहीं उठाए।
विशेष आवश्यकता वाले उन संगठनों के लिए जिन्हें साइबर सुरक्षा अनुसंधान के लिए कम सुरक्षा की आवश्यकता होती है, एंथ्रोपिक एक "साइबर सत्यापन कार्यक्रम" चैनल प्रदान करता है। जो संगठन पहले ही कार्यक्रम में शामिल हो चुके हैं, उन्हें स्वचालित रूप से सॉनेट5 पर समान एक्सेस अधिकार प्राप्त होंगे और उन्हें दोबारा आवेदन करने की आवश्यकता नहीं होगी। सामान्य तौर पर, आधिकारिक अनुशंसा यह है कि जो लोग नेटवर्क सुरक्षा कार्य के बारे में गंभीर हैं वे Opus4.8 का उपयोग करें।
06 आईपीओ कथा में सॉनेट 5 क्या भूमिका निभाता है?
एंथ्रोपिक सार्वजनिक होने की जल्दी में है, और इसका मूल्यांकन लगभग एक ट्रिलियन अमेरिकी डॉलर तक पहुंच गया है। इस नोड पर सॉनेट 5 को पुश करना एक नियमित अपडेट की तुलना में एक रणनीतिक कदम की तरह है।
पिछले छह महीनों में इसके वित्तपोषण प्रक्षेपवक्र को देखते हुए, यह वास्तव में तेज़ है। इस साल फरवरी में, एंथ्रोपिक ने 380 बिलियन अमेरिकी डॉलर के मूल्यांकन पर 30 बिलियन अमेरिकी डॉलर का वित्तपोषण पूरा किया। उस समय, वार्षिक राजस्व 14 बिलियन अमेरिकी डॉलर तक पहुंच गया, जो पिछले तीन वर्षों में हर साल दस गुना से अधिक बढ़ गया। मई के अंत तक, इसने श्रृंखला एच वित्तपोषण में 65 बिलियन अमेरिकी डॉलर का एक और काम पूरा कर लिया था, इसका मूल्यांकन सीधे 965 बिलियन अमेरिकी डॉलर तक पहुंच गया था, और इसका वार्षिक राजस्व 47 बिलियन अमेरिकी डॉलर से अधिक हो गया था।
लेकिन यह विकास दर एक अपरिहार्य जांच भी लाती है। गिल लूरिया, विश्लेषक फर्म डी.ए. में प्रौद्योगिकी अनुसंधान के निदेशक। डेविडसन ने इस पर ठंडा पानी डालते हुए चेतावनी दी कि यद्यपि एंथ्रोपिक अत्याधुनिक मॉडलों के मामले में आगे प्रतीत होता है,लेकिन वर्तमान उपयोग का अधिकांश भाग परीक्षणों और प्रयोगों से आता है, जो टिकाऊ नहीं हो सकता है।डेवलपर्स की जिज्ञासा-प्राप्ति परीक्षणों को दीर्घकालिक अनुबंधों के साथ उत्पादन-स्तर की निर्भरता में बदलना एआई प्रयोगशालाओं के सामने सबसे महत्वपूर्ण बाधा है।
इस संदर्भ में सॉनेट 5 की मूल्य निर्धारण रणनीति को देखने पर तर्क स्पष्ट हो जाता है। एंटरप्राइज़ ग्राहक जो महंगे ओपस-क्लास मॉडल आज़मा रहे हैं, उन्हें लग सकता है कि सॉनेट 5 उस कीमत पर पर्याप्त अच्छी उत्पादन गुणवत्ता प्रदान करता है जिसे वित्त विभाग बड़े पैमाने पर स्वीकृत करने के लिए तैयार हैं।यदि यह चीज़ आगे बढ़ती है, तो यह उद्योग के प्रयोग से तैनाती तक के संक्रमण को तेज कर सकती है, जो एंथ्रोपिक के लिए अपने मूल्यांकन को उचित ठहराने के लिए एक महत्वपूर्ण कदम है।
एक और संकेत है जिसे आसानी से नजरअंदाज कर दिया जाता है। सॉनेट 5 के लॉन्च से ठीक एक दिन पहले, कैलिफोर्निया के गवर्नर गेविन न्यूसोम ने सभी राज्य एजेंसियों को 50% छूट के साथ-साथ मुफ्त कार्यबल प्रशिक्षण प्रदान करने के लिए एक साझेदारी की घोषणा की।इसका मतलब है कि एंथ्रोपिक को निरंतर, आवर्ती राजस्व प्राप्त होगा।
एंथ्रोपिक के अमेरिका के प्रमुख केट जेन्सेन ने कहा कि यह उन लोगों के लिए क्लाउड को उपलब्ध रखने के बारे में है जो कैलिफ़ोर्निया को चालू रखते हैं। यह समझौता कैलिफ़ोर्निया के विभिन्न शहरों और काउंटियों तक भी विस्तारित हो गया है। यह एक बार की बिक्री का प्रतिनिधित्व नहीं करता है, बल्कि उस तरह का गहरा बंधन है जो आय आधार को डेवलपर समुदाय में प्रवेश करने और सार्वजनिक सेवा प्रणाली में प्रवेश करने की अनुमति देता है। कॉर्पोरेट ग्राहकों के लिए, जटिल दस्तावेज़ों को स्थिर रूप से संसाधित करने की यह क्षमता ही वास्तव में यही कारण है कि वे भुगतान करने को तैयार हैं।
07प्रतिस्पर्धी परिदृश्य और मूल्यांकन दबाव
सॉनेट 5 की रिलीज़ का समय भी पूरे उद्योग में सबसे अधिक प्रतिस्पर्धी विंडो के साथ मेल खाता है।
OpenAI ने मार्च में 852 बिलियन अमेरिकी डॉलर के मूल्यांकन पर 122 बिलियन अमेरिकी डॉलर का वित्तपोषण पूरा किया और अपने स्वयं के आईपीओ की भी तैयारी कर रहा है। एलोन मस्क के स्पेसएक्स और एक्सएआई के विलय के बाद, आईपीओ की कीमत 135 अमेरिकी डॉलर प्रति शेयर थी, जिसका मूल्यांकन 1.77 ट्रिलियन अमेरिकी डॉलर था। Google, मेटा और कई अच्छी तरह से वित्त पोषित एशियाई AI स्टार्टअप सभी एक ही उद्यम बाजार के लिए प्रतिस्पर्धा कर रहे हैं।
यह पैसे जलाने वाली हथियारों की दौड़ है जिसमें कोई भी रुकने और सांस लेने की हिम्मत नहीं करता।
पिचबुक विश्लेषक हैरिसन रॉल्फ्स ने इस बारे में बहुत वास्तविक बात कही। उनके कहने का मतलब यह है कि केवल मूल्यांकन और राजस्व जैसे सतही आंकड़ों पर ध्यान न दें। उन सभी को पैसा जलाकर ढेर किया जा सकता है।वास्तव में महत्वपूर्ण संख्या सकल लाभ मार्जिन है, जो कि कंपनी द्वारा अर्जित प्रत्येक डॉलर के लिए बिजली और बिजली बिल की गणना जैसी प्रत्यक्ष लागतों में कटौती के बाद कितना पैसा बचता है। यह संख्या अब तक बाहरी दुनिया ने कभी नहीं देखी है। यदि सकल लाभ मार्जिन बदसूरत है, तो चाहे राजस्व कितना भी अधिक हो, यह केवल नुकसान में ही पैसा बनाएगा।
इसलिए, 2026 में एआई कंपनियों की इस लहर की लिस्टिंग या तो इंटरनेट बुलबुले के बाद से सबसे सफल पूंजी दावत बन जाएगी, या यह सार्वजनिक बाजार में निवेशकों के लिए एक नकारात्मक शिक्षण सामग्री बन जाएगी, यह याद रखने के लिए कि किताबों को देखे बिना सिर्फ कहानी सुनना कितना महंगा है।
इस वाक्य का उपपाठ यह है कि वॉल स्ट्रीट राजस्व की तीव्र वृद्धि से आसानी से प्रभावित नहीं होगा। वे यह देखने के लिए वित्तीय रिपोर्टों को परत-दर-परत उतारेंगे कि प्रत्येक डॉलर के राजस्व के पीछे कितनी कंप्यूटिंग शक्ति खर्च होती है। सकल लाभ मार्जिन यह जांचने के लिए प्रमुख संकेतक है कि एआई कंपनी एक तकनीकी चमत्कार है या पूंजी ब्लैक होल है। सार्वजनिक बाज़ार क्रूर हैं।
निष्कर्ष
गेंद अब बाहर है.सॉनेट 5 की असली परीक्षा रिलीज़ के दिन बेंचमार्क चार्ट में नहीं, बल्कि अगले महीनों में बिलिंग और रिटेंशन दरों में होगी।क्या डेवलपर्स ने वास्तव में अपने दैनिक वर्कफ़्लो को स्थानांतरित कर दिया है? जब उन्हें महीने के अंत में अपना बिल मिलता है, तो क्या वे सिर हिलाते हैं या भौंहें सिकोड़ते हैं? ये ही वे लोग हैं जो मायने रखते हैं।
इसे तोड़कर, तीन चर हैं जो उत्तर निर्धारित करेंगे।
सबसे पहले एजेंट की विश्वसनीयता है.बेंचमार्क परीक्षण क्षमता सीमा का परीक्षण करता है, लेकिन उत्पादन वातावरण दीर्घकालिक स्थिरता का परीक्षण करता है। हजारों डेवलपर्स द्वारा अपने स्वयं के अराजक और अप्रत्याशित परिदृश्यों में चलना शुरू करने के बाद, क्या सॉनेट 5 श्रृंखला से बाहर हो जाएगा, यह प्रयोगशाला में कितने उच्च स्कोर पर चलता है, इसकी तुलना में अधिक महत्वपूर्ण है।
दूसरा, टोकनाइज़र में छिपा हुआ बिल वैरिएबल है।यदि कॉर्पोरेट ग्राहक अपने व्यावसायिक परिदृश्यों के आधार पर लागत की गणना नहीं करते हैं और केवल प्रत्येक टोकन की विज्ञापित इकाई कीमत को देखते हैं और सोचते हैं कि यह सस्ता है, तो जब छूट की अवधि समाप्त होती है, तो वास्तविक बिल चौंकाने वाला हो सकता है।
तीसरा वेरिएबल अधिक दिलचस्प है.यह मानते हुए कि सॉनेट 5 वास्तव में सफल है, डेवलपर्स बड़े पैमाने पर पलायन करते हैं, और उद्यम ग्राहक भी इसे उत्पादन प्रक्रिया में डालते हैं, आगे क्या होगा?
ओपस की स्थिति अजीब हो जाएगी. यदि अधिकांश परिदृश्यों में सॉनेट पहले से ही बहुत कम लागत पर पर्याप्त प्रदर्शन प्रदान कर सकता है, तो ओपस को कॉल करने के लिए दोगुने से अधिक पैसे खर्च करने को कौन तैयार होगा?उस समय, एंथ्रोपिक को अपनी ही सफलता से पलटवार किया जा सकता है। सॉनेट जितना बेहतर बेचेगा, ओपस की बिक्री उतनी ही अधिक कम हो जाएगी, और ओपस उच्च सकल लाभ वाली उत्पाद श्रृंखला है।
या तो कीमतें कम करने और लाभ मार्जिन को कम करने के लिए पहल करें, या ग्राहकों को उच्च कीमत वाले उत्पादों से कम कीमत वाले उत्पादों की ओर प्रवाहित होते देखें। किसी भी रास्ते पर चलना आसान नहीं है.
एंथ्रोपिक का दांव इस बार दोनों अंतों के ठीक बीच में है।
यह एक ऐसा मॉडल लेकर आया है जिसका प्रदर्शन फ्लैगशिप के करीब है, लेकिन कीमत को बड़े पैमाने पर बढ़ाया जा सकता है। यह एक बात साबित करना चाहता है: अत्याधुनिक क्षमताएं न केवल सबसे महंगे फ्लैगशिप स्तर पर रह सकती हैं, बल्कि बुनियादी ढांचा भी बन सकती हैं जिसका उपयोग उद्यम हर दिन कर सकते हैं और साथ ही पैसा भी कमा सकते हैं।
जब एंथ्रोपिक वास्तव में सार्वजनिक बाजार में आता है, तो निवेशक जवाब देंगे: क्या यह "फ्लैगशिप के करीब, कीमत में गिरावट" मार्ग एक ट्रिलियन डॉलर के करीब की कहानी का समर्थन कर सकता है।