आज, Google Bard की रैंकिंग Imsys की LLM क्वालीफाइंग प्रतियोगिता में GPT-4 से आगे निकल गई और सीधे दूसरे स्थान पर पहुंच गई।(लेकिन OpenAI के नवीनतम GPT-4Turbo मॉडल से अधिक नहीं): इस अच्छी चीज़ का सामना करते समय, Google के मुख्य वैज्ञानिक जेफ डीन निश्चित रूप से "दिखावा" करने और अपना खुद का जेमिनीप्रो मॉडल लाने वाले पहले व्यक्ति थे।



रैंकिंग परिचय

यह एलएलएम रैंकिंग (चैटबॉटएरेना बेंचमार्क प्लेटफॉर्म) यूसी बर्कले शोधकर्ताओं के नेतृत्व वाले एलएमएसवाईएस (लार्ज मॉडल सिस्टम्स ऑर्गनाइजेशन) संगठन द्वारा शुरू की गई थी। एलएलएम के बीच यादृच्छिक और अज्ञात 1V1बैटल के माध्यम से एलो रेटिंग प्रणाली के आधार पर रैंकिंग प्राप्त की जाती है।

जैसा कि नीचे दिए गए चित्र में दिखाया गया है, आप कोई भी प्रश्न पूछ सकते हैं। बाईं ओर मॉडल ए का उत्तर है, और दाईं ओर मॉडल बी का उत्तर है। फिर आप दोनों मॉडलों के उत्तरों का मूल्यांकन कर सकते हैं। कुल मिलाकर चार विकल्प हैं: "ए बेहतर है; बी बेहतर है; ए, बी जितना अच्छा है; ए, बी जितना बुरा है।" यदि आप चैट के एक दौर में निर्णय नहीं ले सकते हैं, तो आप तब तक चैट करना जारी रख सकते हैं जब तक आप वह नहीं चुन लेते जो आपको बेहतर लगता है, लेकिन यदि चैट के दौरान बड़े मॉडल की पहचान उजागर हो जाती है, तो वोट नहीं गिना जाएगा।


नीचे दिया गया आंकड़ा मॉडल बी के खिलाफ खेलते समय मॉडल ए की जीत (ड्रॉ को छोड़कर) की संभावना का आनुपातिक वितरण दिखाता है:


नीचे दिया गया आंकड़ा प्रत्येक मॉडल संयोजन के लिए लड़ाइयों की संख्या दिखाता है (कोई संबंध नहीं))


नीचे दिया गया ग्राफ़ अन्य सभी मॉडलों के सापेक्ष एकल मॉडल की औसत जीत दर दर्शाता है:


सूची में OpenAI का दबदबा है, लेकिन चीनी खिलाड़ी शीर्ष दस में नहीं हैं

नीचे दी गई तस्वीर सूची में वर्तमान शीर्ष 10 रैंकिंग दिखाती है। यह देखा जा सकता है कि जीपीटी-श्रृंखला मॉडल में अभी भी पूर्ण लाभ है (शीर्ष चार में से तीन), जबकि एंथ्रोपिक के क्लाउड श्रृंखला मॉडल शीर्ष दस में से तीन पर हैं। ओपनएआई का यूरोपीय संस्करण होने का दावा करने वाली कंपनी मिस्ट्रल के भी इस बार शीर्ष दस में दो मॉडल हैं।


इसके अलावा, कृपया ऊपर चित्र में सबसे दाहिने कॉलम को देखें।शीर्ष 10 मॉडलों में से 9 बंद स्रोत निजी मॉडल हैं, जो दर्शाता है कि ओपन सोर्स मॉडल को अभी भी रास्ता तय करना है।

यह अफ़सोस की बात है कि चीनी खिलाड़ियों का बड़ा भाषा मॉडल शीर्ष दस में प्रवेश नहीं कर सका।

उनमें से, सर्वोच्च रैंकिंग वाला मॉडल काई-फू ली की स्टार्टअप कंपनी ज़ीरो-वन के स्वामित्व वाला यी-34बी-चैट मॉडल है, जो 13वीं रैंकिंग पर है।


इसके बाद अलीबाबा का टोंगी कियानवेन क्वेन-14बी-चैट मॉडल आया, जो 36वें स्थान पर है:


फिर सिंघुआ प्रोफेसर तांग जी की स्टार्टअप कंपनी झिपु एआई का चैटजीएलएम श्रृंखला मॉडल है:


तीन बिंदुओं को समझाने की जरूरत है:

1. प्रमुख चीनी निर्माताओं द्वारा विकसित कई मॉडल हैं जो इस सूची में शामिल नहीं हो सकते हैं;

2. यह सूची वैश्विक जनता के लिए है, अब तक अधिक उपयोगकर्ता चीनी की तुलना में अंग्रेजी में चैट करना पसंद करते हैं, जो चीनी खिलाड़ियों द्वारा विकसित बड़े भाषा मॉडल के लिए हानिकारक हो सकता है;


3. यह सूची केवल 200,000 उपयोगकर्ताओं के यादृच्छिक प्रश्नों और चैट को गिनती है, जो एलएलएम के साथ चैट करने वाले उपयोगकर्ताओं के वास्तविक मूल्यांकन का प्रतिनिधित्व करती है। हालाँकि, उपयोगकर्ताओं के प्रश्नों और व्यावसायिकता की असमानता के कारण, मूल्यांकन में कुछ हद तक व्यक्तिपरकता होती है।

अंत में, Google के बारे में बात करते हैं। ऐसे समय में जब छँटनी हो रही है और वैज्ञानिक व्यवसाय शुरू करने के लिए जा रहे हैं, आंतरिक और बाहरी परेशानियाँ (विवरण के लिए, कृपया Google के क्राइसिस ब्रेकआउट पर जाएँ! वैज्ञानिक व्यवसाय शुरू करने के लिए जा रहे हैं, कर्मचारियों को निकाला जा रहा है...), क्या Google 24 वर्षों में "एम्पायर स्ट्राइक्स बैक" पूरा कर सकता है?

देखो और इंतजार करो!