एलएलएम रैंकिंग अपडेट: गूगल बार्ड ने जीपीटी-4 को पीछे छोड़ा, चीनी खिलाड़ी शीर्ष दस में नहीं

आज, Google Bard की रैंकिंग Imsys की LLM क्वालीफाइंग प्रतियोगिता में GPT-4 से आगे निकल गई और सीधे दूसरे स्थान पर पहुंच गई।(लेकिन OpenAI के नवीनतम GPT-4Turbo मॉडल से अधिक नहीं): इस अच्छी चीज़ का सामना करते समय, Google के मुख्य वैज्ञानिक जेफ डीन निश्चित रूप से "दिखावा" करने और अपना खुद का जेमिनीप्रो मॉडल लाने वाले पहले व्यक्ति थे।

रैंकिंग परिचय

यह एलएलएम रैंकिंग (चैटबॉटएरेना बेंचमार्क प्लेटफॉर्म) यूसी बर्कले शोधकर्ताओं के नेतृत्व वाले एलएमएसवाईएस (लार्ज मॉडल सिस्टम्स ऑर्गनाइजेशन) संगठन द्वारा शुरू की गई थी। एलएलएम के बीच यादृच्छिक और अज्ञात 1V1बैटल के माध्यम से एलो रेटिंग प्रणाली के आधार पर रैंकिंग प्राप्त की जाती है।

जैसा कि नीचे दिए गए चित्र में दिखाया गया है, आप कोई भी प्रश्न पूछ सकते हैं। बाईं ओर मॉडल ए का उत्तर है, और दाईं ओर मॉडल बी का उत्तर है। फिर आप दोनों मॉडलों के उत्तरों का मूल्यांकन कर सकते हैं। कुल मिलाकर चार विकल्प हैं: "ए बेहतर है; बी बेहतर है; ए, बी जितना अच्छा है; ए, बी जितना बुरा है।" यदि आप चैट के एक दौर में निर्णय नहीं ले सकते हैं, तो आप तब तक चैट करना जारी रख सकते हैं जब तक आप वह नहीं चुन लेते जो आपको बेहतर लगता है, लेकिन यदि चैट के दौरान बड़े मॉडल की पहचान उजागर हो जाती है, तो वोट नहीं गिना जाएगा।

नीचे दिया गया आंकड़ा मॉडल बी के खिलाफ खेलते समय मॉडल ए की जीत (ड्रॉ को छोड़कर) की संभावना का आनुपातिक वितरण दिखाता है:

नीचे दिया गया आंकड़ा प्रत्येक मॉडल संयोजन के लिए लड़ाइयों की संख्या दिखाता है (कोई संबंध नहीं))

नीचे दिया गया ग्राफ़ अन्य सभी मॉडलों के सापेक्ष एकल मॉडल की औसत जीत दर दर्शाता है:

सूची में OpenAI का दबदबा है, लेकिन चीनी खिलाड़ी शीर्ष दस में नहीं हैं

नीचे दी गई तस्वीर सूची में वर्तमान शीर्ष 10 रैंकिंग दिखाती है। यह देखा जा सकता है कि जीपीटी-श्रृंखला मॉडल में अभी भी पूर्ण लाभ है (शीर्ष चार में से तीन), जबकि एंथ्रोपिक के क्लाउड श्रृंखला मॉडल शीर्ष दस में से तीन पर हैं। ओपनएआई का यूरोपीय संस्करण होने का दावा करने वाली कंपनी मिस्ट्रल के भी इस बार शीर्ष दस में दो मॉडल हैं।

इसके अलावा, कृपया ऊपर चित्र में सबसे दाहिने कॉलम को देखें।शीर्ष 10 मॉडलों में से 9 बंद स्रोत निजी मॉडल हैं, जो दर्शाता है कि ओपन सोर्स मॉडल को अभी भी रास्ता तय करना है।

यह अफ़सोस की बात है कि चीनी खिलाड़ियों का बड़ा भाषा मॉडल शीर्ष दस में प्रवेश नहीं कर सका।

उनमें से, सर्वोच्च रैंकिंग वाला मॉडल काई-फू ली की स्टार्टअप कंपनी ज़ीरो-वन के स्वामित्व वाला यी-34बी-चैट मॉडल है, जो 13वीं रैंकिंग पर है।

इसके बाद अलीबाबा का टोंगी कियानवेन क्वेन-14बी-चैट मॉडल आया, जो 36वें स्थान पर है:

फिर सिंघुआ प्रोफेसर तांग जी की स्टार्टअप कंपनी झिपु एआई का चैटजीएलएम श्रृंखला मॉडल है:

तीन बिंदुओं को समझाने की जरूरत है:

1. प्रमुख चीनी निर्माताओं द्वारा विकसित कई मॉडल हैं जो इस सूची में शामिल नहीं हो सकते हैं;

2. यह सूची वैश्विक जनता के लिए है, अब तक अधिक उपयोगकर्ता चीनी की तुलना में अंग्रेजी में चैट करना पसंद करते हैं, जो चीनी खिलाड़ियों द्वारा विकसित बड़े भाषा मॉडल के लिए हानिकारक हो सकता है;

3. यह सूची केवल 200,000 उपयोगकर्ताओं के यादृच्छिक प्रश्नों और चैट को गिनती है, जो एलएलएम के साथ चैट करने वाले उपयोगकर्ताओं के वास्तविक मूल्यांकन का प्रतिनिधित्व करती है। हालाँकि, उपयोगकर्ताओं के प्रश्नों और व्यावसायिकता की असमानता के कारण, मूल्यांकन में कुछ हद तक व्यक्तिपरकता होती है।

अंत में, Google के बारे में बात करते हैं। ऐसे समय में जब छँटनी हो रही है और वैज्ञानिक व्यवसाय शुरू करने के लिए जा रहे हैं, आंतरिक और बाहरी परेशानियाँ (विवरण के लिए, कृपया Google के क्राइसिस ब्रेकआउट पर जाएँ! वैज्ञानिक व्यवसाय शुरू करने के लिए जा रहे हैं, कर्मचारियों को निकाला जा रहा है...), क्या Google 24 वर्षों में "एम्पायर स्ट्राइक्स बैक" पूरा कर सकता है?

देखो और इंतजार करो!