सिंगापुर की राष्ट्रीय कृत्रिम बुद्धिमत्ता पहल (एआईएसजी) एक महत्वपूर्ण रणनीतिक बदलाव की शुरुआत कर रही है।अपने नवीनतम दक्षिणपूर्व एशियाई भाषा के बड़े मॉडल प्रोजेक्ट में, एआईएसजी ने मेटा के मॉडल को छोड़ दिया और इसके बजाय अलीबाबा के क्वेन ओपन सोर्स आर्किटेक्चर को अपनाया। यह विकल्प न केवल तकनीकी मार्ग पर पुनर्विचार को दर्शाता है, बल्कि चीन के ओपन सोर्स एआई मॉडल के वैश्विक प्रभाव के विस्तार में एक महत्वपूर्ण कदम भी दर्शाता है।

25 नवंबर को, एआईएसजी ने क्वेन आर्किटेक्चर पर आधारित "क्यूवेन-एसईए-एलआईओएन-वी4" मॉडल जारी किया, जो दक्षिण पूर्व एशिया में भाषा दक्षता को मापने वाली एक ओपन सोर्स सूची में सबसे ऊपर है। इस कदम का उद्देश्य उस भाषा अनुकूलन समस्या को हल करना है जिसने इस क्षेत्र को लंबे समय से परेशान कर रखा है——मेटा की लामा श्रृंखला द्वारा प्रस्तुत पश्चिमी ओपन सोर्स मॉडल, इंडोनेशियाई, थाई और मलय जैसी क्षेत्रीय भाषाओं के साथ काम करते समय खराब प्रदर्शन करते हैं, जो स्थानीयकृत एआई अनुप्रयोगों की विकास दक्षता को गंभीर रूप से प्रतिबंधित करता है।

हालांकि ओपन सोर्स मॉडलों में लामा का प्रदर्शन अग्रणी है, लेकिन इसके "अंग्रेजी-केंद्रित" अंतर्निहित डिज़ाइन को मौलिक रूप से बदलना मुश्किल है और थाई और बर्मीज़ जैसी गैर-लैटिन लिपियों को संसाधित करते समय यह बेहद अक्षम है। एआईएसजी ने धीरे-धीरे महसूस किया है कि सिलिकॉन वैली के ओपन सोर्स मॉडल पर भरोसा करना दक्षिण पूर्व एशियाई देशों के लिए इष्टतम समाधान नहीं है, और इसे ऐसे बुनियादी मॉडल की तलाश करनी चाहिए जिनमें वास्तव में बहु-भाषा समझने की क्षमता हो, खासकर एशियाई भाषा संदर्भ।


इस पृष्ठभूमि के खिलाफ, AISG ने आखिरकार अपना ध्यान चीन की ओर लगाया और नई पीढ़ी के सी-लायन मॉडल के आधार के रूप में अलीबाबा के Qwen3-32B को चुना।

पश्चिमी मॉडलों से अलग, Qwen3 प्री-ट्रेनिंग चरण में 36 ट्रिलियन टोकन डेटा का उपयोग करता है, जो दुनिया भर की 119 भाषाओं और बोलियों को कवर करता है।यह "मूल बहुभाषी क्षमता" न केवल इंडोनेशियाई, मलय और अन्य वर्णों को "पहचानती" है, बल्कि उनकी व्याकरणिक संरचना को भी नीचे से समझती है, जो एआईएसजी के बाद के प्रशिक्षण के लिए तकनीकी सीमा को काफी कम कर देती है।

दक्षिण पूर्व एशियाई भाषाओं की अनूठी लेखन आदतों को बेहतर ढंग से अपनाने के लिए, क्वेन-सी-लायन-v4 आमतौर पर पश्चिमी मॉडलों में उपयोग किए जाने वाले "वाक्य टोकननाइज़र" को छोड़ देता है और इसके बजाय एक अधिक उन्नत बाइट जोड़ी एन्कोडिंग (बीपीई) टोकननाइज़र को अपनाता है। यह तकनीक थाई और बर्मीज़ जैसी भाषाओं में बिना रिक्त स्थान के वर्णों को अधिक सटीक रूप से विभाजित कर सकती है, जिससे अनुवाद सटीकता और तर्क गति में काफी सुधार होता है।

तकनीकी लाभ के अलावा, व्यावसायिक कार्यान्वयन के लिए व्यावहारिक विचार भी अलीबाबा की सफलता की कुंजी हैं। दक्षिण पूर्व एशिया में बड़ी संख्या में छोटे और मध्यम आकार के उद्यम हैं जो महंगे H100 GPU क्लस्टर नहीं खरीद सकते।अनुकूलित क्वेन-सी-लायन-v4 32GB मेमोरी से लैस उपभोक्ता-ग्रेड लैपटॉप पर आसानी से चल सकता है, जिससे सामान्य डेवलपर्स इस राष्ट्रीय स्तर के मॉडल को स्थानीय स्तर पर तैनात कर सकते हैं। "औद्योगिक-स्तर की क्षमताओं और उपभोक्ता-स्तर की सीमा" की यह विशेषता क्षेत्र में दुर्लभ कंप्यूटिंग संसाधनों के दर्द बिंदु पर सटीक रूप से फिट बैठती है।

यह सहयोग एकतरफा प्रौद्योगिकी आउटपुट नहीं है, बल्कि गहरा दोतरफा एकीकरण है। समझौते के अनुसार, अलीबाबा एक शक्तिशाली सार्वभौमिक तर्क आधार प्रदान करता है, और एआईएसजी अपने शुद्ध 100 बिलियन दक्षिण पूर्व एशियाई भाषा टोकन का योगदान देता है। ये डेटा पूरी तरह से कॉपीराइट जोखिमों से बचते हैं, और दक्षिण पूर्व एशियाई सामग्री की सांद्रता 13% तक है, जो कि Llama2 की तुलना में 26 गुना अधिक है।

सी-हेल्म मूल्यांकन सूची में, अलीबाबा की मुख्य तकनीक से लैस सी-लायन v4 इस रणनीतिक सहयोग के तकनीकी मूल्य और क्षेत्रीय अनुकूलनशीलता की पुष्टि करते हुए, समान परिमाण के ओपन सोर्स मॉडल की सूची में तेजी से शीर्ष पर रहा।