हुआज़होंग यूनिवर्सिटी ऑफ साइंस एंड टेक्नोलॉजी ने आधिकारिक तौर पर एक बयान जारी कर कहा कि स्कूल के सॉफ्टवेयर स्कूल की एक टीम ने मल्टी-मॉडल बड़े मॉडल "मंकी" को जारी किया।यह मॉडल छवि विवरण और दृश्य प्रश्न और उत्तर में अच्छा है, और दुनिया का "अवलोकन" कर सकता है, गहन प्रश्न और उत्तर संचार कर सकता है और चित्रों का सटीक वर्णन कर सकता है।


आधिकारिक परिचय के अनुसार, 18 डेटा सेटों पर प्रयोगों में, ह्यूके यूनिवर्सिटी मंकी मॉडल ने विशेष रूप से अच्छा प्रदर्शन कियाछवि विवरण और दृश्य प्रश्न और उत्तर कार्यों के मामले में, इसने कई मौजूदा प्रसिद्ध मॉडलों जैसे कि माइक्रोसॉफ्ट के LLAVA, Google के PALM-E, अलीबाबा के Mplug-owl, आदि को पीछे छोड़ दिया है।

भी,बंदर पाठ-गहन प्रश्न और उत्तर कार्यों में महत्वपूर्ण लाभ दिखाता है, यहाँ तक कि कुछ नमूनों में उद्योग-मान्यता प्राप्त नेता GPT-4V को भी पीछे छोड़ देता है।

बंदर की एक विशिष्ट विशेषता उसकी "तस्वीरों को देखकर बात करने" की उत्कृष्ट क्षमता है। विस्तृत विवरण कार्य में, बंदर ने छवि विवरणों को समझने की अपनी क्षमता का प्रदर्शन किया और उस सामग्री का पता लगाने में सक्षम था जिसे अन्य बड़े मल्टी-मोडल मॉडल ने नजरअंदाज कर दिया था।

एक और मुख्य आकर्षण 1344x896 पिक्सल तक के रिज़ॉल्यूशन वाली छवियों को संसाधित करने की क्षमता है, जो कि वर्तमान में अन्य मल्टी-मोडल बड़े मॉडल द्वारा संभाले जा सकने वाले अधिकतम आकार का 6 गुना है।

यह बताया गया है कि उद्योग द्वारा वर्तमान में संसाधित छवियों का अधिकतम रिज़ॉल्यूशन 448×448 पिक्सेल है।

गौरतलब है कि टीम ने दुनिया के सबसे बड़े कोड होस्टिंग सर्विस प्लेटफॉर्म GitHub पर मंकी कोड को ओपन सोर्स बनाया है।