डीपसीक ने गिटहब पर एक मल्टी-मोडल रीजनिंग मॉडल और तकनीकी रिपोर्ट जारी की, जिसका शीर्षक है "थिंकिंग विद विजुअल प्रिमिटिव्स (विजुअल प्रिमिटिव्स के साथ सोच)"।यह मॉडल डीपसीक वी4-फ्लैश (284बी कुल पैरामीटर, अनुमान के दौरान सक्रिय 13बी एमओई आर्किटेक्चर) के आधार पर बनाया गया है, और एक नए मल्टी-मोडल रीजनिंग प्रतिमान का प्रस्ताव करता है।


पेपर बताता है कि एक बुनियादी अड़चन है जिसे मौजूदा बड़े मल्टी-मोडल मॉडल में नजरअंदाज कर दिया गया है: "रेफरेंस गैप", यानी, मॉडल चित्र की सामग्री को "देख" सकता है, लेकिन तर्क प्रक्रिया के दौरान एक विचार श्रृंखला बनाने के लिए प्राकृतिक भाषा का उपयोग करते समय, केंद्र के पास बाईं ओर बड़ी लाल वस्तु जैसे अस्पष्ट विवरण घने दृश्य में दृश्य वस्तु का सटीक रूप से पता नहीं लगा सकते हैं, जिससे ध्यान भटक जाता है और गलत निष्कर्ष निकलते हैं।

पहले, अकादमिक समुदाय में मुख्यधारा की प्रतिक्रिया अवधारणात्मक संकल्प में सुधार करना था, लेकिन पेपर का मानना ​​​​है कि जो कहा जा रहा है उसे देखना और स्पष्ट रूप से बताने में सक्षम होना दो अलग-अलग चीजें हैं।

इस मॉडल का मुख्य नवाचार बिंदु निर्देशांक और बाउंडिंग बॉक्स को तर्क प्रक्रिया में ही एम्बेड करना है, जिससे वे सोच श्रृंखला की मूल इकाई बन जाते हैं। हर बार जब मॉडल अनुमान के दौरान किसी दृश्य वस्तु का उल्लेख करता है, तो उसके निर्देशांक समकालिक रूप से आउटपुट होते हैं।

उदाहरण के लिए, "एक भालू को ढूंढें [452, 23, 804, 411], जो एक पेड़ पर चढ़ रहा है, उसे बाहर निकालें, नीचे बाईं ओर देखें, और एक और भालू [50, 447, 647, 771] को ढूंढें, जो चट्टान के किनारे पर खड़ा है, शर्तों को पूरा कर रहा है।" निर्देशांक अब तथ्य के बाद चिह्नित उत्तर नहीं हैं, बल्कि तर्क प्रक्रिया के दौरान अस्पष्टता को खत्म करने के लिए स्थानिक एंकर हैं।


वास्तुशिल्प स्तर पर, मॉडल 7056 बार दृश्य संपीड़न प्राप्त करता है। 756×756 छवि को वीआईटी द्वारा 2916 छवि ब्लॉक टोकन उत्पन्न करने के लिए संसाधित किया जाता है, जिन्हें 3×3 स्थानिक संपीड़न के माध्यम से 324 टोकन में विलय कर दिया जाता है। केवी कैश को कंप्रेस्ड स्पार्स अटेंशन (सीएसए) तंत्र के माध्यम से 4 बार संपीड़ित किया जाता है, जिससे केवल 81 दृश्य केवी प्रविष्टियां बचती हैं।

संदर्भ के रूप में, समान आकार के चित्र क्लाउड सॉनेट 4.6 के लिए लगभग 870 की आवश्यकता होती है, और जेमिनी-3-फ्लैश के लिए लगभग 1100 की आवश्यकता होती है।

प्रशिक्षण डेटा के संदर्भ में, टीम ने लगभग 100,000 लक्ष्य पहचान डेटा सेटों से लगभग 31,700 उच्च-गुणवत्ता वाले डेटा स्रोतों की जांच की और 40 मिलियन से अधिक प्रशिक्षण नमूने तैयार किए, जिसमें चार प्रकार के कार्य शामिल थे: गिनती, स्थानिक तर्क, भूलभुलैया नेविगेशन और पथ ट्रैकिंग।

प्रशिक्षण के बाद पहले विशेषज्ञता और फिर एकीकरण रणनीति अपनाई जाती है, और क्रमशः बाउंडिंग बॉक्स और पॉइंट समन्वय के दो विशेषज्ञ मॉडल को प्रशिक्षित किया जाता है। सुदृढीकरण सीखने द्वारा अनुकूलन के बाद, उन्हें ऑनलाइन नीति आसवन के माध्यम से एक एकीकृत मॉडल में विलय कर दिया जाता है।

प्रयोगात्मक परिणामों की तुलना 11 बेंचमार्क परीक्षणों पर जेमिनी-3-फ्लैश, जीपीटी-5.4 और क्लाउड सॉनेट 4.6 जैसे मुख्यधारा मॉडल के साथ की गई थी।


गिनती कार्य पर, पिक्समो-काउंट ने 89.2% का सटीक मिलान स्कोर हासिल किया, जो जेमिनी-3-फ्लैश के 88.2% से अधिक है, और जीपीटी-5.4 के 76.6% और क्लाउड सॉनेट 4.6 के 68.7% से काफी आगे है।

टोपोलॉजिकल तर्क में सबसे अधिक प्रतिनिधि अंतर दिखाई देता है: भूलभुलैया नेविगेशन स्कोर 66.9% है, जीपीटी-5.4 50.6% है, जेमिनी-3-फ्लैश 49.4% है, क्लाउड सॉनेट 4.6 48.9% है, लगभग 17 प्रतिशत अंकों की वृद्धि; पथ ट्रैकिंग स्कोर 56.7% है, GPT-5.4 46.5% है।

हालाँकि, पेपर वर्तमान सीमाओं को भी इंगित करता है: दृश्य आदिम तंत्र को सक्षम करने के लिए मॉडल को एक स्पष्ट ट्रिगर शब्द की आवश्यकता होती है, बेहद बारीक दृश्यों में समन्वय सटीकता सीमित है, और क्रॉस-सीन सामान्यीकरण क्षमताओं में सुधार की अभी भी गुंजाइश है।