27 अक्टूबर को, मीटुआन ने आधिकारिक तौर पर घोषणा की कि मीटुआन लॉन्गकैट टीम ने आधिकारिक तौर पर लॉन्गकैट-वीडियो वीडियो जेनरेशन मॉडल जारी किया है। यह मॉडल डिफ्यूजन ट्रांसफार्मर आर्किटेक्चर पर आधारित है और वेन्शेंग वीडियो, तुशेंग वीडियो और वीडियो निरंतरता के तीन मुख्य कार्यों का समर्थन कर सकता है, और ओपन सोर्स मॉडल के बीच उन्नत स्तर तक पहुंचने का दावा करता है।

रिपोर्ट्स के मुताबिक, लॉन्गकैट-वीडियो 720p रेजोल्यूशन और 30 फ्रेम रेट के साथ हाई-डेफिनिशन वीडियो जेनरेट कर सकता है। इसकी उत्कृष्ट विशेषता यह है कि यह मूल रूप से 5 मिनट तक की सुसंगत वीडियो सामग्री उत्पन्न कर सकता है। वीडियो निरंतरता पूर्व-प्रशिक्षण, विरल ध्यान को अवरुद्ध करने और अन्य तंत्रों के माध्यम से, मॉडल का लक्ष्य लंबी वीडियो पीढ़ी में चित्र टूटने और गुणवत्ता में गिरावट जैसी सामान्य समस्याओं को हल करना है, और समय की स्थिरता और गति तर्कसंगतता को बनाए रखना है।
दक्षता के संदर्भ में, मॉडल दो-चरणीय पीढ़ी, ब्लॉक विरल ध्यान और मॉडल आसवन जैसी तकनीकों का उपयोग करता है। अधिकारियों के अनुसार, अनुमान की गति 10 गुना से अधिक बढ़ गई है। मॉडल मापदंडों की संख्या 13.6 बिलियन है, और इसने VBench जैसे सार्वजनिक परीक्षणों में मजबूत पाठ संरेखण और गति सुसंगतता दिखाई है।
"विश्व मॉडल" बनाने के तकनीकी प्रयास के रूप में, लॉन्गकैट-वीडियो को उन परिदृश्यों पर लागू किया जा सकता है जिनके लिए भविष्य में स्वायत्त ड्राइविंग सिमुलेशन और सन्निहित बुद्धिमत्ता जैसे दीर्घकालिक मॉडलिंग की आवश्यकता होती है। इस मॉडल का जारी होना वीडियो निर्माण और भौतिक विश्व सिमुलेशन के क्षेत्र में मितुआन के लिए एक महत्वपूर्ण कदम है।