कियानवेन क्वेन-इमेज-2.0 ने सुपर टेक्स्ट रेंडरिंग इन्फोग्राफिक पीपीटी जारी किया, जिसे बनाना आसान है

आज, अलीबाबा ने आधिकारिक तौर पर नई पीढ़ी का छवि निर्माण और संपादन मॉडल क्वेन-इमेज-2.0 जारी किया।कियानवेन के बड़े मॉडल के छवि निर्माण मॉडल आधार के रूप में, क्वेन-इमेज-2.0 छवि निर्माण और संपादन को एकीकृत करता है। इसने एआई एरिना इमेज जेनरेशन मूल्यांकन में 1029 अंक हासिल किए, जो कि सीड्रीम4.5 और फ्लक्स2-मैक्स जैसे मॉडलों को पीछे छोड़ देता है, और Google नैनो बनाना प्रो और जीपीटी इमेज1.5 के बाद दूसरे स्थान पर है।

क्वेन-इमेज-2.0 1K टोकन अल्ट्रा-लॉन्ग टेक्स्ट इनपुट और 2K हाई रेजोल्यूशन को सपोर्ट करता है। यह जटिल निर्देशों को सटीकता से प्रस्तुत कर सकता है और आसानी से पेशेवर पीपीटी और इन्फोग्राफिक्स उत्पन्न कर सकता है। गुणवत्ता पेशेवर फोटोग्राफरों के बराबर है। साथ ही, क्वेन-इमेज-2.0 में बेहद मजबूत चीनी चरित्र प्रतिपादन क्षमताएं हैं, और सैकड़ों प्राचीन ग्रंथों का पूरा पाठ लगभग पूरी तरह से चित्र में प्रस्तुत किया जा सकता है।

क्वेन-इमेज-2.0, क्वेन-इमेज और क्वेन-इमेज-एडिट के दो प्रमुख मॉडलों पर आधारित एक नया अपग्रेड है। पहली बार, छवि निर्माण और संपादन को एक मॉडल में एकीकृत किया गया है। हल्के मॉडल आर्किटेक्चर के साथ, छवि निर्माण और छवि संशोधन के प्रदर्शन में काफी सुधार हुआ है।

क्वेन-इमेज-2.0 की उत्पन्न छवियों की बनावट विशेष रूप से नाजुक है, जिसमें एक बूढ़े आदमी की झुर्रियों से लेकर ब्रह्मांड की विशालता तक शामिल है। मॉडल द्वारा उत्पन्न लोगों, प्रकृति, इमारतों आदि की आम तौर पर उपयोग की जाने वाली छवियां बेहद सजीव होती हैं।

आधिकारिक मूल्यांकन एआई एरिना में, कियानवेन के नए मॉडल ने छवि निर्माण में 1029 स्कोर किया, तीसरे स्थान पर; चित्र संपादन में इसे 1034 अंक प्राप्त हुए, जो नैनो बनाना प्रो के बाद दूसरे स्थान पर है।

चीनी चरित्र प्रतिपादन के संदर्भ में, क्वेन-इमेज-2.0 बहुत अच्छा प्रदर्शन करता है। यह न केवल विभिन्न प्रकार के फोंट में चीनी अक्षरों को सटीक रूप से प्रस्तुत कर सकता है, बल्कि कई और सटीक रूप से लिख भी सकता है, और प्रभाव नैनो बनाना प्रो से बेहतर है।

कियानवेन का नया मॉडल इनपुट प्रॉम्प्ट शब्दों को 1K टोकन तक विस्तारित करता है, जो कार्यों का विस्तार से वर्णन कर सकता है, अधिक पेशेवर टेक्स्ट रेंडरिंग प्राप्त कर सकता है, और पेशेवर पीपीटी, उन्नत पोस्टर और मल्टी-फ्रेम कॉमिक्स जैसी जटिल छवियों को आसानी से संभाल सकता है। उदाहरण के लिए, "द प्रीफेस टू द लैंटिंग कलेक्शन" के पूर्ण-पाठ चित्रण के सैकड़ों शब्द लगभग पूरी तरह से छोटे नियमित स्क्रिप्ट फ़ॉन्ट में प्रस्तुत किए गए हैं, और निबंध प्रारूप चित्रण के साथ जटिल पीपीटी प्राकृतिक भाषा में तैयार किए गए हैं।

क्वेन-इमेज-2.0 मॉडल के आधार पर, उपयोगकर्ता समृद्ध और अधिक व्यावहारिक चित्र बनाने के लिए एआई के साथ सहयोग कर सकते हैं, जैसे एक वाक्य में कुंग पाओ चिकन बनाने के लिए फ्लो चार्ट, हांग्जो के लिए दो दिवसीय यात्रा गाइड, एक 4x6 मल्टी-फ्रेम कॉमिक समूह चित्र, बच्चों की चित्र पुस्तक चित्र, एक यथार्थवादी शैली की फिल्म का पोस्टर, एक अत्यंत यथार्थवादी हरा जंगल, आदि;

साथ ही, उपयोगकर्ता कई इशारों के साथ सेल्फी, वास्तविक लोगों के साथ इमोटिकॉन्स, दो लोगों की यथार्थवादी एआई तस्वीरें, चित्रों के साथ कविताएं आदि बनाने के लिए संपादन के लिए कई तस्वीरें भी अपलोड कर सकते हैं।