सर्वर में प्रवेश कर रहा हूँ. क्या RISC-V x86 से प्रतिस्पर्धा कर सकता है?

जैसा कि हम सभी जानते हैं, x86 आर्किटेक्चर प्रोसेसर वर्तमान में पीसी और सर्वर बाजारों पर हावी हैं, जबकि आर्म आर्किटेक्चर प्रोसेसर मोबाइल बाजार पर हावी हैं और IoT बाजार में एक बड़े बाजार हिस्सेदारी पर कब्जा करते हैं। हालाँकि, हाल के वर्षों में, आरआईएससी-वी आर्किटेक्चर इंटरनेट ऑफ थिंग्स क्षेत्र में बहुत लोकप्रिय हो गया है जो ओपन सोर्स, सुव्यवस्थित निर्देश और स्केलेबिलिटी जैसे अपने फायदों के कारण ऊर्जा दक्षता पर ध्यान केंद्रित करता है।

आरआईएससी-वी इंटरनेशनल और संबंधित चिप निर्माताओं द्वारा संचालित, आरआईएससी-वी ने भी उच्च प्रदर्शन आवश्यकताओं के साथ सर्वर बाजार में प्रवेश करना शुरू कर दिया है।

2023 की शुरुआत में, आरआईएससी-वी इंटरनेशनल ने एचपीसी को आरआईएससी-वी विकास के लिए एक रणनीतिक प्राथमिकता वाले क्षेत्र के रूप में पहचाना, और हाल ही में स्वीकृत वेक्टर एक्सटेंशन और प्रमुख एचपीसी पुस्तकालयों और उपकरणों को पोर्ट करने के लिए बड़ी संख्या में एचपीसी सॉफ्टवेयर प्रयासों के साथ मिलकर, यह स्पष्ट है कि इस क्षेत्र में गति तेजी से बढ़ रही है।

दुनिया भर में कई परियोजनाएं, जैसे कि यूरोपीय ईप्रोसेसर परियोजना, हजारों आरआईएससी-वी कोर के साथ एस्पेरांतो सीपीयू, और आरआईएससी-वी के प्रमुख सॉफ्टवेयर घटकों के लिए समर्थन विकसित करने के उद्देश्य से बहु-विक्रेता आरआईएसई परियोजना, एचपीसी सहित उच्च-अंत कंप्यूटिंग में आरआईएससी-वी की लोकप्रियता को बढ़ावा दे सकती है, और अंततः समुदाय को इस तकनीक के आसपास सुपर कंप्यूटर बनाने में सक्षम कर सकती है।

इसके अतिरिक्त, प्रारंभिक अनुप्रयोग अनुसंधान उन लाभों का समर्थन करता है जो आरआईएससी-वी उच्च-प्रदर्शन वाले कार्यभार में ला सकता है।

दिसंबर 2022 में, चिप स्टार्ट-अप वेंटाना माइक्रोसिस्टम्स ने आरआईएससी-वी शिखर सम्मेलन में दुनिया का पहला आरआईएससी-वी आर्किटेक्चर-आधारित 192-कोर सीपीयू-वेरॉनवी1 जारी किया।

रिपोर्टों के अनुसार, VeyronV1 उन्नत 5nm प्रक्रिया प्रौद्योगिकी का उपयोग करता है, जो वेंटाना के स्व-विकसित उच्च-प्रदर्शन RISC-V कोर, 8-पाइपलाइन डिज़ाइन पर आधारित है, आउट-ऑफ-ऑर्डर निष्पादन का समर्थन करता है, 3.6GHz तक की मुख्य आवृत्ति के साथ, प्रत्येक क्लस्टर में 16 कोर तक है, और कई क्लस्टर 192 कोर तक विस्तार का समर्थन कर सकते हैं, 48MB साझा L3 कैश है, उन्नत साइड चैनल अटैक शमन है उपाय, IOMMU और एडवांस्ड इंटरप्ट आर्किटेक्चर (AIA), डेटा सेंटर की विभिन्न आवश्यकताओं को पूरा करने के लिए व्यापक RAS फ़ंक्शंस और टॉप-डाउन सॉफ़्टवेयर प्रदर्शन समायोजन विधियों का समर्थन करता है।

SPECint2017 परीक्षण में वेंटाना द्वारा बताए गए आंकड़ों के अनुसार,300W बिजली की खपत पर, VeyronV1 का 128-कोर संस्करण 64-कोर AMDEPYCMilan7763 (280W) से काफी आगे है, और 64-कोर AWS Graviton G3 (Neoversev1 कोर) और 40-कोर Intel Xeon Ice Lake8380 (270W) से दोगुना शक्तिशाली है। बेशक, यह मुख्य रूप से इस तथ्य के कारण है कि कोर की संख्या प्रतिस्पर्धी उत्पादों की तुलना में दोगुनी तक पहुंच गई है।

यह बताया जाना चाहिए कि VeyronV1 में SIMD या वेक्टर निष्पादन इकाई नहीं है, जो AVX-512 के साथ Intel या AMD सर्वर प्रोसेसर के लिए बहुत नुकसानदेह होगा।

इसके अलावा, VeyronV1 वर्तमान में बड़े पैमाने पर उत्पादन में नहीं है। पहले इस साल की दूसरी या तीसरी तिमाही में ग्राहकों को नमूने उपलब्ध कराने का वादा किया गया था। इसलिए, उपरोक्त आधिकारिक तौर पर घोषित आंकड़े अभी भी कागज पर हैं।

इसके विपरीत, इस साल मार्च में एक घरेलू निर्माता द्वारा लॉन्च किया गया 64-कोर आरआईएससी-वी सर्वर चिप एसजी2042 छोटे बैचों में भेजा गया है।

हाल ही में, विदेशी शोधकर्ता निक ब्राउन ने RAJAPerf बेंचमार्क सूट के माध्यम से इस चिप पर वास्तविक परीक्षण किया और पाया कि नवीनतम व्यापक रूप से उपलब्ध RISC-V चिप्स की तुलना में, प्रति कोर इसका औसत प्रदर्शन 5 से 10 गुना बढ़ गया है। हालाँकि, मल्टी-थ्रेडेड वर्कलोड के तहत, x86 उच्च-प्रदर्शन सीपीयू का औसत प्रदर्शन अभी भी 4-8 गुना अधिक है।

शोध रिपोर्ट के अनुसार, 64-कोर आरआईएससी-वी प्रोसेसर 2GHz पर चलता है, इसमें चार उच्च-प्रदर्शन वाले C920 कोर होते हैं, और 12-स्तरीय आउट-ऑफ-ऑर्डर मल्टी-इश्यू सुपरस्केलर पाइपलाइन डिज़ाइन को अपनाता है।

C920 तीन डिकोड, चार नाम/अनुसूची, आठ अंक/निष्पादन और दो लोड/स्टोर निष्पादन इकाइयों के साथ RV64GCV अनुदेश सेट प्रदान करता है। वेक्टराइज़ेशन मानक एक्सटेंशन (RVVv0.7.1) का समर्थन करता है, वेक्टर की चौड़ाई 128 बिट है, डेटा प्रकार FP16, FP32, INT8, INT16, INT32 और INT64 का समर्थन करता है। हालाँकि, C920 FP64 वैश्वीकरण का समर्थन नहीं करता है

अध्ययन में कहा गया है कि डबल-प्रिसिजन फ़्लोटिंग पॉइंट उच्च-प्रदर्शन वर्कलोड के विशाल बहुमत की नींव है, इसलिए कोर जो इन परिचालनों को वेक्टराइज़ करने का समर्थन कर सकते हैं, एचपीसी के लिए उच्च प्रदर्शन प्रदान कर सकते हैं। प्रत्येक C920 कोर में 64KB L1 निर्देश (I) और डेटा (D) कैश, 1MB L2 कैश, चार कोर के क्लस्टर के बीच साझा किया जाता है, और 64MB L3 सिस्टम कैश, क्लस्टर में सभी कोर द्वारा साझा किया जाता है। चार DDR4-3200 मेमोरी कंट्रोलर और 32 PCIeGen4 लेन भी उपलब्ध हैं।

HPC वर्कलोड के लिए एक महत्वपूर्ण विचार वैश्वीकरण है, और चूंकि C920 कोर केवल RVVv0.7.1 का समर्थन करता है, कंपाइलर समर्थन एक चुनौती है। आरआईएससी-वीजीएनयू कंपाइलर का वर्तमान अपस्ट्रीम संस्करण वेक्टर एक्सटेंशन के किसी भी संस्करण का समर्थन नहीं करता है। हालाँकि GNU रिपॉजिटरी में एक rvv अगली शाखा शामिल है, जिसे rvvv1.0 का समर्थन करने के लिए डिज़ाइन किया गया है, लेकिन जब शोधकर्ताओं ने अपना अध्ययन लिखा था तब इसे सक्रिय रूप से बनाए नहीं रखा गया था।

इसके अतिरिक्त, rvvv0.7.1 के लिए एक rvv-0.7.1 शाखा थी, लेकिन इस शाखा को हटा दिया गया है। मेनलाइन जीसीसी के लिए समर्थन की कमी के कारण, टी-हेड जीएनयू कंपाइलर (ज़ुएंटी जीसीसी) का अपना कांटा प्रदान करता है, जो इसके प्रोसेसर के लिए अनुकूलित है।

टी-हेड का कस्टम कंपाइलर RVVv0.7.1 और उनके स्वयं के कस्टम एक्सटेंशन दोनों का समर्थन करता है। जबकि इस कंपाइलर के कई संस्करण उपलब्ध कराए गए हैं, GCC8.4, इसके 20210618 रिलीज के हिस्से के रूप में, सर्वोत्तम ऑटो-वेक्टराइजेशन क्षमताएं प्रदान करता है, इसलिए शोधकर्ताओं द्वारा किए गए बेंचमार्किंग प्रयोगों के लिए यह संस्करण चुना गया था।

कंपाइलर का यह संस्करण एक वेक्टर लंबाई विशिष्ट (वीएलएस) आरवीवी घटक उत्पन्न करता है जो सी920 की 128-बिट वेक्टर चौड़ाई के लिए विशिष्ट है। सभी कर्नेल को अनुकूलन स्तर तीन पर संकलित किया गया था, और सभी रिपोर्ट किए गए परिणाम पांच रन से अधिक औसत हैं।

अन्य उच्च-प्रदर्शन आरआईएससी-वी कोर के साथ तुलना

शोधकर्ताओं ने SG2042 के प्रदर्शन की तुलना StarFive डेवलपमेंट बोर्ड VisionFiveV1 और VisionV2 से की। V1 में StarFive JH7100SoC है, जबकि V2 में StarFive JH7110SoC है।

दोनों SoCs, JH7100 और JH7110, 64-बिट RISC-VSiFiveU74 कोर पर बने हैं, JH7100 में दो कोर और JH7110 में चार कोर हैं। SoC को 1.5GHz पर चलने के रूप में सूचीबद्ध किया गया है, और U74 कोर में 32KB (D) और 32KB (I) L1 कैश है। दोनों SoC मॉडल में कोर के बीच साझा किया गया 2MBL2 कैश भी शामिल है।

हालाँकि, SiFiveU74 केवल RV64GC प्रदान करता है और इसलिए RISC-V वेक्टर एक्सटेंशन का समर्थन नहीं करता है।

△ चित्र 1 डबल प्रिसिजन (FP64) और सिंगल प्रिसिजन (FP32) के संदर्भ में VisionFiveV2 और V1 और SG2042 के बीच सिंगल-कोर प्रदर्शन तुलना दिखाता है। जहां बार पूरी श्रेणी में तेज़ या धीमी गति की औसत संख्या है, और लाइनें सबसे बड़ी से लेकर सबसे छोटी तक होती हैं।

जैसा कि चित्र 1 में देखा जा सकता है, एक एकल C920 कोर डबल और सिंगल परिशुद्धता दोनों में V2 और V1 के U74 कोर से बेहतर प्रदर्शन करता है।

दोहरी परिशुद्धता पर, C920 कोर का औसत प्रदर्शन V2 में दोहरी परिशुद्धता पर चलने वाले U74 की तुलना में 4.3 से 6.5 गुना है। इसके अतिरिक्त, एकल परिशुद्धता में, C920 ने बेंचमार्क औसत प्रदर्शन से 5.6 से 11.8 गुना अधिक प्रदर्शन किया। यह एक प्रभावशाली प्रदर्शन लाभ है, और C920 पर कोई कोर नहीं है जो U74 की तुलना में धीमी गति से चलता हो।

C920 पर कुछ कोर का प्रदर्शन बहुत प्रभावशाली है, उदाहरण के लिए, एल्गोरिदम समूह से मेमोरी सेट बेंचमार्क U74 की तुलना में FP32 में 40 गुना और FP64 में 18 गुना तेज चलता है।

इस बात पर जोर देना महत्वपूर्ण है कि यह बेंचमार्क इन कोर पर सर्वोत्तम संभव कॉन्फ़िगरेशन में है, यानी वेक्टरिंग का उपयोग C920 पर किया जाता है, लेकिन वेक्टरिंग U74 पर समर्थित नहीं है और इसलिए V1 या V2 पर उपलब्ध नहीं है।

SG2042 पर FP32 और FP64 के बीच एक महत्वपूर्ण प्रदर्शन अंतर है, जो दर्शाता है कि वास्तव में C920 वेक्टर ऑपरेशन FP64 का समर्थन नहीं करते हैं। इसकी तुलना में, V2 पर डबल और सिंगल प्रिसिजन चलाने के बीच प्रदर्शन अंतर बहुत छोटा है।

चित्र 1 में परिणामों का एक पहलू जिसने शोधकर्ताओं को आश्चर्यचकित किया वह यह था कि VisionFiveV1, V2 की तुलना में काफी धीमा था। यह ध्यान में रखते हुए कि परीक्षण केवल एक कोर पर RAJAPerf चला रहे थे, चिप की दोहरी-कोर और क्वाड-कोर प्रकृति कोई मायने नहीं रखती है क्योंकि उन दोनों में समान U74 कोर होता है, इसलिए प्रदर्शन काफी हद तक समान होना चाहिए।

हालाँकि, V1 दोगुनी परिशुद्धता पर V2 की तुलना में छह से तीन गुना धीमा है, और एकल परिशुद्धता पर एक से तीन गुना धीमा है। हालाँकि यह माना जा सकता है कि V1, V2 की तुलना में कम क्लॉक फ़्रीक्वेंसी पर चल रहा होगा, हालाँकि वे दोनों डेटाशीट में 1.5GHz पर चलने के रूप में सूचीबद्ध हैं, इसकी पुष्टि करने के लिए मशीन पर कोई दस्तावेज़ या आउटपुट नहीं है।

जैसा कि चित्र 1 में देखा जा सकता है, एकल C920 कोर द्वारा प्राप्त प्रदर्शन मौजूदा, सार्वजनिक रूप से उपलब्ध कमोडिटी RISC-V कोर की तुलना में प्रभावशाली है। टी-हेड कोर को उच्च प्रदर्शन वाले आरआईएससी-वी प्रोसेसर के रूप में वर्णित करता है।

परीक्षण U74 की तुलना में पूरे बेंचमार्क सूट में प्रदर्शन में महत्वपूर्ण सुधार दिखाते हैं, जिसे पहले एचपीसी वर्कलोड के साथ प्रयोग करने के लिए व्यापक रूप से उपलब्ध आरआईएससी-वीसीपीयू के बीच सबसे अच्छा विकल्प माना जाता था।

सिंगल-कोर प्रदर्शन के अलावा, SG2042 कोर गिनती के मामले में V1 के JH7100 और V2 के JH7110 SoC से भी काफी आगे है।

x86 सर्वर सीपीयू प्रदर्शन के साथ तुलना

तो अन्य वाणिज्यिक x86 सर्वर चिप्स की तुलना में, SG2042 HPC वर्कलोड में कैसा प्रदर्शन करता है?

इस संबंध में, शोधकर्ताओं ने इसकी तुलना वर्तमान पीढ़ी के सर्वरों में उपयोग किए जाने वाले अन्य सीपीयू, अर्थात् 64-कोर एएमडी रोमईपीवाईसी7742, 18-कोर इंटेल ब्रॉडवेल ज़ीऑन ई5-2695, 28-कोर इंटेल आइस लेक ज़ीऑन 6330 और 4-कोर इंटेल सैंडी ब्रिज ज़ीऑन ई5-2609 से की।

परीक्षण केवल इन x86CPUs के भौतिक कोर पर किए गए थे क्योंकि सभी SMT डिफ़ॉल्ट रूप से अक्षम हैं।

AMDEPYC7742 में चार NUMA क्षेत्रों में 64 भौतिक कोर हैं, प्रत्येक में 16 कोर हैं, लेकिन आठ मेमोरी नियंत्रक हैं। प्रत्येक कोर में 32KB (I) और 32KB (D) L1 कैश, 512KB L2 कैश और 16MB L3 कैश होता है जो चार कोर के बीच साझा किया जाता है। EPYC7742 AVX2 के लिए समर्थन प्रदान करता है, इसमें 256-बिट वाइड वेक्टर रजिस्टर हैं, जो SG2042 से दोगुना चौड़ा है, और FP64 के लिए वेक्टराइजेशन का समर्थन करता है।

Intel Xeon E5-2695 के 18 भौतिक कोर NUMA क्षेत्र में स्थित हैं, जो 32KB (I) और 32KB (D) L1 कैश, 256KB L2 कैश और 45MB L3 कैश कोर में साझा करते हैं। AMD EPYC7742 के समान, Xeon E5-2695 AVX2 को सपोर्ट करता है और इसमें चार मेमोरी कंट्रोलर हैं।

Intel Xeon 6330 नवीनतम CPU है, जिसमें NUMA क्षेत्र में सभी 28 भौतिक कोर, 8 मेमोरी नियंत्रक, 32KB (I) और 48KB (D) L1 कैश, 1MBL2 कैश प्रति कोर और 43MB साझा L3 कैश है। Xeon6330 AVX512 को सपोर्ट करता है और 512-बिट वाइड वेक्टर रजिस्टर प्रदान करता है।

Intel Xeon E5-2609 इस परीक्षण में सबसे पुराना CPU है। इसे 2012 में रिलीज़ किया गया था और यह केवल चार भौतिक कोर प्रदान करता है। प्रत्येक कोर में 64KB (I) और 64KB (D) L1 कैश, साथ ही 256KB L2 कैश और साझा 10MBL3 कैश है। यह E5-2609 केवल AVX को सपोर्ट करता है, इसलिए वेक्टर रजिस्टर की लंबाई SG2042, 128 बिट्स के समान है, हालाँकि AVX FP64 को सपोर्ट करता है।

सभी परीक्षणों में,शोधकर्ताओं ने x86 भौतिक कोर पर हाइपरथ्रेडिंग को अक्षम कर दिया।शोधकर्ताओं ने ARCHER2 को छोड़कर सभी प्रणालियों पर GCC संस्करण 8.3 का उपयोग किया, और संकलन हमेशा अनुकूलन स्तर O3 पर किया गया था। एक प्रणाली जो उच्चतम प्रदर्शन करने वाले थ्रेड्स की संख्या पर निष्पादित होती है।

△ चित्र 4 FP64 पर बेंचमार्क सूट चलाने वाली प्रत्येक चिप के सिंगल-कोर प्रदर्शन को दर्शाता है। जहां बार पूरी श्रेणी में तेज़ या धीमी गति की औसत संख्या है, और लाइनें सबसे बड़ी से लेकर सबसे छोटी तक होती हैं। SG2042 माध्य आधार रेखा है।

परीक्षण परिणामों से,प्राचीन Xeon E5-2609 कोर को छोड़कर सभी x86 कोर ने C920 से बेहतर प्रदर्शन किया, जिसका स्ट्रीमिंग और एल्गोरिदम बेंचमार्क श्रेणियों में औसत प्रदर्शन धीमा था।

AMD EPYC7742 और Intel Xeon6330 CPU Intel XeonE5-2695 से बेहतर प्रदर्शन करते हैं, जो समझ में आता है क्योंकि XeonE5-2695 तीनों का पुराना मॉडल है।

△चित्र 5 दिखाता है कि प्रत्येक चिप का सिंगल-कोर प्रदर्शन बेसलाइन की तुलना में एफपी32 पर बेंचमार्क सूट को कितनी बार चलाता है।

जैसा कि आप चित्र 5 से देख सकते हैं, AMD EPYC7742 एकल परिशुद्धता बनाम दोहरी परिशुद्धता में निष्पादित होने पर काफी कमजोर है, जबकि इंटेल प्रोसेसर का औसत प्रदर्शन उतना ही अच्छा है। वास्तव में, FP32 का उपयोग करते समय, प्राचीन Xeon E5-2609 कोर हर स्तर पर औसतन C920 से बेहतर प्रदर्शन करता है।

हालाँकि, चित्र 5 में औसत बार ग्राफ़ पूरी तस्वीर प्रदान नहीं करता है।

C920 केवल FP32 के लिए वैश्वीकरण का समर्थन करता है, और वास्तव में, जैसा कि चित्र 5 और चित्र 4 की पंक्तियों से देखा जा सकता है, FP32 के लिए कई बेंचमार्क वर्गों की अधिकतम गति FP64 की तुलना में तेज़ है।

इसके अतिरिक्त, ऐसे कई धीमे कोर हैं जो FP32 पर C920 की तुलना में x86 CPU पर धीमा प्रदर्शन करते हैं। ये कोर वे हैं जहां ऑटोवेक्टराइजेशन प्रभावी ढंग से लागू होता है, और वास्तव में, यह देखा जा सकता है कि lcals बेंचमार्क वर्ग के लिए, सभी x86 सीपीयू पर कम से कम एक कोर C920 से भी बदतर प्रदर्शन करता है।

संक्षेप में, सिंगल-कोर प्रदर्शन तुलना के संदर्भ में, FP32 के तहत AMD EPYC7742 का औसत प्रदर्शन C920 की तुलना में 3 गुना तेज है, Intel XeonE5-2695 2 गुना तेज है, Intel Xeon6330 भी 4 गुना तेज है, XeonE5-2609 2 गुना तेज है, और FP64 के तहत ये संख्याएँ क्रमशः 4 गुना, 4 गुना, 5 गुना और 20% तेज हैं।

△FP64 बहु-थ्रेडेड प्रदर्शन तुलना, बेसलाइन की तुलना में तेज़ या धीमी गति की संख्या की रिपोर्ट करना

चित्र 6 डबल-प्रिसिजन FP64 के लिए प्रदर्शन तुलना दिखाता है।

यह देखा जा सकता है कि बेसिक, एलसीएएलएस, पॉलीबेंच और स्ट्रीम क्लास परीक्षणों को अधिक कोर से सबसे अधिक लाभ होता है, इसलिए एसजी2042 का औसत प्रदर्शन प्राचीन ज़ीऑन ई5-2609 की तुलना में बेहतर है।

△FP32 मल्टी-थ्रेड प्रदर्शन तुलना, बेसलाइन की तुलना में तेज़ या धीमी गति की संख्या की रिपोर्ट करना

चित्र 7 FP32 की बहु-थ्रेडेड प्रदर्शन तुलना दिखाता है, और इन परिणामों में सबसे बड़ा अंतर है। पठनीयता में सुधार करने के लिए, शोधकर्ताओं ने ऊर्ध्वाधर अक्ष को सीमित कर दिया और उस मूल्य से अधिक वास्तविक मूल्यों को लेबल किया।

जब मल्टी-थ्रेडेड FP32 की बात आती है, तो SG2042 x86 CPUs के मुकाबले FP64 से थोड़ा बेहतर प्रदर्शन करता है, हालांकि पॉलीबेंच क्लास एक अलग है क्योंकि यह तीन नवीनतम x86 CPUs पर बहुत बेहतर प्रदर्शन करता है और Intel Xeon E5-2609 बहुत खराब प्रदर्शन करता है।

संक्षेप में कहें तो, जब SG2042 मल्टी-थ्रेडेड प्रदर्शन की तुलना x86 सीपीयू से की जाती है, तो इसका 64-कोर औसत प्रदर्शन FP32 और FP64 पर चलने वाले सभी बेंचमार्क प्रकारों में 4-कोर Intel Xeon E5-2609 से बेहतर है।

FP32 और FP64 में 64-कोर AMD EPYC7742 का प्रदर्शन क्रमशः SG2042 का 8 गुना और 5 गुना है। 18-कोर Intel Xeon E5-2695 एकल परिशुद्धता और दोहरी परिशुद्धता में क्रमशः 6 गुना और 4 गुना का औसत प्राप्त करता है। अंत में, 28-कोर Intel Xeon6330 FP32 और FP64 में क्रमशः 6x और 8x बेहतर प्रदर्शन करता है।

निष्कर्ष के तौर पर:

हालांकि कई कंपनियां वर्तमान में उच्च प्रदर्शन वाले आरआईएससी-वी हार्डवेयर प्रोटोटाइप विकसित कर रही हैं, अब तक, व्यावसायिक रूप से उपलब्ध आरआईएससी-वी सॉफ्टवेयर पर वर्कलोड चलाने के विकल्प बहुत सीमित हैं, शोधकर्ताओं ने कहा।

भले ही, ये समाधान आरआईएससी-वी के साथ प्रयोग को सक्षम बनाते हैं, लेकिन वे वास्तुशिल्प रूप से उच्च-प्रदर्शन वर्कलोड उत्पन्न करने के लिए आवश्यक सुविधाएं प्रदान नहीं करते हैं। इसलिए जबकि एचपीसी समुदाय आरआईएससी-वी में रुचि रखता है, यह प्रौद्योगिकी के लिए बिल्कुल तैयार नहीं है।

बेशक, एचपीसी के लिए दुनिया की पहली व्यापक रूप से उपलब्ध मल्टी-कोर आरआईएससी-वी सर्वर चिप के रूप में, एसजी2042 एचपीसी समुदाय में आरआईएससी-वी के प्रति रुचि और अपनाने में उल्लेखनीय वृद्धि कर सकता है। हालाँकि, एक प्रमुख मुद्दा यह है कि यह अभी भी सुपर कंप्यूटर की वर्तमान पीढ़ी में प्रचलित x86 सीपीयू से काफी पीछे है।

फिर भी, यह एक बहुत ही रोमांचक आरआईएससी-वी सर्वर चिप है जो वर्तमान में व्यावसायिक रूप से उपलब्ध आरआईएससी-वी हार्डवेयर की तुलना में कुछ महत्वपूर्ण बदलाव प्रदान करता है।

हालाँकि प्रदर्शन अभी x86 सर्वर सीपीयू के स्तर पर नहीं है, इस बात पर जोर दिया जाना चाहिए कि आरआईएससी-वी विक्रेताओं ने कम समय में एक लंबा सफर तय किया है। इसके विपरीत, x86 सीपीयू का एक लंबा इतिहास है और उनके कई वर्षों के विकास से लाभ मिलता है।

वर्तमान में, सर्वर सीपीयू बाजार में आरआईएससी-वी का मुख्य प्रतियोगी आर्म सर्वर सीपीयू है। आखिरकार, सैद्धांतिक रूप से आरआईएससी-वीसीपीयू में आर्म सीपीयू की तुलना में कम लागत, उच्च अनुकूलन और स्केलेबिलिटी हो सकती है।

उच्च प्रदर्शन वाले आरआईएससी-वी प्रोसेसर की अगली पीढ़ी के लिए, शोधकर्ताओं का मानना है कि आरवीवीवी1.0 प्रदान करना बहुत उपयोगी होगा, क्योंकि यह वेक्टरकृत कोड संकलित करने के लिए मेनलाइन जीसीसी और क्लैंग का उपयोग प्रदान करेगा।

इसके अलावा, एफपी64 वेक्टराइजेशन, व्यापक वेक्टर रजिस्टर, बढ़ा हुआ एल1 कैश और प्रति एनयूएमए क्षेत्र में अधिक मेमोरी कंट्रोलर प्रदान करने से भी महत्वपूर्ण प्रदर्शन लाभ मिल सकता है और x86 उच्च-प्रदर्शन प्रोसेसर के साथ अंतर को कम करने में मदद मिल सकती है।

पहुँच:

जिंगडोंग मॉल