सिंघुआ यूनिवर्सिटी के 8 चैटजीपीटी वेयरवोल्फ किलिंग गेम्स, षडयंत्र और छद्मवेश सभी इस गेम में हैं

वीडियो गेम खेलने के अलावा, मनुष्यों की "सामाजिक कलाकृति" वेयरवोल्फ हत्या भी एआई द्वारा सीखी गई है। आठ चैटजीपीटी एक साथ "बैठते हैं" और स्पष्ट रूप से वास्तविक लोगों की तरह पांच भूमिकाएँ निभाते हैं। यह नवीनतम मानव समाज सिमुलेशन प्रयोग सिंघुआ विश्वविद्यालय और झोंगगुआनकुन प्रयोगशाला द्वारा संयुक्त रूप से पूरा किया गया था।

स्टैनफोर्ड टाउन से लेकर सिंघुआ गेम कंपनी तक, मानव समाज का अनुकरण करने के लिए एआई का उपयोग करना अकादमिक समुदाय में हमेशा एक गर्म शोध विषय रहा है।

यदि सिंघुआ गेम कंपनी ने सामाजिक जानवरों के कार्य दृश्य का अनुकरण किया, तो अब उनके खाली समय में सामाजिक जानवरों के सामाजिक जीवन का भी एआई द्वारा अनुकरण किया गया है।

8 चैटजीपीटी से बने इस वेयरवोल्फ किलिंग गेम में, वास्तविक दुनिया में छद्मवेश और विश्वास, नेतृत्व और टकराव सभी स्पष्ट रूप से प्रतिबिंबित होते हैं।

मानव शिक्षण के बिना भी, एआई ने अपने स्वयं के अन्वेषण के माध्यम से कई खेल कौशल की खोज की।

यह सब मॉडल में मापदंडों को समायोजित किए बिना डिज़ाइन संकेतों के माध्यम से प्राप्त किया जा सकता है।

तो, इस "वेयरवोल्फ वर्ल्ड" में अद्भुत दृश्य क्या हैं? आइए इस पर एक साथ नजर डालें।

रणनीतियों और कौशलों में बिना सिखाए महारत हासिल की जा सकती है

इन 8 चैटजीपीटी संवादों को दिखाने से पहले, आइए पहले गेम कॉन्फ़िगरेशन को समझाएं: एक भगवान के अलावा, दो ग्रामीण और दो वेयरवोल्स, एक गार्ड, एक चुड़ैल और एक पैगंबर।

प्रयोग के दौरान, शोधकर्ताओं ने पाया कि चैटजीपीटी ने उन रणनीतियों का उपयोग किया जिनका गेम निर्देशों और संकेतों में स्पष्ट रूप से उल्लेख नहीं किया गया था।

अच्छे आदमी, आप बिना सिखाए स्वयं-शिक्षित बन सकते हैं।

विशेष रूप से, ये सात चैटजीपीटी वार्तालाप मानव खेलों में विश्वास, छलावरण, टकराव और नेतृत्व को दर्शाते हैं।

सबसे पहले बात करते हैं भरोसे की.

शोधकर्ताओं ने नवागंतुकों को अन्य खिलाड़ियों पर अपने समान लक्ष्य रखने और उनके लिए मिलकर काम करने पर भरोसा करने के रूप में परिभाषित किया।

विशिष्ट अभिव्यक्तियों में सक्रिय रूप से ऐसी जानकारी साझा करना शामिल है जो स्वयं के लिए हानिकारक है, या किसी पर शत्रुतापूर्ण होने का आरोप लगाने के लिए अन्य खिलाड़ियों के साथ शामिल होना।

शोधकर्ताओं ने देखा कि खेल के दौरान समय के साथ भरोसे के रिश्ते कैसे बदल गए।

नीचे दी गई तस्वीर में, पीला वृत्त इंगित करता है कि बाईं ओर क्रमांकित खिलाड़ी ऊपर क्रमांकित खिलाड़ी पर भरोसा करता है, और बिंदीदार वृत्त विश्वास संबंध के गायब होने का प्रतिनिधित्व करता है।

आइए टकराव पर नजर डालें, अर्थात्, विरोधी खेमे के खिलाफ की गई कार्रवाइयां, जैसे कि रात में दूसरों पर हमला करना या दिन के दौरान दूसरों पर वेयरवोल्फ होने का आरोप लगाना।

खेल में एक दिन, खिलाड़ी नंबर 1 (वेयरवोल्फ) ने नंबर 5 से ग्रामीणों को बाहर निकालने का आह्वान किया, लेकिन नंबर 3 (गार्ड) ने इसे अस्वीकार कर दिया।

यह देखकर कि साजिश विफल हो गई, भेड़िये ने रात में सीधे नंबर 5 को मारने का फैसला किया, लेकिन गार्ड नंबर 3 ने ग्रामीणों की रक्षा करने का फैसला किया।

इससे हम देख सकते हैं कि ये चैटजीपीटी आँख बंद करके अन्य खिलाड़ियों का अनुसरण नहीं करेंगे, बल्कि मौजूदा जानकारी के आधार पर स्वतंत्र निर्णय लेंगे।

सहयोग और टकराव के अलावा, वेयरवोल्फ गेम में भेष बदलना भी एक आवश्यक कौशल है, और यह जीत की कुंजी है।

उदाहरण के लिए, क्रिसमस की पूर्वसंध्या के एक दिन बाद, वेयरवोल्फ नंबर 1 ने निर्दोष होने का नाटक किया।

एक अच्छा इंसान होने का दिखावा करने के अलावा, खिलाड़ी के छोटे-छोटे विचारों को साकार करने के लिए भेष का भी इस्तेमाल किया जा सकता है। उदाहरण के लिए, आइए पैगंबर के भाषण को देखें।

द्रष्टा ने वेयरवुल्स को बात करते हुए देखने का उल्लेख किया, लेकिन वास्तव में वेयरवुल्स रात में नहीं बोलते थे।

लेखक के अनुसार, मूल्यांकन के बाद, यह घटना चैटजीपीटी का भ्रम नहीं है, बल्कि जानबूझकर है।

अंत में, नेतृत्व के बारे में बात करते हैं।

हालाँकि अनुसंधान टीम द्वारा डिज़ाइन किए गए वातावरण में कोई प्रतिस्पर्धी पात्र नहीं हैं, फिर भी खिलाड़ी खेल प्रक्रिया पर नियंत्रण हासिल कर सकते हैं।

उदाहरण के लिए, दो भेड़िये नंबर 1 और नंबर 4 गति निर्धारित करने की कोशिश करते हैं और अन्य खिलाड़ियों को अपने विचारों का पालन करने देते हैं।

संभवतः उन्हें आश्चर्यचकित करके अवसर पैदा करने के लिए।

ऐसा लगता है कि ये ChatGPT वास्तव में अच्छे से खेले जाते हैं।

तो, अनुसंधान टीम ने इन चैटजीपीटी को कैसे प्रशिक्षित किया जो वेयरवोल्फ खेल सकते हैं?

चैटजीपीटी को अपना अनुभव संक्षेप में बताने दें

जिस तरह से अनुसंधान टीम चैटजीपीटी खिलाड़ियों के प्रदर्शन में सुधार करती है, उसमें चार प्रमुख बिंदु हैं, अर्थात् मूल्यवान जानकारी वी, चयनित प्रश्न क्यू, प्रतिबिंब तंत्र आर और श्रृंखला सोच तर्क सी।

एब्लेशन प्रयोग के नतीजे बताते हैं कि क्यू और सी जोड़े का खिलाड़ी के भाषण की तर्कसंगतता (मनुष्यों द्वारा आंका गया) पर सबसे अधिक प्रभाव पड़ता है।

प्रॉम्प्ट भी इसी के आधार पर डिज़ाइन किया गया है। बेशक, खेल के नियमों को इससे पहले पेश किया जाना चाहिए, और अंततः निम्नलिखित संरचना बनती है:

खेल के नियमों और भूमिका सेटिंग्स, चैट रिकॉर्ड, बहुमूल्य जानकारी और अनुभव का परिचय, अनुभव के आधार पर चैटजीपीटी को दिए गए मानवीय सुझावों पर विचार, सोच श्रृंखला पर सुझाव

इससे यह समझना कठिन नहीं है कि ऐतिहासिक जानकारी एकत्र करना और उससे अनुभव का सारांश निकालना एक महत्वपूर्ण कड़ी है। तो इन अनुभवों को संक्षेप में कैसे प्रस्तुत किया जाना चाहिए?

प्रत्येक गेम राउंड के अंत में, सभी खिलाड़ियों की प्रतिक्रियाएँ, विचार और स्कोर सभी प्रतिभागियों द्वारा एकत्र किए जाते हैं, जिसमें स्कोर जीत और हार के आधार पर निर्धारित होते हैं।

खेल के एक नए दौर में, खिलाड़ी प्रासंगिक अनुभव प्राप्त करते हैं और वर्तमान चरित्र के प्रतिबिंबों के आधार पर सुझाव निकालते हैं।

विशेष रूप से, अनुभवों की रेटिंग के आधार पर, बड़े मॉडल को उनके अंतरों की तुलना करने दें और बाद के तर्क के लिए अच्छे अनुभवों की पहचान करने दें।

इस तरह, चैटजीपीटी मापदंडों को समायोजित किए बिना गेमिंग कौशल सीख सकता है।

हालाँकि, जबकि अनुभव महत्वपूर्ण है, बहुत अधिक आवश्यक रूप से अच्छी बात नहीं है।

शोधकर्ताओं ने पाया कि जब अनुभव की मात्रा बहुत बड़ी थी, तो गैर-भेड़िया पक्ष की जीत दर वास्तव में कम हो गई, और खेल की अवधि (दिनों की संख्या) भी कम हो गई।

मुझे आश्चर्य है कि अगर हम इन चैटजीपीटी को वास्तविक लोगों के साथ प्रतिस्पर्धा करने दें तो परिणाम क्या होगा?

पेपर का पता: https://arxiv.org/abs/2309.04658