वीडियो गेम खेलने के अलावा, मनुष्यों की "सामाजिक कलाकृति" वेयरवोल्फ हत्या भी एआई द्वारा सीखी गई है। आठ चैटजीपीटी एक साथ "बैठते हैं" और स्पष्ट रूप से वास्तविक लोगों की तरह पांच भूमिकाएँ निभाते हैं। यह नवीनतम मानव समाज सिमुलेशन प्रयोग सिंघुआ विश्वविद्यालय और झोंगगुआनकुन प्रयोगशाला द्वारा संयुक्त रूप से पूरा किया गया था।
स्टैनफोर्ड टाउन से लेकर सिंघुआ गेम कंपनी तक, मानव समाज का अनुकरण करने के लिए एआई का उपयोग करना अकादमिक समुदाय में हमेशा एक गर्म शोध विषय रहा है।
यदि सिंघुआ गेम कंपनी ने सामाजिक जानवरों के कार्य दृश्य का अनुकरण किया, तो अब उनके खाली समय में सामाजिक जानवरों के सामाजिक जीवन का भी एआई द्वारा अनुकरण किया गया है।
8 चैटजीपीटी से बने इस वेयरवोल्फ किलिंग गेम में, वास्तविक दुनिया में छद्मवेश और विश्वास, नेतृत्व और टकराव सभी स्पष्ट रूप से प्रतिबिंबित होते हैं।
मानव शिक्षण के बिना भी, एआई ने अपने स्वयं के अन्वेषण के माध्यम से कई खेल कौशल की खोज की।
यह सब मॉडल में मापदंडों को समायोजित किए बिना डिज़ाइन संकेतों के माध्यम से प्राप्त किया जा सकता है।
तो, इस "वेयरवोल्फ वर्ल्ड" में अद्भुत दृश्य क्या हैं? आइए इस पर एक साथ नजर डालें।
रणनीतियों और कौशलों में बिना सिखाए महारत हासिल की जा सकती है
इन 8 चैटजीपीटी संवादों को दिखाने से पहले, आइए पहले गेम कॉन्फ़िगरेशन को समझाएं: एक भगवान के अलावा, दो ग्रामीण और दो वेयरवोल्स, एक गार्ड, एक चुड़ैल और एक पैगंबर।
प्रयोग के दौरान, शोधकर्ताओं ने पाया कि चैटजीपीटी ने उन रणनीतियों का उपयोग किया जिनका गेम निर्देशों और संकेतों में स्पष्ट रूप से उल्लेख नहीं किया गया था।
अच्छे आदमी, आप बिना सिखाए स्वयं-शिक्षित बन सकते हैं।
विशेष रूप से, ये सात चैटजीपीटी वार्तालाप मानव खेलों में विश्वास, छलावरण, टकराव और नेतृत्व को दर्शाते हैं।
सबसे पहले बात करते हैं भरोसे की.
शोधकर्ताओं ने नवागंतुकों को अन्य खिलाड़ियों पर अपने समान लक्ष्य रखने और उनके लिए मिलकर काम करने पर भरोसा करने के रूप में परिभाषित किया।
विशिष्ट अभिव्यक्तियों में सक्रिय रूप से ऐसी जानकारी साझा करना शामिल है जो स्वयं के लिए हानिकारक है, या किसी पर शत्रुतापूर्ण होने का आरोप लगाने के लिए अन्य खिलाड़ियों के साथ शामिल होना।
शोधकर्ताओं ने देखा कि खेल के दौरान समय के साथ भरोसे के रिश्ते कैसे बदल गए।
नीचे दी गई तस्वीर में, पीला वृत्त इंगित करता है कि बाईं ओर क्रमांकित खिलाड़ी ऊपर क्रमांकित खिलाड़ी पर भरोसा करता है, और बिंदीदार वृत्त विश्वास संबंध के गायब होने का प्रतिनिधित्व करता है।
आइए टकराव पर नजर डालें, अर्थात्, विरोधी खेमे के खिलाफ की गई कार्रवाइयां, जैसे कि रात में दूसरों पर हमला करना या दिन के दौरान दूसरों पर वेयरवोल्फ होने का आरोप लगाना।
खेल में एक दिन, खिलाड़ी नंबर 1 (वेयरवोल्फ) ने नंबर 5 से ग्रामीणों को बाहर निकालने का आह्वान किया, लेकिन नंबर 3 (गार्ड) ने इसे अस्वीकार कर दिया।
यह देखकर कि साजिश विफल हो गई, भेड़िये ने रात में सीधे नंबर 5 को मारने का फैसला किया, लेकिन गार्ड नंबर 3 ने ग्रामीणों की रक्षा करने का फैसला किया।
इससे हम देख सकते हैं कि ये चैटजीपीटी आँख बंद करके अन्य खिलाड़ियों का अनुसरण नहीं करेंगे, बल्कि मौजूदा जानकारी के आधार पर स्वतंत्र निर्णय लेंगे।
सहयोग और टकराव के अलावा, वेयरवोल्फ गेम में भेष बदलना भी एक आवश्यक कौशल है, और यह जीत की कुंजी है।
उदाहरण के लिए, क्रिसमस की पूर्वसंध्या के एक दिन बाद, वेयरवोल्फ नंबर 1 ने निर्दोष होने का नाटक किया।
एक अच्छा इंसान होने का दिखावा करने के अलावा, खिलाड़ी के छोटे-छोटे विचारों को साकार करने के लिए भेष का भी इस्तेमाल किया जा सकता है। उदाहरण के लिए, आइए पैगंबर के भाषण को देखें।
द्रष्टा ने वेयरवुल्स को बात करते हुए देखने का उल्लेख किया, लेकिन वास्तव में वेयरवुल्स रात में नहीं बोलते थे।
लेखक के अनुसार, मूल्यांकन के बाद, यह घटना चैटजीपीटी का भ्रम नहीं है, बल्कि जानबूझकर है।
अंत में, नेतृत्व के बारे में बात करते हैं।
हालाँकि अनुसंधान टीम द्वारा डिज़ाइन किए गए वातावरण में कोई प्रतिस्पर्धी पात्र नहीं हैं, फिर भी खिलाड़ी खेल प्रक्रिया पर नियंत्रण हासिल कर सकते हैं।
उदाहरण के लिए, दो भेड़िये नंबर 1 और नंबर 4 गति निर्धारित करने की कोशिश करते हैं और अन्य खिलाड़ियों को अपने विचारों का पालन करने देते हैं।
संभवतः उन्हें आश्चर्यचकित करके अवसर पैदा करने के लिए।
ऐसा लगता है कि ये ChatGPT वास्तव में अच्छे से खेले जाते हैं।
तो, अनुसंधान टीम ने इन चैटजीपीटी को कैसे प्रशिक्षित किया जो वेयरवोल्फ खेल सकते हैं?
चैटजीपीटी को अपना अनुभव संक्षेप में बताने दें
जिस तरह से अनुसंधान टीम चैटजीपीटी खिलाड़ियों के प्रदर्शन में सुधार करती है, उसमें चार प्रमुख बिंदु हैं, अर्थात् मूल्यवान जानकारी वी, चयनित प्रश्न क्यू, प्रतिबिंब तंत्र आर और श्रृंखला सोच तर्क सी।
एब्लेशन प्रयोग के नतीजे बताते हैं कि क्यू और सी जोड़े का खिलाड़ी के भाषण की तर्कसंगतता (मनुष्यों द्वारा आंका गया) पर सबसे अधिक प्रभाव पड़ता है।
प्रॉम्प्ट भी इसी के आधार पर डिज़ाइन किया गया है। बेशक, खेल के नियमों को इससे पहले पेश किया जाना चाहिए, और अंततः निम्नलिखित संरचना बनती है:
खेल के नियमों और भूमिका सेटिंग्स, चैट रिकॉर्ड, बहुमूल्य जानकारी और अनुभव का परिचय, अनुभव के आधार पर चैटजीपीटी को दिए गए मानवीय सुझावों पर विचार, सोच श्रृंखला पर सुझाव
इससे यह समझना कठिन नहीं है कि ऐतिहासिक जानकारी एकत्र करना और उससे अनुभव का सारांश निकालना एक महत्वपूर्ण कड़ी है। तो इन अनुभवों को संक्षेप में कैसे प्रस्तुत किया जाना चाहिए?
प्रत्येक गेम राउंड के अंत में, सभी खिलाड़ियों की प्रतिक्रियाएँ, विचार और स्कोर सभी प्रतिभागियों द्वारा एकत्र किए जाते हैं, जिसमें स्कोर जीत और हार के आधार पर निर्धारित होते हैं।
खेल के एक नए दौर में, खिलाड़ी प्रासंगिक अनुभव प्राप्त करते हैं और वर्तमान चरित्र के प्रतिबिंबों के आधार पर सुझाव निकालते हैं।
विशेष रूप से, अनुभवों की रेटिंग के आधार पर, बड़े मॉडल को उनके अंतरों की तुलना करने दें और बाद के तर्क के लिए अच्छे अनुभवों की पहचान करने दें।
इस तरह, चैटजीपीटी मापदंडों को समायोजित किए बिना गेमिंग कौशल सीख सकता है।
हालाँकि, जबकि अनुभव महत्वपूर्ण है, बहुत अधिक आवश्यक रूप से अच्छी बात नहीं है।
शोधकर्ताओं ने पाया कि जब अनुभव की मात्रा बहुत बड़ी थी, तो गैर-भेड़िया पक्ष की जीत दर वास्तव में कम हो गई, और खेल की अवधि (दिनों की संख्या) भी कम हो गई।
मुझे आश्चर्य है कि अगर हम इन चैटजीपीटी को वास्तविक लोगों के साथ प्रतिस्पर्धा करने दें तो परिणाम क्या होगा?
पेपर का पता: https://arxiv.org/abs/2309.04658