वास्तविक दृश्यों से मानव शरीर की त्रि-आयामी संरचना का अनुमान लगाना एक चुनौतीपूर्ण कार्य है और कृत्रिम बुद्धिमत्ता, ग्राफिक्स और मानव-कंप्यूटर संपर्क जैसे क्षेत्रों के लिए यह बहुत महत्वपूर्ण है। हालाँकि, मौजूदा 3डी मानव मुद्रा अनुमान डेटासेट आमतौर पर स्थिर पृष्ठभूमि के साथ नियंत्रित परिस्थितियों में एकत्र किए जाते हैं और वास्तविक दुनिया के दृश्यों की विविधता का प्रतिनिधित्व करने में विफल रहते हैं, इस प्रकार वास्तविक दुनिया के अनुप्रयोगों के लिए सटीक मॉडल का विकास सीमित हो जाता है।
इस संबंध में, Human3.6M और HuMMan के समान मौजूदा डेटासेट का व्यापक रूप से 3D मानव मुद्रा अनुमान के लिए उपयोग किया जाता है, लेकिन वे नियंत्रित प्रयोगशाला वातावरण में एकत्र किए जाते हैं और वास्तविक दुनिया के वातावरण की जटिलता को पूरी तरह से पकड़ नहीं सकते हैं। इन डेटासेट में दृश्य विविधता, मानव गति और स्केलेबिलिटी की सीमाएँ हैं। शोधकर्ताओं ने 3डी मानव मुद्रा आकलन के लिए विभिन्न मॉडल प्रस्तावित किए हैं, लेकिन मौजूदा डेटासेट की सीमाओं के कारण वास्तविक दृश्यों पर लागू होने पर उनकी प्रभावशीलता अक्सर बाधित होती है।
चीन में एक शोध दल ने "फ्रीमैन" लॉन्च किया है, जो चीनी विश्वविद्यालय हांगकांग (शेन्ज़ेन) और टेनसेंट और अन्य संस्थानों की टीमों द्वारा संयुक्त रूप से विकसित एक परियोजना है। इसे एक अभिनव मल्टी-व्यू डेटा सेट के रूप में प्रतिष्ठित किया गया है और इसका उद्देश्य 3डी मानव मुद्रा आकलन के क्षेत्र में नई सफलताएं लाना है।
फ्रीमैन एक नया बड़े पैमाने का मल्टी-व्यू डेटासेट है जिसे वास्तविक दृश्यों में 3डी मानव मुद्रा अनुमान में मौजूदा डेटासेट की सीमाओं को संबोधित करने के लिए डिज़ाइन किया गया है। फ्रीमैन एक महत्वपूर्ण योगदान है जिसका उद्देश्य अधिक सटीक और मजबूत मॉडल के विकास को सुविधाजनक बनाना है।
फ्रीमैन प्रोजेक्ट की विशेषताओं में से एक इसके डेटासेट का आकार और विविधता है। डेटा सेट में विभिन्न परिदृश्यों में 8 स्मार्टफ़ोन की एक साथ रिकॉर्डिंग शामिल है, जिसमें 10 अलग-अलग दृश्य और 27 वास्तविक स्थान शामिल हैं, और इसमें कुल 11 मिलियन से अधिक फ़्रेम वीडियो शामिल हैं। प्रत्येक दृश्य अलग-अलग प्रकाश स्थितियों को कवर करता है, जिससे यह डेटासेट एक अद्वितीय संसाधन बन जाता है।
फ्रीमैन डेटासेट बड़े पैमाने पर प्री-ट्रेनिंग डेटासेट के विकास को बढ़ावा देने के लिए खुला स्रोत है और आउटडोर 3डी मानव मुद्रा अनुमान के लिए एक नया बेंचमार्क भी प्रदान करता है। इस डेटा सेट में न केवल वीडियो शामिल हैं, बल्कि 2डी और 3डी मानव शरीर के प्रमुख बिंदु, एसएमपीएल पैरामीटर, बाउंडिंग बॉक्स आदि सहित समृद्ध एनोटेशन जानकारी भी प्रदान की जाती है, जो शोधकर्ताओं को संबंधित क्षेत्रों में अनुसंधान को बढ़ावा देने के लिए समृद्ध संसाधन प्रदान करती है।
यह ध्यान देने योग्य है कि फ्रीमैन इसे और अधिक प्रतिनिधिक बनाने के लिए कैमरा मापदंडों और मानव पैमाने में बदलाव पेश करता है। अनुसंधान टीम ने एकत्रित डेटा से कुशलतापूर्वक सटीक 3डी एनोटेशन उत्पन्न करने के लिए एक स्वचालित एनोटेशन प्रक्रिया विकसित की। इस प्रक्रिया में मानव पहचान, 2डी कुंजी बिंदु पहचान, 3डी मुद्रा अनुमान और जाल एनोटेशन शामिल हैं। परिणामी डेटासेट विभिन्न प्रकार के कार्यों के लिए मूल्यवान है, जिसमें मोनोकुलर 3डी अनुमान, 2डी से 3डी रूपांतरण, मल्टी-व्यू 3डी अनुमान और मानव विषयों का तंत्रिका प्रतिपादन शामिल है।
शोधकर्ता विभिन्न कार्यों पर फ्रीमैन की व्यापक मूल्यांकन आधार रेखा प्रदान करते हैं। उन्होंने फ्रीमैन पर प्रशिक्षित मॉडलों के प्रदर्शन की तुलना Human3.6M और HuMMan पर प्रशिक्षित मॉडलों से की। विशेष रूप से, फ्रीमैन पर प्रशिक्षित मॉडल ने 3DPW डेटासेट पर परीक्षण करने पर काफी बेहतर प्रदर्शन दिखाया, जो वास्तविक दुनिया के परिदृश्यों में फ्रीमैन की बेहतर सामान्यीकरण क्षमता को उजागर करता है।
मल्टी-व्यू 3डी मानव मुद्रा अनुमान प्रयोग में, ह्यूमन3.6एम पर प्रशिक्षित मॉडल की तुलना में, फ्रीमैन पर प्रशिक्षित मॉडल ने क्रॉस-डोमेन डेटासेट पर परीक्षण करने पर बेहतर सामान्यीकरण क्षमता दिखाई। परिणाम लगातार फ्रीमैन की विविधता और पैमाने के फायदे दिखाते हैं।
2डी से 3डी पोज़ रूपांतरण प्रयोग में, फ्रीमैन की चुनौती स्पष्ट है, क्योंकि इस डेटा सेट पर प्रशिक्षित मॉडल को अधिक कठिनाई का सामना करना पड़ता है। हालाँकि, जब मॉडल को पूरे फ्रीमैन प्रशिक्षण सेट पर प्रशिक्षित किया गया, तो इसके प्रदर्शन में सुधार हुआ, जिससे मॉडल के प्रदर्शन में सुधार करने के लिए इस डेटासेट की क्षमता का पता चला।
फ्रीमैन की उपलब्धता से मानव शरीर मॉडलिंग, कंप्यूटर दृष्टि और मानव-कंप्यूटर इंटरैक्शन के क्षेत्र में प्रगति होने की उम्मीद है, जिससे नियंत्रित प्रयोगशाला स्थितियों और वास्तविक जीवन परिदृश्यों के बीच अंतर कम हो जाएगा।