समझने का स्तर विशेषज्ञों के स्तर के करीब है। प्राचीन पुस्तकों की व्याख्या में Google AI की मुख्य त्रुटि दर केवल 0.56%

Google का AI स्टूडियो प्लेटफ़ॉर्म एक अनाम AI मॉडल का परीक्षण कर रहा है और इसने अपठनीय ऐतिहासिक पांडुलिपियों को समझने में महत्वपूर्ण प्रगति की है। मुख्य चरित्र पहचान में मॉडल की त्रुटि दर केवल 0.56% है, और इसकी सटीकता इस क्षेत्र में पेशेवर शोधकर्ताओं के स्तर के करीब है।

इतिहासकार मार्क हम्फ्रीज़ ने एक उद्देश्य-निर्मित बेंचमार्क डेटा सेट का उपयोग करके मॉडल का व्यवस्थित मूल्यांकन किया। परीक्षण में शामिल 18वीं से 19वीं शताब्दी की पांच कठिन पांडुलिपियों में, मॉडल की समग्र चरित्र त्रुटि दर लगभग 1.7% थी। अधिकांश त्रुटियां गैर-मुख्य मुद्दों जैसे विराम चिह्न और पूंजीकरण विशिष्टताओं में हुईं, और शब्दों की सही पहचान को प्रभावित नहीं किया।

यदि इन गैर-महत्वपूर्ण त्रुटियों को बाहर रखा जाता है, तो मॉडल की वर्ण त्रुटि दर को 0.56% तक कम किया जा सकता है, जो प्रतिलेखित प्रत्येक 200 वर्णों के लिए केवल एक मूल त्रुटि के बराबर है। इसका प्रदर्शन पहले से ही उन पेशेवर श्रमिकों के बराबर है जो दस्तावेज़ लिप्यंतरण पर ध्यान केंद्रित करते हैं।

परीक्षण पांडुलिपियाँ लेखन शैलियों की एक विविध श्रृंखला को कवर करती हैं, जिसमें अस्पष्ट लिखावट, गैर-मानक वर्तनी और असंगत व्याकरण जैसी जटिल स्थितियाँ शामिल हैं, जो मॉडल की मजबूत अनुकूलन क्षमता को पूरी तरह से सत्यापित करती हैं।अधिक उल्लेखनीय बात यह है कि यह मॉडल न केवल पाठ प्रतिलेखन को पूरा कर सकता है, बल्कि कुछ प्रासंगिक तर्क क्षमताओं को भी प्रदर्शित कर सकता है।

उदाहरण के लिए, 18वीं सदी के व्यापारी की डायरी को संसाधित करते समय, मॉडल को यूनिट लेबलिंग के बिना "145" के चीनी खरीद रिकॉर्ड का सामना करना पड़ा। कुल खाते की दोबारा जांच करके और इसे उस समय की ब्रिटिश मुद्रा और वजन इकाई प्रणालियों के साथ जोड़कर, यह सफलतापूर्वक निष्कर्ष निकाला गया कि यह आंकड़ा "14 पाउंड 5 औंस" दर्शाता है।

हम्फ्रीज़ ने यह भी बताया कि वर्तमान मूल्यांकन में अभी भी कुछ सीमाएँ हैं। चूंकि यह मॉडल केवल ए/बी परीक्षण के रूप में छिटपुट रूप से दिखाई देता है, इसलिए बड़े पैमाने पर व्यवस्थित सत्यापन करना मुश्किल है। वर्तमान में, बेंचमार्क डेटा सेट में केवल लगभग 10% नमूनों का मूल्यांकन किया गया है।