माइक्रोसॉफ्ट ओपन सोर्स नया प्रोटीन-जनरेटिंग आर्टिफिशियल इंटेलिजेंस EvoDiff

प्रोटीन प्राकृतिक अणु हैं जो शरीर में महत्वपूर्ण सेलुलर कार्य करते हैं और सभी बीमारियों के लिए बिल्डिंग ब्लॉक हैं। प्रोटीन की विशेषता बताने से बीमारी के तंत्र का पता चल सकता है, जिसमें बीमारी को धीमा करने या उलटने के तरीके भी शामिल हैं, जबकि प्रोटीन बनाने से पूरी तरह से नई दवाओं और उपचारों का विकास हो सकता है।

पहुँच:

माइक्रोसॉफ्ट चीन आधिकारिक मॉल-होमपेज

हालाँकि, प्रयोगशाला में प्रोटीन डिजाइन करने की वर्तमान प्रक्रिया कम्प्यूटेशनल और मानव संसाधन के दृष्टिकोण से महंगी है। इसके लिए एक प्रोटीन संरचना के साथ आने की आवश्यकता होती है जो शरीर में एक विशिष्ट कार्य करती है, और फिर एक प्रोटीन अनुक्रम (अमीनो एसिड का अनुक्रम जो प्रोटीन बनाते हैं) को ढूंढना होता है जो उस संरचना में "फोल्ड" हो सकता है। (प्रोटीन को अपना इच्छित कार्य करने के लिए त्रि-आयामी आकार में सही ढंग से मुड़ना चाहिए)।

इसे इतना जटिल होना जरूरी नहीं है.

इस सप्ताह, माइक्रोसॉफ्ट ने EvoDiff लॉन्च किया, एक सामान्य ढांचा जिसके बारे में कंपनी का दावा है कि यह प्रोटीन अनुक्रमों के आधार पर "उच्च-निष्ठा" और "विविध" प्रोटीन उत्पन्न कर सकता है। अन्य प्रोटीन उत्पादन ढाँचों के विपरीत, इवोडिफ़ को लक्ष्य प्रोटीन की किसी भी संरचनात्मक जानकारी की आवश्यकता नहीं होती है, जो आमतौर पर सबसे अधिक श्रमसाध्य कदम होता है।

माइक्रोसॉफ्ट के एक वरिष्ठ शोधकर्ता केविन यांग ने कहा कि इवोडिफ़ के खुले स्रोत के बाद, इसका उपयोग नए उपचार और दवा वितरण विधियों के लिए एंजाइम बनाने के साथ-साथ औद्योगिक रासायनिक प्रतिक्रियाओं के लिए नए एंजाइम बनाने के लिए किया जा सकता है।

इवोडिफ के सह-निर्माताओं में से एक यांग ने एक ईमेल साक्षात्कार में टेकक्रंच को बताया, "हमारी दृष्टि यह है कि इवोडिफ संरचना-कार्य प्रतिमान से परे प्रोग्रामयोग्य, अनुक्रम-प्रथम डिजाइन की ओर प्रोटीन इंजीनियरिंग की क्षमताओं का विस्तार करेगा।" "इवोडिफ़ के साथ, हमने प्रदर्शित किया कि नए प्रोटीन को नियंत्रित रूप से डिज़ाइन करने के लिए हमें वास्तव में संरचना की आवश्यकता नहीं है, बल्कि 'आपको प्रोटीन अनुक्रम की आवश्यकता है'।"

इवोडिफ़ फ्रेमवर्क के केंद्र में एक 640-पैरामीटर मॉडल है जो प्रोटीन की सभी विभिन्न प्रजातियों और कार्यात्मक वर्गों के डेटा पर प्रशिक्षित है। (पैरामीटर वे हैं जो एआई मॉडल प्रशिक्षण डेटा से सीखता है और अनिवार्य रूप से समस्या से निपटने में मॉडल के कौशल को परिभाषित करता है - इस मामले में, प्रोटीन उत्पन्न करना।) मॉडल के प्रशिक्षण के लिए डेटा अनुक्रम संरेखण के ओपनफोल्ड डेटासेट और UniRef50 से आता है, UniProt डेटासेट का एक सबसेट, प्रोटीन अनुक्रम का एक डेटाबेस और UniProt कंसोर्टियम द्वारा बनाए रखा गया कार्यात्मक जानकारी।

इवोडिफ़ एक प्रसार मॉडल है जिसकी संरचना कई आधुनिक छवि निर्माण मॉडल जैसे स्थिर प्रसार और DALL-E2 के समान है। इवोडिफ़ एक शुरुआती प्रोटीन से शोर को धीरे-धीरे कम करना सीखता है जिसमें लगभग पूरी तरह से शोर होता है, जिससे यह धीरे-धीरे, चरण-दर-चरण प्रोटीन अनुक्रम तक पहुंचने की अनुमति देता है।

वह प्रक्रिया जिसके द्वारा इवोडिफ़ प्रोटीन उत्पन्न करता है।

डिफ्यूजन मॉडल का उपयोग छवि निर्माण से परे, उपन्यास प्रोटीन (जैसे इवोडिफ़) को डिजाइन करने से लेकर, संगीत रचना और यहां तक कि भाषण को संश्लेषित करने तक के क्षेत्रों में भी तेजी से किया जा रहा है।

ईवोडिफ के एक अन्य सह-योगदानकर्ता और माइक्रोसॉफ्ट के एक वरिष्ठ शोधकर्ता एवा अमिनी ने ईमेल के माध्यम से कहा, "अगर [इवोडिफ़ से] कोई एक रास्ता है, तो मुझे लगता है कि हम अनुक्रम से प्रोटीन उत्पन्न कर सकते हैं - और करना चाहिए क्योंकि हम बहुमुखी प्रतिभा, पैमाने और मॉड्यूलरिटी को सक्षम करते हैं।" "हमारा प्रसार ढांचा हमें ऐसा करने की क्षमता देता है और हमें यह नियंत्रित करने की भी अनुमति देता है कि ये प्रोटीन विशिष्ट कार्यात्मक लक्ष्यों को प्राप्त करने के लिए कैसे डिज़ाइन किए गए हैं।"

अमिनी की बात के अनुसार, इवोडिफ़ न केवल नए प्रोटीन बनाता है बल्कि मौजूदा प्रोटीन डिज़ाइन में "अंतराल" भी भरता है। उदाहरण के लिए, यदि प्रोटीन का एक निश्चित हिस्सा दूसरे प्रोटीन से जुड़ता है, तो मॉडल उस हिस्से के आसपास प्रोटीन के अमीनो एसिड का एक अनुक्रम उत्पन्न कर सकता है जो मानदंडों की एक श्रृंखला को पूरा करता है।

क्योंकि इवोडिफ़ प्रोटीन को प्रोटीन संरचना के बजाय "अनुक्रम स्थान" में डिज़ाइन करता है, यह "अव्यवस्थित प्रोटीन" को भी संश्लेषित कर सकता है जो अंततः अपनी अंतिम त्रि-आयामी संरचना में बदलने में विफल रहता है। सामान्य रूप से कार्य करने वाले प्रोटीन की तरह, अव्यवस्थित प्रोटीन जीव विज्ञान और रोग में महत्वपूर्ण भूमिका निभाते हैं, जैसे अन्य प्रोटीन की गतिविधि को बढ़ाना या कम करना।

यह बताना महत्वपूर्ण है कि इवोडिफ़ के पीछे के शोध की सहकर्मी-समीक्षा नहीं की गई है - कम से कम अभी तक नहीं। परियोजना में शामिल एक माइक्रोसॉफ्ट डेटा वैज्ञानिक सारा आलमडारी ने स्वीकार किया कि ढांचे को व्यावसायिक उपयोग में लाने से पहले "अभी भी बहुत सारे स्केलिंग कार्य किए जाने बाकी हैं"।

अलमदारी ने ईमेल के माध्यम से कहा, "यह सिर्फ 640 मिलियन-पैरामीटर मॉडल है, और अगर हम इसे अरबों पैरामीटर तक बढ़ाते हैं, तो हम पीढ़ी की गुणवत्ता में सुधार देख सकते हैं।" "जबकि हमने बेहतर नियंत्रण प्राप्त करने के लिए कुछ मोटे-मोटे रणनीतियों का प्रदर्शन किया, हम चाहते हैं कि इवोडिफ़ को वांछित सुविधाओं को निर्दिष्ट करने के लिए पाठ, रासायनिक जानकारी या अन्य माध्यमों पर वातानुकूलित किया जाए।"

इसके बाद, इवोडिफ़ टीम प्रयोगशाला में उत्पन्न प्रोटीन पर मॉडल का परीक्षण करने की योजना बना रही है ताकि यह देखा जा सके कि वे काम करते हैं या नहीं। यदि यह काम करता है, तो वे अगली पीढ़ी के ढांचे पर काम शुरू करेंगे।