आकस्मिक बाढ़ दुनिया की सबसे घातक मौसम संबंधी आपदाओं में से एक है, जिससे हर साल 5,000 से अधिक लोग मारे जाते हैं। हालाँकि, उनकी तीव्र शुरुआत, छोटे दायरे और छोटी अवधि के कारण उनकी सटीक भविष्यवाणी करना लंबे समय से कठिन रहा है। इस समस्या का सामना करते हुए, Google का नया उत्तर है "AI को समाचार रिपोर्ट पढ़ने दें।"

पारंपरिक मौसम संबंधी निगरानी ने तापमान, वर्षा और नदी के प्रवाह जैसे बड़ी मात्रा में डेटा जमा किया है। हालाँकि, अचानक और अत्यधिक तीव्र बाढ़ की घटनाओं के लिए, मनुष्यों के पास अन्य मौसम संबंधी तत्वों की तरह पूर्ण और निरंतर अवलोकन रिकॉर्ड नहीं हैं। इससे यह तथ्य सामने आया है कि भले ही मौसम पूर्वानुमान के क्षेत्र में गहन शिक्षा अधिक से अधिक शक्तिशाली होती जा रही है, लेकिन यह अचानक बाढ़ की भविष्यवाणी में समान स्तर पर प्रदर्शन करने में असमर्थ है क्योंकि मॉडल को प्रशिक्षित करने के लिए पर्याप्त "सही मूल्य" डेटा की कमी है।
इस डेटा अंतर को भरने के लिए, Google अनुसंधान टीम ने दुनिया भर से लगभग 5 मिलियन समाचार रिपोर्टों को स्क्रीन करने के लिए अपने बड़े भाषा मॉडल जेमिनी का उपयोग किया, लगभग 2.6 मिलियन विभिन्न बाढ़ घटनाओं को स्वचालित रूप से पहचाना और निकाला, और फिर इन टेक्स्ट रिपोर्टों को समय और भौगोलिक टैग के साथ अनुक्रम डेटा सेट "ग्राउंडसोर्स" में परिवर्तित कर दिया। Google के अनुसंधान उत्पाद प्रबंधक गिला लोइक ने कहा कि यह पहली बार है कि कंपनी ने इस प्रकार के मात्रात्मक डेटा निर्माण कार्य को पूरा करने के लिए एक बड़े भाषा मॉडल का उपयोग किया है। प्रासंगिक शोध परिणाम और डेटा सेट गुरुवार सुबह सार्वजनिक रूप से जारी किए गए।
इस "वास्तविक दुनिया बेसलाइन" को प्राप्त करने के बाद, शोधकर्ताओं ने एक लंबी अल्पकालिक मेमोरी (एलएसटीएम) तंत्रिका नेटवर्क के आधार पर एक नए फ्लैश फ्लड भविष्यवाणी मॉडल को प्रशिक्षित किया, जिससे यह वैश्विक मौसम पूर्वानुमान डेटा इनपुट करने और एक विशिष्ट क्षेत्र में फ्लैश फ्लड की संभावना को आउटपुट करने की अनुमति देता है। वर्तमान में, Google के फ्लैश फ्लड भविष्यवाणी मॉडल ने अपने फ्लड हब प्लेटफॉर्म पर 150 देशों में शहरी क्षेत्रों के लिए जोखिम युक्तियाँ प्रदान की हैं, और दुनिया भर में कई आपातकालीन प्रबंधन एजेंसियों के लिए डेटा खोला है। दक्षिणी अफ्रीकी विकास समुदाय (एसएडीसी) के एक आपातकालीन प्रतिक्रिया अधिकारी एंटोनियो जोस बेलेज़ा ने Google के साथ एक परीक्षण में कहा कि मॉडल ने उनकी टीम को बाढ़ पर तेजी से प्रतिक्रिया करने में मदद की।
हालाँकि, इस प्रणाली की अभी भी स्पष्ट सीमाएँ हैं। एक ओर, इसका स्थानिक रिज़ॉल्यूशन अपेक्षाकृत कम है और यह वर्तमान में केवल लगभग 20 वर्ग किलोमीटर के पैमाने पर जोखिम मूल्यांकन प्रदान कर सकता है; दूसरी ओर, क्योंकि इसमें स्थानीय रडार जैसे वास्तविक समय वर्षा निगरानी डेटा शामिल नहीं है, इसकी सटीकता संयुक्त राज्य अमेरिका में राष्ट्रीय मौसम सेवा की मौजूदा बाढ़ चेतावनी प्रणाली जितनी सटीक नहीं है।
Google ने इस बात पर जोर दिया कि इस परियोजना का एक मूल उद्देश्य उन क्षेत्रों को विकसित करने में भूमिका निभाना था, जिनमें महंगे मौसम अवलोकन बुनियादी ढांचे की कमी है और जिनके पास कोई दीर्घकालिक मौसम रिकॉर्ड नहीं है। दुनिया भर से लाखों समाचार रिपोर्टों को एकत्रित करके, ग्राउंडसोर्स डेटासेट "मानचित्र को एक हद तक संतुलित करता है" जो मॉडल को उन क्षेत्रों में पूर्वानुमान लगाने की अनुमति देता है जहां डेटा अन्यथा दुर्लभ है। Google की रेजिलिएंस टीम के प्रोग्राम मैनेजर जूलियट रोथेनबर्ग ने कहा कि इस दृष्टिकोण ने टीम को उन क्षेत्रों को कवर करने की अनुमति दी जहां पहले जानकारी की भारी कमी थी।
रोथेनबर्ग ने यह भी कहा कि पाठ कथाओं को संरचित मात्रात्मक डेटा में बदलने के लिए बड़े भाषा मॉडल का उपयोग करने का विचार फ्लैश फ्लड तक सीमित नहीं है। भविष्य में, इसी तरह की तकनीकों का उपयोग समान रूप से अल्पकालिक लेकिन अत्यधिक महत्वपूर्ण प्राकृतिक घटनाओं जैसे गर्मी की लहरों और भूस्खलन पर डेटा सेट बनाने के लिए किए जाने की उम्मीद है, जो अधिक चरम मौसम और भूवैज्ञानिक आपदाओं की भविष्यवाणी के लिए आधार प्रदान करेगी।
उद्योग के अंदरूनी सूत्रों के अनुसार, Google का प्रयास रचनात्मक डेटा संग्रह के माध्यम से गहन शिक्षण मौसम पूर्वानुमान के विकास को बढ़ावा देने में एक महत्वपूर्ण कदम है। अपस्ट्रीम टेक के सीईओ मार्शल मौटेनोट, एक कंपनी जो जलविद्युत कंपनियों जैसे ग्राहकों के लिए नदी के प्रवाह की भविष्यवाणी करने के लिए गहन शिक्षण का उपयोग करती है, ने बताया कि पृथ्वी विज्ञान का वर्तमान क्षेत्र "डेटा की कमी" की लगातार समस्या का सामना कर रहा है: एक तरफ, पृथ्वी अवलोकन डेटा बेहद जटिल है, और दूसरी ओर, बहुत सीमित उच्च गुणवत्ता वाले "सत्य मूल्य" हैं जिनका उपयोग मॉडल को कैलिब्रेट और मान्य करने के लिए किया जा सकता है। माउटेनोट डायनामिकल.ओआरजी के सह-संस्थापक भी हैं, जो शोधकर्ताओं और स्टार्टअप के लिए मौसम डेटा सेट व्यवस्थित करने के लिए समर्पित संगठन है जिसका उपयोग सीधे मशीन लर्निंग में किया जा सकता है। उनका मानना है कि Google का कार्य "बहुत रचनात्मक तरीकों" के माध्यम से मूल्यवान डेटा प्राप्त करने का एक विशिष्ट उदाहरण है।