L’apprentissage en profondeur sous-tend l’ensemble de données géographiques utilisé dans la réponse aux ouragans

La NASA annonce 16 personnes qui etudieront les ovnis pour

Alors que l’ouragan Fiona a touché terre en tant que tempête de catégorie 1 à Porto Rico le 18 septembre 2022, certaines zones de l’île ont été inondées de près de 30 pouces de pluie et l’électricité de centaines de milliers de foyers a été coupée. Seulement 10 jours plus tard, l’ouragan Ian, une tempête de catégorie 4 et l’une des tempêtes les plus fortes et les plus dévastatrices jamais enregistrées, a atterri dans le comté de Lee, en Floride, rasant des maisons et inondant des villes avant de remonter la côte et de toucher terre à nouveau en tant que tempête de catégorie 1. en Caroline du Sud.

Des conditions météorologiques extrêmes et des catastrophes naturelles se produisent avec une fréquence croissante aux États-Unis et dans ses territoires. Des cartes précises et détaillées sont essentielles pour les interventions d’urgence et le rétablissement.

Avant même que les ouragans ne touchent terre, l’Agence fédérale de gestion des urgences travaillait avec la chercheuse Lexie Yang et son équipe du laboratoire national d’Oak Ridge du ministère de l’Énergie pour prévoir les dommages potentiels et accélérer la réponse sur le terrain à l’aide de US Structures, un ensemble de données massif de contours et attributs de construction couvrant plus de 125 millions de structures.

Au cours des sept dernières années, les chercheurs de la Division des sciences géospatiales et de la sécurité humaine de l’ORNL ont cartographié et caractérisé toutes les structures aux États-Unis et dans ses territoires pour aider la FEMA dans sa réponse aux catastrophes. Cet ensemble de données fournit une comptabilité nationale cohérente des bâtiments où les gens résident et travaillent.

L’agence a demandé deux nouveaux attributs pour les données le jour même où Fiona a touché terre : les types d’occupation et les adresses, des informations essentielles pour accélérer les fonds d’urgence fédéraux aux ménages et aux entreprises.

« Nous avons rencontré des barrières linguistiques lorsque nous avons ajouté les nouvelles données : les informations limitées dont nous disposions étaient en espagnol. De plus, il existe de nombreuses façons différentes de documenter les adresses de Porto Rico. Devoir unifier ces données et valider les informations d’attribution était un défi unique pour nous », a déclaré Yang.

Même avec ce défi, l’équipe de Yang a pu traduire, valider et fusionner les nouveaux attributs avec les données US Structures en environ 50 heures. C’est le résultat de la mise en place d’un pipeline d’informations évolutif et d’une base de données construite à partir d’années d’efforts. La FEMA a commencé à planifier sa réponse en utilisant les cartes de base des structures américaines des zones susceptibles d’être touchées. Le personnel de la FEMA a ajouté des couches de données au fur et à mesure que les catastrophes se déroulaient, permettant à l’agence de prioriser la réponse aux zones les plus touchées.

« La FEMA dispose d’un SIG [geographic information systems] analystes qui prennent nos données et les intègrent à l’imagerie satellite post-catastrophe, à l’imagerie aérienne et aux informations que les premiers intervenants collectent sur le terrain », a déclaré Carter Christopher de l’ORNL, chef de section pour la dynamique humaine à la division des sciences géospatiales et de la sécurité humaine.

L’ensemble de données existant, associé à des informations d’impact en temps réel, peut accélérer la récupération en prenant en charge les évaluations des dommages dont les propriétaires ont besoin pour recevoir des fonds pour la reconstruction en quelques jours plutôt qu’en semaines ou en mois.

« Notre équipe est extrêmement fière de faire partie de ce projet », a déclaré Yang. « Nous voyons comment nos capacités techniques et nos connaissances peuvent transformer l’ensemble de données utilisé par la FEMA et les parties prenantes locales. »

US Structures a fait ses débuts en 2015, lorsque les anciens chercheurs de l’ORNL, Mark Tuttle et Melanie Laverdiere, travaillaient sur un projet FEMA visant à cartographier les parcs de maisons mobiles aux États-Unis. Les maisons mobiles sont particulièrement vulnérables aux catastrophes naturelles, et peu de données existaient pour identifier l’emplacement de celles-ci à -structures à risques.

L’équipe a utilisé l’apprentissage en profondeur, un sous-ensemble de l’apprentissage automatique, pour traiter les images et compiler les données. L’apprentissage automatique utilise des ordinateurs pour détecter des modèles dans des quantités massives de données, puis fait des prédictions basées sur ce que l’ordinateur apprend de ces modèles. Dans l’apprentissage en profondeur, le système informatique crée ses propres algorithmes plutôt que d’utiliser des algorithmes développés et entrés par un humain.

Après la compilation de la base de données nationale des parcs de maisons mobiles, la FEMA a demandé une base de données plus complète sur les structures.

Le processus a commencé avec un flux d’images haute résolution provenant d’un fournisseur commercial d’images satellite et un prétraitement. Les images brutes devaient être adaptées aux variations réelles du terrain – un processus appelé orthorectification – et affinées pour améliorer la résolution. Ce processus a fait passer l’image d’une résolution spatiale de 2 à 3 mètres aux 0,3 mètres nécessaires à l’extraction des caractéristiques.

La résolution spatiale est similaire à celle vue sur Google Maps ; les objets mesurant quelques mètres sont reconnaissables à l’œil humain. Une fois préparées, les images sont entrées dans un pipeline d’extraction de caractéristiques hébergé par un cluster GPU au sein de l’ORNL’s Compute and Data Environment for Science, ou CADES, qui offre des services de données hautes performances aux chercheurs de tout le laboratoire.

Pour démarrer le modèle d’apprentissage en profondeur, les scientifiques ont donné au système une gamme d’images balisées, ou de données de formation, à étudier. Fonctionnant comme un réseau neuronal profond, le modèle d’apprentissage automatique s’est entraîné pour analyser des entrées similaires.

À ce jour, plus de 59 000 exemples de formation représentant un large éventail de caractéristiques géographiques ont été intégrés au modèle US Structures. Lorsque l’équipe a commencé à travailler sur un nouvel état, elle a préparé l’ensemble d’entraînement avec de nouveaux exemples spécifiques à la région en plus des données d’entraînement cumulées pour les états qui l’ont précédé.

Les gains de production au cours des dernières années proviennent de l’amélioration continue du matériel et de la puissance de calcul de l’ORNL, des progrès réalisés dans l’apprentissage en profondeur et d’un volume croissant de données de formation informant le modèle basé sur l’intelligence artificielle. Au fur et à mesure que le projet avançait, les cartes devenaient plus précises, nécessitant moins d’intervention humaine, et le temps de traitement des images devenait de plus en plus court.

Le réseautage neuronal convolutif a réduit en quelques minutes un processus qui aurait pris de nombreuses années à la main humaine. À ce jour, l’équipe a traité 1,1 pétaoctet d’images, assemblées et décrivant l’équivalent d’un milliard de photographies numériques.

Une fois l’extraction des caractéristiques terminée, les chercheurs se sont appuyés sur les fournisseurs commerciaux de données de parcelles pour fusionner les informations sur l’utilisation des terres directement sur les caractéristiques des bâtiments US Structures.

« Ces informations supplémentaires, lorsqu’elles sont disponibles, rendent les données sur les structures plus puissantes. S’agit-il d’une maison, d’un entrepôt ou d’une église ? Chacun de ces éléments a des implications différentes en cas de catastrophe », a déclaré Christopher.

Si aucune donnée fiable sur l’utilisation des sols n’était disponible, l’équipe a utilisé un modèle d’apprentissage automatique distinct pour distinguer les structures résidentielles des non résidentielles. Les structures sont également décrites avec d’autres attributs tels qu’un identifiant de bâtiment unique, une superficie en pieds carrés, une longitude et une latitude.

« Nous prenons beaucoup de temps pour vérifier que tout ce que nous remettons à la FEMA est de la plus haute qualité que nous puissions fournir », a déclaré Yang.

Ce puissant l’ensemble de données open source est accessible au public de la GeoPlatform du gouvernement américain. De plus, l’US Geological Survey a ajouté les données à la carte nationale, un effort de collaboration entre des agences et des partenaires américains pour fournir des informations topographiques. L’équipe de l’ORNL espère que le libre accès aux données sera utile aux institutions universitaires pour la recherche et aux petites agences municipales pour la planification des risques.

« Beaucoup de comtés ruraux et de petites juridictions n’ont peut-être pas le budget nécessaire pour collecter ou acheter ce type de données autrement », a déclaré Christopher. « Il pourrait être utilisé par les premiers intervenants ou les fournisseurs de services de base. Il pourrait également être appliqué aux besoins au niveau du comté pour l’urbanisme ou les évaluations immobilières. »

Les chercheurs de l’ORNL sur le projet incluent Taylor Hauser, Benjamin Swan, Andrew Reith et Matthew Whitehead. Les autres contributeurs incluent Brad Miller, Matthew Crockett et Katie Heying.

Dans la prochaine phase du projet, l’équipe prévoit de remplir les deux attributs clés – les types d’occupation et les adresses – pour le reste des États et d’aborder les informations de hauteur et d’élévation nécessaires à la modélisation des inondations.

La mise en place d’un processus durable pour détecter et intégrer les changements au fil du temps sera essentielle pour prolonger la durée de vie de l’ensemble de données. De plus, ce modèle puissant pourrait être utilisé à des fins similaires à travers le monde dans la planification et la réponse aux catastrophes ou associé à d’autres technologies de détection pour extraire d’autres informations utiles.

Chris Vaughan, partenaire de projet de Yang à la FEMA, a été un défenseur enthousiaste des structures américaines, promouvant son utilisation et vantant le schéma cohérent et l’accessibilité des données.

« Les opérations en cas de catastrophe nécessitent un ensemble de données de structure standardisé et accessible pour aider à rationaliser l’assistance aux survivants. Le travail de l’ORNL sur les structures américaines nous a aidés à partager des données d’incident avec nos partenaires interinstitutions comme jamais auparavant », a déclaré Vaughan. « De plus, ils nous aident à combler les lacunes de données de longue date liées aux populations vulnérables, ce qui est une priorité absolue pour notre équipe. »

Yang a constaté un intérêt croissant de la part des agences fédérales, des organismes de recherche, des gouvernements locaux et des praticiens non seulement pour l’utilisation de l’ensemble de données, mais également pour la contribution et l’intégration de données provenant de projets locaux plus petits.

« Ce projet est toujours en évolution et nous prévoyons de continuer à avoir des mises à jour majeures des données actuelles », a-t-elle déclaré. « Nous espérons que davantage de communautés utiliseront les données. Il s’est déjà avéré utile grâce au travail de la FEMA, mais il peut y avoir d’autres applications qui ont encore plus d’impact. »

Fourni par le laboratoire national d’Oak Ridge

ph-tech