Un nouvel outil d’IA permet d’exploiter une base de données de 10 millions d’images biologiques

Les chercheurs ont développé le plus grand ensemble de données d’images biologiques jamais adapté à l’apprentissage automatique, ainsi qu’un nouvel outil d’intelligence artificielle basé sur la vision pour en tirer des leçons.

Les résultats de la nouvelle étude élargissent considérablement la portée de ce que les scientifiques peuvent faire en utilisant l’intelligence artificielle pour analyser des images de plantes, d’animaux et de champignons afin de répondre à de nouvelles questions, a déclaré Samuel Stevens, auteur principal de l’étude et titulaire d’un doctorat. étudiant en informatique et en ingénierie à l’Ohio State.

« Notre modèle sera utile pour des tâches couvrant l’ensemble de l’arbre de la vie », a déclaré Stevens. « Les chercheurs pourront réaliser des études qui n’auraient pas été possibles auparavant. »

Les conclusions sont publié sur le arXiv serveur de préimpression.

Stevens et ses collègues ont d’abord organisé et publié l’ensemble de données d’images prêt pour l’apprentissage automatique le plus vaste et le plus diversifié au monde, TreeOfLife-10M, qui contient plus de 10 millions d’images de plantes, d’animaux et de champignons couvrant plus de 454 000 taxons de l’arbre de vie. En comparaison, la précédente plus grande base de données prête pour l’apprentissage automatique ne contient que 2,7 millions d’images couvrant 10 000 taxons. La diversité de ces données est l’une des principales caractéristiques habilitantes de leur algorithme.

Ils ont ensuite développé BioCLIP, un nouveau modèle d’apprentissage automatique présenté aux chercheurs en décembre et conçu pour apprendre de l’ensemble de données en utilisant à la fois des repères visuels dans les images et divers types de texte associés aux images, tels que des étiquettes taxonomiques et d’autres informations.

Les chercheurs ont testé BioCLIP en voyant à quel point il pouvait classer les images selon leur place dans l’arbre de vie, y compris un ensemble de données sur des espèces rares qu’ils n’avaient pas vu pendant la formation. Les résultats ont montré qu’il était 17 à 20 % plus performant que les modèles existants sur cette tâche.

Le modèle BioCLIP est accessible au public ici. Sa démo, a déclaré Stevens, peut également discerner avec précision les espèces d’une image d’organisme arbitraire, qu’elle provienne de la savane du Serengeti, de votre zoo local ou de votre jardin.

Les approches informatiques traditionnelles utilisées pour organiser d’abondantes bases de données d’images biologiques sont généralement conçues pour des tâches spécifiques et ne sont pas aussi capables de répondre à de nouvelles questions, contextes et ensembles de données, a déclaré Stevens.

De plus, comme le modèle peut être largement appliqué à l’ensemble de l’arbre de vie, leur IA soutient davantage les biologistes dont la recherche dans le monde réel est plus largement ciblée, plutôt que ceux qui étudient des niches spécifiques, a-t-il ajouté.

Ce qui rend l’approche de cette équipe si efficace, a déclaré Yu Su, co-auteur de l’étude et professeur adjoint d’informatique et d’ingénierie à l’Ohio State, est la capacité de leur modèle à apprendre des représentations affinées d’images, ou à dire le différence entre des organismes d’apparence similaire au sein d’une même espèce et une espèce imitant leur apparence.

Alors que les modèles généraux de vision par ordinateur sont utiles pour comparer des organismes communs comme les chiens et les loups, des études antérieures ont révélé qu’ils ne peuvent pas prendre en compte les différences subtiles entre deux espèces du même genre végétal.

En raison de sa meilleure compréhension des nuances, a déclaré Su, le modèle présenté dans cet article est également particulièrement qualifié pour déterminer des espèces rares et invisibles.

« BioCLIP couvre bien plus d’espèces et de taxons que les modèles de vision générale auparavant accessibles au public », a-t-il déclaré. « Même s’il n’a jamais vu une certaine espèce auparavant, il peut arriver à une conclusion raisonnable sur la façon dont cet organisme ressemble à celui-ci, alors il est probable que cela le soit. »

À mesure que l’IA continue de progresser, conclut l’étude, les modèles d’apprentissage automatique comme celui-ci pourraient bientôt devenir des outils importants pour percer des mystères biologiques qui prendraient autrement beaucoup plus de temps à comprendre. Et bien que cette première itération de BioCLIP reposait largement sur des images et des informations provenant de plateformes scientifiques citoyennes, Stevens a déclaré que les futurs modèles pourraient être améliorés en incluant davantage d’images et de données provenant de laboratoires scientifiques et de musées. Étant donné que les laboratoires sont en mesure de collecter des descriptions textuelles plus riches d’espèces qui détaillent leurs caractéristiques morphologiques et d’autres différences subtiles entre des espèces étroitement apparentées, ces ressources fourniront une multitude d’informations importantes pour le modèle d’IA.

En outre, de nombreux laboratoires scientifiques disposent d’informations sur les fossiles d’espèces disparues, ce qui, selon l’équipe, élargira également l’utilité du modèle.

« Les taxonomies changent constamment à mesure que nous mettons à jour les noms et les nouvelles espèces, donc une chose que nous aimerions faire à l’avenir est de tirer davantage parti des travaux existants sur la manière de les intégrer », a-t-il déclaré. « En IA, lorsque vous lancez plus de données sur un problème, vous obtenez de meilleurs résultats. Je pense donc qu’il existe une version plus grande que nous pouvons continuer à entraîner dans un modèle plus grand et plus solide. »

Parmi les autres co-auteurs de l’État de l’Ohio figurent Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Tanya Berger-Wolf et Wei-Lun Chao. Li Dong de Microsoft Research, Wasila M Dahdul de l’Université de Californie à Irvine et Charles Stewart du Rensselaer Polytechnic Institute ont également contribué.

Plus d’information:
Samuel Stevens et al, BioCLIP : Un modèle de fondation de vision pour l’arbre de vie, arXiv (2023). DOI : 10.48550/arxiv.2311.18803

Informations sur la revue :
arXiv

Fourni par l’Université d’État de l’Ohio

ph-tech