Une vision dominante en science est qu’il existe une vérité mathématique structurant l’univers. On suppose que le travail du scientifique est de déchiffrer ces relations mathématiques : une fois comprises, elles peuvent être traduites en modèles mathématiques. Exécuter la « réalité de silicium » résultante dans un ordinateur peut alors nous fournir des informations utiles sur la façon dont le monde fonctionne.
Puisque la science ne cesse de révéler des secrets, les modèles ne cessent de grossir. Ils intègrent des découvertes et des mécanismes nouvellement trouvés pour mieux refléter le monde qui nous entoure. De nombreux chercheurs supposent que des modèles plus détaillés produire des estimations plus précises et de meilleures prédictions car elles sont plus proches de la réalité. Mais nos nouvelles recherches, Publié dans Avancées scientifiquessuggère qu’ils peuvent avoir l’effet inverse.
L’hypothèse selon laquelle « plus de détails, c’est mieux » recoupe les domaines disciplinaires. Les ramifications sont énormes. Les universités se dotent d’ordinateurs de plus en plus puissants car elles veulent faire tourner des modèles de plus en plus gros, nécessitant une puissance de calcul de plus en plus importante. Récemment, la Commission européenne a investi 8 milliards d’euros (6,9 milliards de livres sterling) pour créer une simulation très détaillée de la Terre (avec des humains), surnommé un « jumeau numérique », en espérant mieux répondre aux défis sociaux et écologiques actuels.
Dans nos dernières recherches, nous montrons que la poursuite de modèles toujours plus complexes comme outils pour produire des estimations et des prévisions plus précises peut ne pas fonctionner. Sur la base de la théorie statistique et d’expériences mathématiques, nous avons exécuté des centaines de milliers de modèles avec différentes configurations et mesuré l’incertitude de leurs estimations.
Nous avons découvert que des modèles plus complexes avaient tendance à produire des estimations plus incertaines. En effet, de nouveaux paramètres et mécanismes sont ajoutés. Un nouveau paramètre, par exemple l’effet du chewing-gum sur la propagation d’une maladie, doit être mesuré et est donc sujet à des erreurs de mesure et à l’incertitude. Les modélisateurs peuvent également utiliser différentes équations pour décrire mathématiquement le même phénomène.
Une fois ces nouveaux ajouts et leurs incertitudes associées intégrés dans le modèle, ils viennent s’ajouter aux incertitudes déjà présentes. Et les incertitudes continuent de croître à chaque mise à niveau du modèle, rendant la sortie du modèle plus floue à chaque étape du processus, même si le modèle lui-même devient plus fidèle à la réalité.
Cela affecte tous les modèles qui ne disposent pas de données de validation ou de formation appropriées permettant de vérifier l’exactitude de leur sortie. Cela comprend les modèles mondiaux du changement climatique, de l’hydrologie (débit d’eau), de la production alimentaire et de l’épidémiologie, ainsi que tous les modèles prédisant les impacts futurs.
Résultats flous
En 2009, des ingénieurs ont créé un algorithme appelé Google Flu Trends pour prédire la proportion de visites chez le médecin liées à la grippe aux États-Unis. Bien qu’il soit basé sur 50 millions de requêtes que les gens avaient tapées dans Google, le modèle n’a pas été en mesure de prédire l’épidémie de grippe porcine de 2009. Les ingénieurs ont alors rendu le modèle, qui ne fonctionne plus, encore plus complexe. Mais ce n’était toujours pas si précis. Recherche menée par le psychologue allemand Gerd Gigerenzer a montré qu’il surestimait systématiquement les visites chez le médecin en 2011-2013, dans certains cas de plus de 50%.
Gigerenzer a découvert qu’un modèle beaucoup plus simple pourrait produire de meilleurs résultats. Son modèle a prédit les taux de grippe hebdomadaires en se basant uniquement sur une toute petite donnée : combien de personnes avaient vu leur médecin généraliste la semaine précédente.
Un autre exemple est celui des modèles hydrologiques mondiaux, qui suivent comment et où l’eau se déplace et est stockée. Ils ont commencé simples dans les années 1960 en se basant sur les « processus d’évapotranspiration » (la quantité d’eau qui pouvait s’évaporer et transpirer d’un paysage couvert de plantes) et se sont rapidement étendus, prenant en compte les utilisations domestiques, industrielles et agricoles de l’eau à l’échelle mondiale. La prochaine étape pour ces modèles consiste à simuler les demandes en eau sur Terre pour chaque kilomètre et chaque heure.
Et pourtant on se demande si ce détail supplémentaire ne va pas seulement les rendre encore plus alambiqués. Nous ont montré que les estimations de la quantité d’eau utilisée pour l’irrigation produites par huit modèles hydrologiques mondiaux peuvent être calculées avec un seul paramètre : l’étendue de la zone irriguée.
Voies à suivre
Pourquoi le fait que plus de détails peuvent aggraver un modèle a-t-il été négligé jusqu’à présent ? De nombreux modélisateurs ne soumettent pas leurs modèles à une analyse d’incertitude et de sensibilité, des méthodes qui indiquent aux chercheurs comment les incertitudes du modèle affectent l’estimation finale. Beaucoup continuent d’ajouter des détails sans déterminer quels éléments de leur modèle sont les plus responsables de l’incertitude de la sortie.
C’est inquiétant car les modélisateurs sont intéressés par le développement de modèles toujours plus grands – en fait, des carrières entières sont construites sur des modèles complexes. C’est parce qu’ils sont plus difficiles à falsifier : leur complexité intimide les étrangers et complique la compréhension de ce qui se passe à l’intérieur du modèle.
Il existe cependant des remèdes. Nous suggérons de veiller à ce que les modèles ne deviennent pas de plus en plus gros pour le plaisir. Même si les scientifiques effectuent une analyse d’incertitude et de sensibilité, leurs estimations risquent de devenir si incertaines qu’elles deviennent inutiles pour la science et l’élaboration des politiques. Investir beaucoup d’argent dans l’informatique juste pour exécuter des modèles dont l’estimation est complètement floue n’a pas beaucoup de sens.
Les modélisateurs devraient plutôt réfléchir à la manière dont l’incertitude augmente avec chaque ajout de détails dans le modèle et trouver le meilleur compromis entre le niveau de détail du modèle et l’incertitude de l’estimation.
Pour trouver ce compromis, on peut utiliser le concept de « dimensions effectives » – une mesure du nombre de paramètres qui ajoutent de l’incertitude à la sortie finale, en tenant compte de la façon dont ces paramètres interagissent les uns avec les autres – que nous définissons dans notre article .
En calculant les dimensions effectives d’un modèle après chaque mise à niveau, les modélisateurs peuvent évaluer si l’augmentation de l’incertitude rend toujours le modèle adapté à la politique ou, au contraire, si elle rend la sortie du modèle si incertaine qu’elle est inutile. Cela augmente la transparence et aide les scientifiques à concevoir des modèles qui servent mieux la science et la société.
Certains modélisateurs peuvent toujours soutenir que l’ajout de les détails du modèle peuvent conduire à des estimations plus précises. La charge de la preuve leur incombe désormais.
Cet article est republié de La conversation sous licence Creative Commons. Lis le article original.