L’analyse par apprentissage automatique des citations de recherche met en évidence l’importance du financement fédéral pour la recherche scientifique fondamentale

Des chercheurs utilisent un ordinateur quantique pour identifier un candidat

La recherche biomédicale visant à améliorer la santé humaine dépend particulièrement de la science fondamentale financée par des fonds publics, selon une nouvelle analyse renforcée par l’intelligence artificielle.

« Ce que nous avons découvert, c’est que même si la recherche financée par les National Institutes of Health représente 10 % de la littérature scientifique publiée, ces articles publiés représentent environ 30 % de la recherche de fond – les contributions importantes soutenant encore plus de nouvelles découvertes scientifiques – citées par poursuivre la recherche clinique dans le même domaine », déclare B. Ian Hutchins, professeur à l’École d’information de l’Université du Wisconsin-Madison, qui fait partie de l’École des sciences informatiques, des données et de l’information. « C’est une surreprésentation assez importante. »

Hutchins et ses co-auteurs Travis Hoppe, maintenant scientifique des données aux Centers for Disease Control and Prevention, et Salsabil Arabi, étudiant diplômé de l’UW-Madison, ont récemment publié leurs conclusions dans le Actes de l’Académie nationale des sciences.

Les documents de recherche publiés comprennent généralement de longues sections citant tous les travaux antérieurs soutenant ou référencés dans l’étude. « Prédire les citations biomédicales substantielles sans texte intégral », l’article de Hutchins et Hoppe que vous lisez en ce moment, a cité pas moins de 64 autres études et sources dans sa section « Références ».

Les citations représentent le transfert de connaissances d’un scientifique (ou d’un groupe de scientifiques) à un autre. Les citations sont largement cataloguées et suivies pour mesurer l’importance des études individuelles et des personnes qui les mènent, mais toutes les citations incluses dans un article donné n’apportent pas toutes des contributions aussi importantes à la recherche qu’elles décrivent.

« On nous enseigne qu’en tant que scientifiques, lorsque nous faisons une affirmation factuelle, nous sommes censés l’étayer par une sorte de preuve empirique », explique Hutchins. « Comme dans les entrées Wikipédia, vous ne pouvez pas avoir le petit indicateur « citation nécessaire ici ». Vous devez ajouter cette citation. Mais si le fait que vous citez ne décrit pas réellement le travail antérieur clé sur lequel vous vous êtes appuyé, alors il ne soutient pas vraiment l’interprétation selon laquelle la citation représente une étape préalable nécessaire vers vos résultats. »

Hutchins et ses collaborateurs ont estimé que les citations ajoutées plus tard dans le processus de publication, comme celles qui apparaissent à la demande des pairs évaluateurs (les experts en la matière qui évaluent les articles scientifiques soumis aux revues), sont moins susceptibles d’avoir été véritablement importantes pour la recherche des auteurs. .

« Si vous vous basez sur le travail d’autres personnes, vous identifiez probablement ce travail plus tôt dans le processus de recherche », explique Hutchins. « Cela ne signifie pas que toutes les références qui figurent dans une première version du manuscrit sont importantes, mais les plus importantes sont probablement plus concentrées dans cette version antérieure. »

Pour faire la distinction entre début et fin, les chercheurs ont formé un algorithme d’apprentissage automatique pour juger les citations en fonction de leur importance en lui fournissant des informations sur les citations provenant d’un pool de plus de 38 000 articles scientifiques. Les données de citation de chaque article étaient disponibles en deux versions : une version préimprimée, publiée publiquement avant l’examen par les pairs, et la version finale publiée qui avait fait l’objet d’un examen par les pairs.

L’algorithme a trouvé des modèles pour aider à identifier les citations les plus susceptibles d’être importantes pour chaque élément scientifique publié. Ces résultats ont révélé que la science biologique fondamentale financée par les NIH apparaissait dans les citations les plus importantes à un rythme trois fois supérieur à sa part dans toutes les recherches publiées.

« Le financement fédéral de la recherche fondamentale fait l’objet d’un examen constant de la part des membres du public et des dirigeants du Congrès », a déclaré Hutchins. « Cela nous donne des preuves, pas seulement des anecdotes, que ce type de financement de la recherche fondamentale est vraiment important pour stimuler le type de recherche clinique (traitements et remèdes pour les personnes) que le Congrès a tendance à être plus réceptif au financement. »

Plus d’information:
Travis A. Hoppe et al, Prédire les citations biomédicales substantielles sans texte intégral, Actes de l’Académie nationale des sciences (2023). DOI : 10.1073/pnas.2213697120. www.pnas.org/doi/10.1073/pnas.2213697120

Fourni par l’Université du Wisconsin-Madison

ph-tech