Entrevue avec Vincent Larivière

Date: 11 Février 2019
Catégories: bibliométrie
sciences de l'information

Résumé: Le projet de l’Observatoire des sciences et des technologies vise à constituer un index de citations à partir de la plateforme Érudit.

1. L’Observatoire des sciences et des technologies (OST) est mondialement reconnu pour son expertise dans le secteur de la mesure et de l’évaluation de la recherche. Pouvez-vous nous en dire plus sur la mission et les activités de l’OST?

L’OST est un organisme dédié à la mesure de la science, de la technologie et de l’innovation, créé en 1997 à Montréal. Les membres de l’équipe de l’OST ont développé une expertise de calibre international en scientométrie, en technométrie et en mesure et évaluation de la recherche. Ils constituent, enrichissent et entretiennent plusieurs banques de données sur la recherche et développement (R&D), le financement de la recherche, les brevets et les publications scientifiques, dans le but d’offrir différents services en matière d’évaluation des activités scientifiques et technologiques. L’OST compte une trentaine de partenaires canadiens et a réalisé plus de 500 mandats pour des organismes privés, publics et parapublics.

2. Dans le cadre du projet CO.SHS, l’équipe de l’OST travaille à la constitution d’un index de citations basé sur le corpus de revues savantes et culturelles de la plateforme Érudit. Pouvez-vous nous rappeler ce qu’est un index de citations?

Un index de citations est une base de données bibliographique qui recense, comme toute base documentaire, différentes métadonnées telles que le nom des auteur.e.s, l’année de publication, le titre de la publication, le nom de la revue, le résumé et les mots-clés. Les index de citations ont toutefois la particularité d’indexer, en plus de ces informations traditionnelles, les références citées dans les publications de même que l’adresse institutionnelle (ou « affiliation ») des auteur.e.s.

Cela permet de comprendre les relations formelles qui existent entre les documents. Plutôt que de chercher uniquement par mots-clés, les index de citations permettent donc de naviguer entre des documents qui ont des références bibliographiques en commun ou des liens citant-cité, sans nécessairement que ces documents contiennent les mêmes mots ou soient publiés dans les mêmes revues.

3. Quelle est la spécificité de l’index que vous développez?

Dans les années 1960-1970, les index de citations étaient considérés comme révolutionnaires, mais ils sont aujourd’hui très répandus. Alors que le Web of Science (Clarivate Analytics) est demeuré le seul index de citations pendant de nombreuses années, il existe une douzaine d’index de citations à l’échelle mondiale depuis le début des années 2000.

Malgré leur grand nombre aujourd’hui, la couverture des principaux index de citations présente encore un fort biais en faveur des revues internationales et, plus généralement, de la littérature scientifique anglo-américaine. L’index de citations développé par l’OST permettra de pallier ce problème pour le cas des publications scientifiques de langue française, et d’ainsi combler un manque dans nos connaissances actuelles à propos de la production des connaissances en français.

4. L’index de citations permettra, d’une part, de naviguer d’un article à l’autre sur la plateforme Érudit grâce aux réseaux de citations qui relient les documents entre eux et, d’autre part, de mieux comprendre les modes de production et de diffusion des connaissances en sciences sociales et humaines et en arts et lettres, au Québec et au Canada. Quelle(s) forme(s) prendra l’index de citations pour répondre à cette double fonction?

L’index de citations prendra trois formes différentes. La première sera l’intégration, sur la plateforme Érudit, de ces nouvelles fonctionnalités permettant la navigation entre les documents, à commencer par l’ajout de liens entre les documents citant et les documents cités. De nombreuses bases documentaires, telles que Google Scholar et Web of Science, permettent déjà la navigation par les réseaux de citations.

Les deux autres formes que prendra l’index de citations sont liées à la mise à disposition des données pour la recherche scientifique. Il y aura d’abord une base de données relationnelle (Microsoft SQL Server) créée et maintenue par l’équipe de l’OST qui sera mise à la disposition des chercheur.e.s intéressé.e.s. Il sera également possible pour les chercheur.e.s qui souhaitent constituer leur propre base de données de demander un transfert en lot des données. Ce « data dump » sera mis à jour une fois l’an.

5. Pour ce qui concerne l’implantation directe à la plateforme Érudit, comment entrevoyez-vous l’arrimage avec l’équipe d’Érudit? La mise à jour des citations pourra-t-elle se faire de façon automatisée, en continu?

Il faudrait que la mise à jour se fasse en temps réel pour la production courante (c’est-à-dire les numéros de revues de l’année en cours), comme c’est le cas pour toutes les bases documentaires recensant les citations qui existent en ce moment. Cela nécessitera éventuellement un travail en collaboration avec l’équipe d’Érudit, car les processus de production de documents XML devront être adaptés. Bien sûr, les développements informatiques permettant de faire de la plateforme un véritable index de citations sont importants et nécessitent un financement récurrent qui va au-delà du projet prévu dans le cadre de CO.SHS. Il faudra donc s’assurer de bien prévoir la suite du travail.

Dans un premier temps, il serait tout à fait possible d’ajouter un bouton sur les pages de détail des documents sur la plateforme – un peu comme les métriques de PLOS –, indiquant le nombre de citations relevées pour ce document, et qui pourrait mener vers la liste des documents citant sur le site de Crossref.

Source : https://doi.org/10.1371/journal.pone.0011273

6. Où en êtes-vous, à ce jour, dans les développements et quelles sont les principales difficultés que vous rencontrez?

Nous travaillons présentement à l’identification et à l’uniformisation des affiliations des auteur.e.s. Les défis auxquels nous faisons face sont liés à la grande hétérogénéité des formats dans lesquels les données existent, étant donné que le choix du format de présentation est laissé à la discrétion de chaque revue sur Érudit.

Les références bibliographiques sont donc parfois situées à la fin des documents, dans une bibliographie, mais dans certains cas, elles sont plutôt en notes de bas de page – et les notes de bas de page sont extrêmement difficiles à extraire pour une machine. Les deux types de références peuvent aussi cohabiter dans un même document. Il en va de même pour les affiliations des auteur.e.s : elles peuvent être indiquées au début des documents, sous le nom des auteur.e.s, ou encore être mentionnées dans une note biographique en fin d’article. Il faut donc beaucoup de travail manuel pour bien identifier chaque information.

7. Comment vous assurerez-vous que l’index ne fonctionne pas en vase clos?

Un index de citation n’a d’utilité que s’il fonctionne à grande échelle. Il est donc essentiel d’aller au-delà des documents qui sont diffusés par la plateforme Érudit et de relier un maximum de publications entre elles. C’est pourquoi nous travaillons avec Crossref, une organisation à but non lucratif qui offre différents services de référencement des contenus savants et de partage de métadonnées, dont les citations. Nos efforts visent à créer de meilleurs liens avec Crossref et avec d’autres services qui indexent ces informations (par exemple Microsoft Academic et Google Scholar). Il n’existe pas de solution idéale présentement.

8. Comment vous situez-vous par rapport à d’autres initiatives dans le monde en matière de métadonnées et de citations ouvertes?

À l’heure actuelle, une grande partie des données portant sur la production des connaissances (usage, impact, etc.) sont détenues par des compagnies privées. C’est pourquoi nous collaborons avec des initiatives et des organisations à but non lucratif pour construire une infrastructure collective de recherche, ouverte et gratuite, qui appartient à la communauté universitaire, et qui permettra de valoriser les publications francophones. Par exemple, l’Initiative pour les citations ouvertes (I4OC) joue un rôle important. Il s’agit d’un projet regroupant des éditeurs scientifiques, des chercheurs et d’autres acteurs du milieu universitaire dont l’objectif est de promouvoir l’accès sans restrictions aux données de citations, à laquelle Érudit participe depuis janvier 2018. Plus de la moitié des références courantes à travers le monde y sont maintenant recensées.

Pour tout savoir sur l’avancement du projet, suivez @coshslab sur Twitter!

Entrevue avec Vincent Larivière

Nouvelle