Description
L’équipe de Vialab (Christopher Collins et Adam James Bradley, University of Ontario Institute of Technology) développe une suite logicielle composée de trois outils de recherche et de navigation dans de vastes corpus de documents textuels, visant à répondre de manière innovante aux besoins actuels et émergents des chercheur.e.s en sciences humaines et sociales. La démarche de Vialab s’inscrit dans un changement de paradigme : développer des outils qui favorisent l’émergence de nouvelles questions plutôt que de fournir des réponses à des questions que l’on connaît d’emblée.
Le premier outil, nommé Textension, est une solution simple permettant d’interagir avec des documents textuels au format image – aujourd’hui très nombreux dans les bibliothèques numériques en raison des projets de numérisation de documents anciens ou d’archives. Il permettra notamment la manipulation des espaces pour la prise de notes, l’insertion de visualisations de données, la traduction automatisée et la correction manuelle du résultat de la reconnaissance optique de caractères (ROC) de ces documents.
Le deuxième outil est un analyseur de documents qui utilise l’apprentissage machine (machine learning) pour aider les chercheur.e.s à trouver des documents pertinents au sein du corpus de la plateforme Érudit, qu’ils soient en français ou en anglais. L’outil permet la navigation par les idées et concepts trouvés dans ces documents et offre différentes visualisations pour explorer les résultats.
Le troisième projet de Vialab est une carte culturelle basée sur les entités nommées extraites du plein texte du corpus d’Érudit, qui permet l’exploration et l’analyse de réseaux dont les nœuds et les dimensions peuvent être paramétrés par les utilisateurs.