Nouvelle

Le RALI est un laboratoire situé à l’Université de Montréal qui se spécialise dans le traitement automatique de la langue. Pouvez-vous nous en dire plus sur vos activités de recherche et sur votre expertise?

L’un de nos axes de recherche les plus importants est la recherche d’information, qui vise à satisfaire un besoin d’information (par exemple « Quels sont les effets secondaires d’un médicament? ») à partir d’une collection de documents. Or, depuis 2013, une partie de nos efforts de recherche se sont tournés vers l’OIE (« Open Information Extraction » ou extraction d’information ouverte), dont le but est l’acquisition de connaissances structurées à partir de texte libre, non structuré.

Nous nous intéressons également au recrutement électronique. Dans le cadre du projet Butterfly Predictive Project, nous développons avec notre partenaire industriel LittleBigJob Networks Inc. une plateforme pour améliorer le processus de recrutement de cadres et professionnels en exploitant le potentiel des mégadonnées (« big data »), issues notamment des médias sociaux.

Nous explorons aussi les domaines de la traduction automatique, du résumé automatique, du traitement des textes juridiques et de l’extraction et de la visualisation des mégadonnées, en collaboration avec différents organismes gouvernementaux et partenaires industriels.


Vous développez, dans le cadre du projet CO.SHS, un outil, surnommé Allium, qui permettra d’accroître les possibilités de découverte d’information de la plateforme Érudit grâce à l’OIE. Qu’est-ce que cela signifie plus concrètement?

Le but de l’OIE est l’extraction de connaissances structurées à partir de texte libre, non structuré (comme un article de journal ou une revue de film). Une fois extraits et correctement structurés, ces connaissances, ces relations, ces concepts et ces faits se prêtent à mille utilisations. Ils peuvent être croisés, comparés, agrégés, etc. pour faciliter la découverte d’information et donner à une base documentaire toute sa valeur.

Ainsi, on pourrait imaginer qu’un programme d’OIE « lise » tous les documents diffusés par Érudit et aide ensuite le lecteur d’un article à identifier des concepts-clés et des liens entre ceux-ci, ou encore à lier ces idées à d’autres corpus de documents externes. C’est justement là la nature de notre contribution à CO.SHS.


Qui seront, selon vous, les utilisateurs types de votre outil? Pouvez-vous nous donner des exemples de requêtes ou de besoins d’information auxquels Allium pourra répondre?

Pour nous, les utilisateurs de tout acabit pourront profiter de l’enrichissement d’Érudit par notre prototype Allium. Comme notre prototype s’inscrit dans l’axe Découvrir de CO.SHS, il tente d’amener les lecteurs vers des sources d’information additionnelles qui enrichissent le texte des articles du corpus. Le but est double lorsqu’on dirige ainsi le lecteur : clarifier le propos de l’article consulté avec des explications pertinentes, mais aussi mettre en valeur la collection consultée en proposant des articles ou documents dont l’utilisateur pourrait ignorer l’existence.

En définitive, comme Érudit est une collection relativement vaste, c’est un peu tout le monde qui est touché par ce dernier point.


Vos développements sont-ils spécifiquement prévus pour le corpus de revues savantes et culturelles diffusées sur Érudit ou pourraient-ils s’adapter à d’autres corpus?

Pour le moment, nous concentrons nos efforts sur les textes savants en français, ce qui nous semble le meilleur moyen de servir le projet CO.SHS de façon utile. L’adaptation au domaine étant toujours délicate en traitement des langues naturelles, nous ne prétendons pas que notre prototype s’adaptera sans difficulté à d’autres corpus. La règle est simple : plus une autre collection est similaire à Érudit, plus l’effort d’adaptation sera simple, et vice-versa.


Quelles difficultés avez-vous rencontrées jusqu’à maintenant pendant la réalisation de ce projet?

Les défis présentés par le projet sont multiples. Le principal tient à la composante scientifique maîtresse, soit l’OIE.

La plupart des chercheurs du domaine sont heureusement (ou pas...) confrontés aux mêmes difficultés : comment assurer une précision acceptable lors de l’extraction à partir d’un texte en format complètement libre, comment assurer une efficacité acceptable à ces algorithmes sur une collection au volume conséquent (200 000 documents) et, chose particulièrement importante, comment évaluer de façon impartiale nos progrès? Heureusement, ces progrès se manifestent... mais pas aussi vite que nous l’avions espéré.


Sur quels concepts et méthodes vous basez-vous? Qu’est-ce qui vous semble le plus innovant dans votre approche?

Les principes d’extraction d’information ouverte se fondent avant toute chose sur les travaux importants de Michele Banko et de ses collaborateurs (2007), qui ont baptisé le domaine et lui ont donné ses lettres de noblesse. Notre approche concrète, elle, emprunte aux travaux sur l’extracteur ReVerb d’Anthony Fader et coll. (2011) et sur l’extracteur Ollie de Mausam et coll. (2012). Nos travaux utilisent non seulement des outils inspirés des leurs, ou une version modifiée de ceux-ci, mais aussi les données qu’ils ont générées. En effet, nous espérons utiliser ces données comme amorce de bonne qualité pour le développement d’outils plus perfectionnés. C’est ce qu’on appelle une supervision distante, c’est-à-dire qu’on utilise des données pas complètement validées à la main pour entraîner un système.


Où en êtes-vous aujourd’hui et quelles sont les prochaines étapes de vos développements?

Pour le moment, nous adaptons certaines techniques d’OIE à la langue française et nous les utilisons au sein du moteur principal pour le fonctionnement du prototype que nous avons présenté aux membres de CO.SHS. Étant donné son aspect central, nous souhaiterions l’améliorer à divers égards. Il faudrait notamment pouvoir augmenter sa couverture et son pouvoir discriminant, en parvenant par exemple à extraire des relations qui ne sont pas explicitement indiquées par des verbes dans le texte « lu » par la machine. Ainsi, lorsqu’on dit « Chilly Gonzales (né en 1972 sous le nom de Jason Beck) », il faudrait extraire (Jason Beck, est connu comme, Chilly Gonzales), alors que cette relation n’est pas explicitée dans le texte. En fait, l’approche que nous privilégions emprunte au domaine des paraphrases, c’est-à-dire des reformulations d’expressions, afin de trouver des équivalences dans le texte avec des relations explicites. La tâche est d’autant plus complexe que les corpus et métriques d’évaluation de cette tâche sont rares, voire inexistants. Mais nous poursuivons le travail dans cette direction!