Un outil de recherche d’expertises à Paris 1 Panthéon-Sorbonne
Cette application innovante (expert finder system), s’appuie sur l'intelligence artificielle et les archives ouvertes HAL de l’université pour identifier des chercheurs et des chercheuses selon leurs expertises et leurs thématiques de recherche. Paris 1 Panthéon-Sorbonne est le premier établissement français à mettre en ligne une application de ce type.
Que l’on prépare une table ronde, une conférence, un article de presse, que l’on cherche des partenaires pour un projet ou pour toute autre raison, il est souvent difficile d’identifier les interlocuteurs les plus pertinents au sein des unités de recherche d’une université, organisme complexe dont les membres sont engagés dans de nombreux réseaux et collaborations.
C’est pourquoi la direction de la Recherche et de la Valorisation (Direval), le service commun de la Documentation (SCD) et la direction du Système d’information et des Usages numériques (DSIUN) ont joint leurs efforts pour proposer un outil de recherche d’expertises (expert finder system), avec pour ambition de contribuer à améliorer la lisibilité de la recherche à l’université, tant au bénéfice des acteurs internes (étudiants, doctorants, collègues) qu’externes (communauté universitaire, médias, grand public).
Une prise en main simplifiée
L'outil est simple d'emploi : il suffit à l’utilisateur de saisir un énoncé correspondant à un sujet d’intérêt. Cette requête est alors comparée, à l’aide de l’intelligence artificielle, aux descriptions de près de 100 000 publications répertoriées dans la collection HAL Paris 1, soit près d’un demi-million de titres et phrases de résumés, mis à jour quotidiennement. Ceux dont le sens se rapproche le plus de celui de l’énoncé soumis par l’utilisateur sont identifiés afin de sélectionner des chercheurs et chercheuses travaillant sur des sujets proches. Le résultat est présenté au travers de deux visualisations – nuage et liste – assorties de principes de classement légèrement différents. Toutes deux permettent d’accéder, pour chaque auteur, à la liste des publications que l’intelligence artificielle a retenu, soit en raison de leur titre, soit en raison d’un passage de leur résumé, qui est alors surligné en jaune.
L’intelligence artificielle permet d’opérer le rapprochement entre les articles et la requête de l’utilisateur sur le plan sémantique et non-syntaxique : c’est la proximité du sens qui est évaluée par l’algorithme, par-delà les différences de syntaxe, de vocabulaire utilisé et même de langue. Il y a là un enjeu essentiel, dans la mesure où d'une part, une fraction très importante des travaux issus de notre université est dans d’autres langues que le français – à commencer bien sûr par l’anglais – et où d’autre part, l’utilisateur ne maîtrise pas forcément la terminologie savante maniée par les chercheurs.
L’open access et l’intelligence artificielle au service de l’outil
Deux facteurs clés rendent possible la mise en place d’un tel outil au niveau de notre établissement :
- D’une part, l’encouragement à la publication en accès ouvert et au dépôt, ou du moins au signalement, dans les collections HAL de l’université Paris 1 Panthéon-Sorbonne et de ses unités de recherche, sous l’autorité du service commun de la Documentation et des personnels d’appui à la recherche des laboratoires, porte ses fruits.
Les métadonnées d’un grand nombre de documents de divers types, articles publiés dans les revues, chapitres d’ouvrages etc., sont désormais disponibles pour des traitements algorithmiques, alors que jusque-là, seules étaient exploitables les bases bibliométriques commerciales telles que Scopus et Web of Science, où la production des SHS françaises était, et est toujours, notoirement sous-représentée.
- Cette disponibilité croissante des données survient au moment précis où le domaine du traitement automatique du langage a réalisé des avancées considérables, avec l’émergence de grands modèles de langage.
Ces modèles – dont la vitrine “ChatGPT” a popularisé l’existence ces dernières semaines – sont des réseaux de neurones à l’architecture particulière, capables de convertir les énoncés en structures mathématiques qui incorporent les relations sémantiques détectées au sein de grandes masses de texte au cours de la phase d’apprentissage. Ces structures, appelées embeddings ou plongements lexicaux, se prêtent à diverses opérations, dont des calculs de distance. On peut résumer le mécanisme de l’outil de recherche d’expertise en disant que les significations extraites des descriptions des articles des chercheurs de notre université ont été projetées par un modèle de langage dans un espace de grande dimension : lorsqu’un utilisateur saisit un énoncé, son sens est projeté à son tour dans cet espace, et il n’y a plus qu’à observer son voisinage et à remonter aux auteurs des publications qu'on y a trouvé. Plus l’utilisateur assortit sa recherche d’une grande “extension sémantique”, en utilisant la réglette présente sous la zone de saisie, plus le rayon de recherche sera grand.
La sélection et le classement des experts n’impliquent donc ici aucun jugement de valeur quant à la qualité des travaux des intéressés : un auteur n’est retenu que parce qu’il a abordé, dans ses publications, des sujets proches de celui qui fait l’objet de la requête, à condition qu’elles soient déposées ou même simplement signalées sur HAL avec un descriptif minimal.
L'interface de recherche donne à choisir entre deux modèles de langage prestigieux : l’un, Sentence BERT, provenant de la lignée des modèles BERT initiée par Google en 2018, est une architecture issue des travaux de chercheurs de l’université de Darmstadt, Nils Reimers et Iryna Gurevych. Début 2023, elle représente l’état de l’art pour la comparaison sémantique multilingue, parmi les modèles de langage disponibles en libre accès et compatibles, par leur taille, avec la puissance des serveurs informatiques de l’université (quelques dizaines de millions de paramètres). Tel n’est pas le cas de GPT-3, qui n’est pas en accès ouvert, et qui, même s’il l’était, serait trop volumineux, et de loin (des dizaines de milliards de paramètres), pour être déployé sur une infrastructure d’établissement. C’est pourquoi, lorsqu’une recherche est lancée avec l’option GPT-3, les calculs ne sont pas effectués sur les serveurs de Paris 1 Panthéon-Sorbonne, mais sur ceux d’OpenAI : plus précisément, c’est Ada, un des moteurs que comporte GPT-3, qui est mis à contribution.
Un jalon vers des projets plus ambitieux ?
L’outil que nous vous proposons aujourd’hui est d’abord une “preuve de concept” de l’applicabilité des techniques de recherche sémantique au cas d’usage particulier de la recherche d’expertises en SHS. Il a vocation à être amélioré : par exemple, les travaux des doctorants y seront prochainement intégrés.
Un tel service, s’il devait passer à l’échelle supérieure, intégrerait non plus seulement les métadonnées des articles, mais le texte intégral ; il utiliserait un modèle de langage spécifiquement réentraîné (“fine-tuned” dans le jargon du domaine) sur un corpus de sciences sociales, afin de capturer finement les acceptions spécifiques des mots dans les champs disciplinaires de recherche de l’université. Tout cela nécessiterait des moyens importants, notamment en termes de puissance de calcul, et ne pourrait se concrétiser le cas échéant qu’au travers de partenariats. Cela ouvrirait la porte à d’autres usages, telle que l’assistance automatisée à la revue de littérature scientifique, la suggestion de citations pour les articles en cours d’écriture, etc.
Dans l’immédiat, ce prototype représente déjà une invitation à imaginer les usages des nouveaux modèles de langage au bénéfice des SHS. Car si l’apparition de ChatGPT, premier modèle génératif gratuitement accessible au grand public, a suscité des débats passionnants au sein de la communauté universitaire, ils sont surtout restés centrés, jusqu’ici, sur l’impact potentiel, positif ou négatif, que cet outil était susceptible d’avoir sur les pratiques d’enseignement. À ce stade, les chercheurs commencent à prendre en compte, non plus seulement la vitrine incarnée par ChatGPT, mais le nouveau paradigme technologique dont sont porteurs GPT et les modèles de langage équivalents que s'emploient à créer des équipes de recherche à travers le monde, y compris en France. L’université Paris 1 Panthéon-Sorbonne a la conviction que la recherche en sciences humaines et sociales, dans laquelle le texte a le double statut de matériau auquel le travail du chercheur s’applique et de produit final, peut devenir un formidable laboratoire pour la mise en œuvre de ces nouvelles technologies de traitement du langage.
► Découvrez l'outil de recherche d’expertises
► Faites part de vos suggestions à l’adresse si-recherche@univ-paris1.fr