Salma Mesmoudi : des algorithmes pour faire avancer la recherche sur le cerveau
Ingénieure de recherche à Paris 1 Panthéon Sorbonne, docteure en intelligence artificielle, informaticienne, et modélisatrice, Salma Mesmoudi mène des recherches sur des algorithmes d’IA, appliquées à l’intégration et au traitement de données sur le cerveau.
Elle est notamment à l’origine de LinkRdata, une plateforme collaborative qui intègre les connaissances anatomiques, fonctionnelles et génétiques du cerveau, produites par la communauté scientifique. Un projet transdisciplinaire qui rassemble des acteurs et actrices de la science des données, des systèmes complexes, des neurosciences, de la médecine et des sciences humaines et sociales.
----------------------------------
Vous êtes à l’origine docteure en intelligence artificielle, comment en êtes-vous arrivée à mener aujourd’hui des recherches appliquées sur le cerveau ?
Salma Mesmoudi : Durant mes études doctorales à l’école Nationale des Sciences appliquées de Tanger, j’ai travaillé sur des algorithmes non déterministes, dits intelligents. J’ai mis au point un algorithme d’optimisation pour résoudre un problème très connu en mathématiques que l’on appelle le problème du voyageur de commerce, qui consiste à trouver le plus court chemin passant par un certain nombre de points et revenant au point de départ. Ma thèse a été la toute première thèse sur l’IA publiée au Maroc. J’ai pu appliquer cet algorithme sur des données génétiques et réussi à reconstituer la cartographie physique du chromosome 2 humain. Après ma thèse, dans le cadre d’un contrat postdoctoral à l’Inria de Lille, j’ai conceptualisé d’autres types d’algorithmes hybrides pour l’optimisation d’un processus de conception de médicaments. J’ai ensuite rejoint l’université Pierre et Marie Curie où j’ai commencé à travailler sur des algorithmes de l’intelligence artificielle telle qu’on la connait aujourd’hui, dans le cadre de l’optimisation d’un processus agroalimentaire. En 2010, j’ai intégré l’équipe d’un laboratoire de neuro-imagerie de l'hôpital de la Pitié-Salpêtrière. C’est à ce moment que j’ai commencé à travailler sur le cerveau et que je suis rentrée de plain-pied dans le monde de la donnée libre grâce à la grande vague d’ouverture des données en neuro-imagerie initiée par le National Institute for Health (NIH).
En quoi l’ouverture de ces données vous a permis de développer vos travaux ?
Salma Mesmoudi : Grâce à cette loi fédérale américaine, le monde académique pouvait désormais avoir accès à beaucoup de données produites en neuro-imagerie par le biais de plateformes de collecte et de partage. Notre laboratoire travaillait sur l’imagerie fonctionnelle du cerveau et ces données coûtaient extrêmement chères à produire. Nous avons profité de ce changement de paradigme dans l’accès aux données, pour travailler sur des échantillons de 400 IRMf de cerveaux, alors qu’auparavant nos bases de données locales comportaient, dans le meilleur des cas, qu’une quarantaine d’IRMf. Nous souhaitions analyser comment se comporte le cerveau d’une personne au repos, lorsqu’elle ne fait rien, ni geste ni activité de réflexion particulière. En analysant les signaux émis par les cerveaux de 40 personnes à l’état de repos, on pouvait déjà constater une activité très importante sur toutes les zones du cerveau, mais on ne pouvait détecter que douze signaux différents ayant une valeur significative, le reste était considéré comme du bruit. Pour prendre un exemple imagé, c’est comme si vous rassembliez beaucoup d’invités dans une salle. Si vous sortez de la salle, vous n’entendez plus qu’un brouhaha, vous ne pouvez pas distinguer qui parle avec qui. Pour pouvoir faire cette distinction, nous utilisons une analyse en composante indépendante qui va pouvoir extraire chacune des conversations. Au niveau du cerveau, cette analyse d’IRM permet de savoir quelle zone émet un signal et avec quelle autre zone elle communique. Mon travail a donc consisté à apporter des améliorations algorithmiques pour passer d’un traitement de 40 à 400 images en même temps. Cela nous a permis d’identifier non-plus 12, mais 32 signaux significatifs dans ce que nous avions qualifié auparavant comme du bruit. En augmentant le nombre d’IRMf, et donc le nombre de données, nous avons pu sortir des résultats plus puissants statistiquement.
Une fois cette première étape franchie, quels résultats avez-vous obtenus ?
Salma Mesmoudi : Nous souhaitions savoir à quoi correspondait ces 32 signaux sur le plan fonctionnel, au niveau des fonctions cognitives et sensorimotrices. Nous avons entrepris de réaliser une carte fonctionnelle du cerveau afin de définir le rôle de ses différentes régions. Nous nous sommes appuyés sur les travaux préalables de neuroscientifiques qui ont eu l’idée géniale de cartographier le cerveau humain en identifiant chaque partie grâce à des coordonnées 3D, x, y et z. Cette cartographie permet d’identifier les cordonnées de la zone du cerveau stimulée pour réaliser une tâche précise, comme un calcul par exemple. Ce cerveau cartographié est appelé « cerveau moyen » par les chercheurs qui l’utilisent comme un espace de référence pour projeter les résultats de leurs expérimentations sur telles ou telles fonctions du cerveau. Par exemple, un chercheur qui exploite des images IRMf de patients à qui il a demandé de faire une tâche cognitive particulière, va observer les zones du cerveau les plus actives et identifier les coordonnées 3D des différents points activés. Le chercheur reporte alors ses résultats dans une publication scientifique en précisant le nom de la tâche cognitive traitée ainsi que les coordonnées 3D correspondants aux régions où des pics d’activations ont été enregistrés. Notre idée était d’extraire cette connaissance à partir de data issus de 5000 puis 14000 publications scientifiques. Grace à des algorithmes IA, notamment le Natural Language Processing (NLP), nous avons exploré les articles et réussi à repérer et isoler les coordonnées des zones du cerveau liées à une tache cognitive exécutée par un patient et la pathologie étudiée par le chercheur. J’ai mis au point des calculs statistiques qui ont permis de rapprocher ces trois informations et de réaliser notre carte fonctionnelle du cerveau qui identifie, pour chaque coordonnée, les fonctions cognitives et sensorimotrices qui lui sont associées. Plus tard, lors d’un hackathon sur le cerveau organisé à Leipzig, j’ai découvert les travaux du Allen Institute for the Brain Science qui a réussi à cartographier le cerveau d’un point de vue génétique en testant le taux de transcription de 21 000 ARNm (Acide ribonucléique messager) de gènes sur 1000 régions du cerveau. J’ai pu associer ces données à mes propres résultats. Pour compléter ce travail, nous avons créé un atlas des pathologies du cerveau et un atlas des fibres du cerveau qui sont, en quelque sorte, les routes de l'information à l’intérieur des neurones. Cet atlas permet de localiser quelles sont les régions du cerveau par où passe l’information et lesquelles sont les plus denses. En d’autres termes, où se trouvent les autoroutes, les routes et les chemins de l’information. Aujourd’hui nous pouvons donc caractériser des régions du cerveau par des fonctions cognitives, par des pathologies, par des gènes et par la densité de fibres.
Sous quelles formes avez-vous présenté et valorisé les résultats de vos recherches ?
Salma Mesmoudi : Nous avons bien entendu publié nos résultats dans des revues spécialisées. Ensuite j’ai eu l’idée de projeter toutes ces données cérébrales issues de sources et d’échelles différentes sur une même carte du cerveau pour produire de la connaissance. C’est là que j’ai développé le premier logiciel de la plateforme applicative LinkRdata, dans le cadre de l’équipement d’excellence transdisciplinaire sur la mémoire, l’ÉquipEx MATRICE dont Paris 1 Panthéon-Sorbonne est l’un des partenaires principaux. Aujourd’hui, LinkRdata intègre les connaissances sur lesquelles nous avons travaillé via trois logiciels : LinkRbrain, LinkRbiblio et LinkRfiber. LinkRbrain rassemble les connaissances cognitives, pathologiques, génétiques et anatomiques sur les fonctions cérébrales. LinkRbiblio est le logiciel de textmining (module du traitement du langage naturel) qui permet d’explorer des corpus d’articles et des bases de données bibliographiques. Il peut être utilisé aussi bien pour l’extraction de connaissances biomédicales que sur un corpus de données issues des sciences humaines et sociales. L’application peut apporter un appui à des recherches transdisciplinaires entre des neurologues, des historiens, des sociologues et des psychologues par exemple. LinkRfiber permet de visualiser les connexions entre mille régions du cerveau. LinkRdata est un projet transdisciplinaire et Open Data car il repose uniquement sur des sources de données ouvertes et sur des codes ouverts.
Quels sont les apports de votre plateforme pour la communauté scientifique et pour les praticiens ?
Salma Mesmoudi : Pour les chercheurs et chercheuses, la plateforme permet d’accélérer la fouille bibliographique et de bénéficier d’une visualisation schématique et synthétique de leurs données, pour les aider à les interpréter. Elle permet également de décloisonner les disciplines et de confronter leurs résultats à la bibliographie existante sur leur sujet de recherche. Pour les professionnels de santé, notre plateforme leur permet, par exemple, d’identifier les réseaux cérébraux d’un patient qui pourraient être affectés par la mort neuronale (phénomène notamment observé dans la maladie de Parkinson ou d’Alzheimer par exemple) et les aider ainsi à être plus confiants dans leurs décisions et à mieux orienter le traitement. LinkRdata peut également prédire les fonctions cognitives et sensorimotrices afin de mieux concevoir leurs études et accélérer les essais cliniques pour améliorer la plasticité du cerveau. In fine, elle peut favoriser une meilleure gestion clinique des patients sujets à des handicaps suite à des atteintes cognitives et sensorimotrices.
Quels sont les axes de développement de votre plateforme ?
Salma Mesmoudi : Aujourd’hui une trentaine de publications internationales citent LinkRdata. La plateforme, qui est en production depuis 2013, compte environ mille utilisations par an, principalement en Europe et aux Etats-Unis. Grâce à un programme de prématuration du CNRS innovation, j’ai pu développer et améliorer la plateforme, notamment au niveau de son infrastructure qui est devenue modulaire et réutilisable. LinkRdata est hébergée sur les serveurs de l’Institut des systèmes complexes de Paris où je suis résidente. Je viens d’obtenir le financement par le CNRS d’un ingénieur de transfert pendant trois ans, qui va m’accompagner dans la stratégie de valorisation et développement de la plateforme. Mon grand projet est de créer une plateforme commune en ligne. La communauté scientifique constituée autour de l’imagerie cérébrale est très active, elle produit beaucoup de data et beaucoup de logiciels très puissants, en open source et en accès libre. Mais ces outils s’avèrent en réalité peu accessibles. Tout d’abord pour les utiliser, il est nécessaire de les installer sur des ordinateurs, ils n’ont pas d’interface web. Leur installation est très compliquée, elle n’est pas à la portée de tout le monde. Une fois installés, ces logiciels exigent de traiter des données standardisées, ce qui est une très bonne chose à la base, mais convertir des données nécessite une vraie expertise technique. La troisième difficulté est bien entendu l’accès à un serveur de calcul suffisamment puissant pour traiter ces données. Mon projet est de créer une infrastructure mutualisée, une machine cloud sur laquelle toutes les applications LinkRdata seront installées et accessibles aux utilisateurs avec une simple connexion internet. Ils pourront y injecter leurs données, qui seront formatées et traitées grâce à une puissance de calcul qui leur sera allouée. Ils pourront ensuite les consulter ou les documenter avec les autres logiciels de la plateforme. In fine, mon objectif est de mutualiser la connaissance, l’expertise technique et les ressources de calcul afin d’ouvrir la science à la société.
Vos travaux en IA s’intègrent également dans le Programme 13-novembre porté par le CNRS, L’Inserm et Paris 1 Panthéon-Sorbonne
Salma Mesmoudi : En effet, j’encadre la thèse de Robin Quillivic dans le cadre d’un projet de recherche supporté par la région Île De France qui utilise les données du Programme 13-Novembre. Le projet s'intéresse au lien existant entre le langage et le Trouble de Stress Post-Traumatique (TSPT), afin de définir un profil lexical d’une personne atteinte de ce trouble. Nous conceptualisons des algorithmes d’intelligence artificielle pour analyser les structures de langage issues du corpus de témoignages de personnes directement ou indirectement exposés aux attaques terroristes du 13 novembre 2015 à Paris. L’objectif est de pouvoir construire des modèles complexes capables de détecter plus finement des symptômes du TSPT et d’avoir un impact significatif sur la prise en charge, le traitement et le suivi des patients. Comme LinkRdata, ce projet se distingue par son approche transdisciplinaire, puisqu’il rassemble deux psychiatres, une linguiste et deux ingénieurs en IA autour d’un programme porté par un historien et un neuroscientifique. Nous travaillons actuellement sur un article qui sera publié prochainement dans une revue spécialisée.
-----------------------------------
Pour en savoir plus :