Reda Khoufache, docteur (DAVID Lab, LMV (Laboratoire de Mathématiques de Versailles, Université Paris-Saclay / UVSQ), lauréat du DIM AI4IDF – Promotion 2022, a mené des travaux sur l’inférence distribuée pour modèles non-paramétriques et le co-clustering multi-vue. Ci-dessous, l'entrevue qui retrace son parcours, ses méthodes, ses résultats et ses perspectives.
Peux-tu te présenter en quelques mots et revenir sur ton parcours académique avant la thèse ?
Je m'appelle Reda Khoufache, j'ai 28 ans et je suis jeune docteur en informatique, spécialisé en apprentissage statistique et en intelligence artificielle. J’occupe actuellement un poste d’attaché temporaire d’enseignement et de recherche (ATER) à l’UFR des sciences de l’Université de Versailles, au Laboratoire de Mathématiques de Versailles (LMV).
Originaire de Béjaïa, en Algérie, j’ai obtenu mon baccalauréat en série mathématiques avant de poursuivre mes études en France. J’ai obtenu une licence de mathématiques à Sorbonne Université en 2019, puis un master 2 en statistique dans la même université en 2021. À l’issue de ce master, j’ai travaillé pendant un an en tant qu’ingénieur de recherche au CNRS, sous la supervision de M. Lebbah et de Mme. Azzag, avant d’entamer ma thèse.
Qu’est-ce qui t’a donné envie de te diriger vers la recherche, et en particulier vers les méthodes bayésiennes et l’apprentissage non-paramétrique ?
Depuis mon enfance, je rêvais de devenir chercheur. Très tôt, j’ai développé une véritable passion pour les mathématiques. Poursuivre des études en mathématiques appliquées, puis enchaîner avec une thèse en intelligence artificielle, a été pour moi un choix naturel, mais surtout un moyen d’accomplir ce rêve d’enfance.
Les statistiques bayésiennes abordent l’incertitude de manière rigoureuse et cohérente. Elles permettent de combiner nos connaissances a priori avec les données observées. Une fois cet a priori défini, il est mis à jour au fur et à mesure que de nouvelles données sont disponibles, intégrant ainsi continuellement les nouvelles informations. Cette approche exploite toutes les informations disponibles. Comme le souligne MacKay : « Les méthodes bayésiennes sont simples et utilisent de manière optimale toutes les informations contenues dans les données. » — David J. C. MacKay, Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2003.
Les approches non paramétriques offrent quant à elles un cadre beaucoup plus flexible et souple pour le choix des modèles, comparé aux méthodes paramétriques qui présentent de nombreuses limitations, notamment en apprentissage non supervisé lorsque les données observées ne sont pas étiquetées. Dans des tâches comme le clustering (partitionnement), par exemple, il devient très difficile de spécifier ou de sélectionner le nombre de clusters pour l’algorithme. Cela peut être coûteux, voire impossible à estimer, lorsque nous n’avons aucune idée du nombre de clusters ou lorsque le nombre de choix possibles est très élevé et qu’il n’est pas envisageable de tous les tester.
Pourquoi as-tu choisi d’effectuer ta thèse au DAVID Lab et sous l’encadrement de Mustapha Lebbah & Hanene Azzag ? Qu’as-tu trouvé attractif dans cet environnement ?
J’ai rencontré M. Lebbah et Mme Azzag à l’automne 2020 grâce à la co-directrice de mon master de statistiques, qui m’avait recommandé pour un projet de thèse CIFRE. Nous avons déposé un dossier auprès de l’ANRT, mais malheureusement l’entreprise partenaire n’a pas souhaité aller jusqu’au bout du processus. À la suite de cela, M. Lebbah m’a proposé un contrat d’un an en tant qu’ingénieur CNRS afin de poursuivre notre collaboration en attendant de trouver une autre solution. J’ai donc commencé à travailler avec lui dès janvier 2022, et ce travail a finalement abouti à ma première publication, présentée dans un workshop international à ICDM 2022.
Lors du premier appel du projet DIM, nous avons décidé de monter un dossier ensemble, alors que M. Lebbah venait de rejoindre le laboratoire DAVID à l’UVSQ, Université Paris-Saclay. Cela fait maintenant près de cinq ans que je travaille sous l’encadrement de M. Lebbah et de Mme Azzag, et j’ai particulièrement apprécié la qualité de leur accompagnement. Ils ont su créer un environnement de travail sain, stimulant et propice à la recherche, dans lequel je me suis toujours senti motivé et épanoui. Ils ont également été présents dans les moments difficiles, ce qui, à mon point de vue, est essentiel pour un doctorant.
« L’objectif de ma thèse a donc été de réduire le temps d’exécution de ces modèles, en exploitant le calcul parallèle et distribué, tout en préservant leurs avantages, flexibilité et précision. »
Comment résumerais-tu ta thèse à quelqu’un qui ne connaît pas du tout les statistiques bayésiennes ?
Chaque seconde, une quantité gigantesque de données est produite dans le monde : textes, images, vidéos, sons. C’est ce que l’on appelle le Big Data. Afin d’utiliser ces données dans des systèmes d’intelligence artificielle, il faut d’abord les organiser, les structurer et les annoter. Sauf que ces données se comptent en millions. Les annoter à la main est fastidieux.
Les algorithmes d’IA dits non supervisés apprennent automatiquement à regrouper les données selon leurs similarités, on appelle cela du clustering. Cependant, de nombreuses méthodes existantes ont une limitation importante: elles nécessitent de spécifier à l’avance le nombre de clusters, ce qui est souvent irréaliste lorsque les données ne sont pas annotées au préalable.
C’est là que les méthodes bayésiennes non paramétriques entrent en jeu. Elles permettent à l’algorithme d’estimer lui-même le nombre de clusters, sans que l’on ait besoin de le spécifier. Mais le problème majeur de ce type de modèles, c’est qu’ils ne passent pas à l’échelle. Dès que les données deviennent massives, leur temps de calcul explose.
L’objectif de ma thèse a donc été de réduire le temps d’exécution de ces modèles, en exploitant le calcul parallèle et distribué, tout en préservant leurs avantages, flexibilité et précision.
Et maintenant, peux-tu expliquer plus techniquement ce que recouvrent : les modèles bayésiens non-paramétriques, la notion de scalabilité, les approches de clustering et co-clustering ?
Le modèles bayésiens non-paramétriques : Dans ma thèse, les modèles bayésiens non paramétriques apparaissent principalement comme une extension naturelle des modèles de mélange paramétriques classiques, donnant naissance aux modèles de mélange à Processus de Dirichlet.
Le terme bayésien provient du fait que l’on place des lois a priori sur les paramètres du modèle de mélange, de sorte que l’inférence repose sur la mise à jour de ces a priori à partir des données observées.
Le terme non paramétrique, quant à lui, provient du fait que l’on suppose en théorie l’existence d’un nombre infini de clusters, dont seul un nombre fini est effectivement observé en pratique. Ainsi, le nombre de clusters K, théoriquement infini, n’a plus besoin d’être spécifié, ce qui confère à ce type de modèles leur caractère non paramétrique.
La scalabilité (anglicisme pour “capacité à passer à l’échelle”) d’un algorithme désigne sa capacité à maintenir ses performances et son efficacité malgré l’augmentation du volume de données qu’il doit traiter. En d’autres termes, un algorithme scalable peut gérer une croissance importante des données sans perte significative de vitesse, de précision ou d’efficacité dans l’utilisation des ressources. La scalabilité est un enjeu majeur en informatique, notamment en intelligence artificielle, où les volumes de données sont particulièrement importants.
Le clustering et co-clustering : Lorsque les jeux de données tabulaires présentent une structure duale, où les lignes représentent les observations et les colonnes les variables, le clustering classique ne regroupe que les observations similaires dans des clusters, produisant donc uniquement une partition des lignes.
Le co-clustering, quant à lui, partitionne simultanément les lignes et les colonnes. En réarrangeant les lignes et colonnes similaires, on obtient des blocs homogènes. Ces techniques surpassent souvent les approches classiques de clustering, qui ne prennent pas en compte cette dualité et ne produisent qu’une partition des lignes.
Quels étaient les principaux verrous scientifiques ou méthodologiques auxquels tu t’es attaqué ?
Je me suis principalement intéressé, dans un premier temps et d’un point de vue méthodologique, à la scalabilité des algorithmes de clustering et de co-clustering, en m’appuyant sur des modèles probabilistes bayésiens non paramétriques.
Dans un second temps, et d’un point de vue théorique, durant ma mobilité internationale au Japon, je me suis intéressé à la stabilité de l’algorithme Expectation-Maximization (EM) pour les modèles de mélange. En pratique, les données, notamment en médecine, contiennent souvent des valeurs manquantes ou sont bruitées. Il est donc essentiel qu’un algorithme d’IA soit stable et robuste face à ce type de situations. Nous avons ainsi analysé la stabilité de l’algorithme EM face à de petites perturbations des données d’entrée.
En quoi ton approche se distingue-t-elle de l’état de l’art ?
Lorsque nous avons commencé à développer ma première méthode de clustering distribué, l’objectif n’était pas simplement de créer l’algorithme le plus rapide ou le plus précis par rapport aux méthodes existantes de l’état de l’art. L’objectif principal était de concevoir un algorithme distribué suffisamment flexible pour s’adapter à différents types de distributions, et pas seulement les distributions gaussiennes, qui sont les plus couramment utilisées mais ne sont pas toujours adaptées. Par exemple, dans le cas de données discrètes, comme les données de comptage que l’on rencontre dans le clustering de texte ou les données RNA-Seq, une distribution gaussienne n’est clairement pas la plus appropriée.
Deuxièmement, nous avons souhaité développer un algorithme assez flexible pour qu’il puisse être facilement étendu aux modèles de co-clustering. C’est précisément cette flexibilité qui distingue mon approche de l’état de l’art.
« Le principal défi à ce niveau consistait à trouver un moyen d’agréger et de synchroniser au niveau du master les résultats inférés par chaque worker, qui varient d’un worker à l’autre, sans avoir directement accès aux données, mais uniquement à partir du minimum d’informations nécessaires, ce que l’on appelle les statistiques suffisantes. »
Quels sont les principaux défis théoriques que tu as dû surmonter pour faire évoluer ces modèles vers de grandes échelles ?
Plusieurs défis théoriques se sont posés lors du développement de ces modèles. Avant même de commencer l’implémentation, il était nécessaire de comprendre en profondeur les fondements théoriques des algorithmes que nous souhaitions distribuer. Cela impliquait de maîtriser plusieurs notions indispensables: statistiques bayésiennes, statistiques non paramétriques, échantillonnage de Gibbs, méthodes MCMC, etc. C’était beaucoup d’informations à assimiler en même temps.
Une fois cette étape accomplie, il fallait réfléchir à la distribution du processus d’inférence. Le principal défi à ce niveau consistait à trouver un moyen d’agréger et de synchroniser au niveau du master les résultats inférés par chaque worker, qui varient d’un worker à l’autre, sans avoir directement accès aux données, mais uniquement à partir du minimum d’informations nécessaires, ce que l’on appelle les statistiques suffisantes.
Quels outils statistiques ou informatiques as-tu utilisé au quotidien pour mener cette recherche ?
J’ai utilisé de nombreuses méthodes de statistiques bayésiennes, ainsi que des méthodes MCMC. Du côté pratique, pour déployer la méthode dans un environnement distribué, j’ai utilisé Spark avec Scala, et nous avons réalisé nos tests sur le cluster Grid’5000
Quels sont les résultats de tes recherches menées en thèse, quelles sont les pistes que tu poursuis dorénavant ?
Durant ma thèse, nous avons proposé un algorithme distribué pour les modèles de mélange de processus de Dirichlet avec des distributions gaussiennes, puis nous avons étendu ce travail à des distributions multinomiales, appliquées au clustering de textes. Plus généralement, nous avons montré que cette méthodologie pouvait être facilement étendue à des distributions de la famille exponentielle. Ensuite, nous l’avons étendu à l’inférence distribuée pour le problème de co-clustering. Ces approches permettent une inférence efficace, une réduction significative du temps de calcul, sans compromettre les résultats de clustering. Enfin, nous avons mené une analyse théorique de la stabilité de l’algorithme EM pour les modèles de mélange.
« Chacun de ces voyages a été une véritable aventure et l’une des expériences les plus enrichissantes de ma thèse. »
Tu as participé à l’ICDM en 2023, fais une mobilité au Japon, présenté des travaux sur le territoire Français et aux Etats-Unis : peux-tu retracer tes principaux déplacements académiques ?
Durant ma thèse, j’ai eu l’occasion de beaucoup voyager à travers le monde, notamment pour participer à des conférences, des écoles d’été et des mobilités internationales et nationales.
J’ai présenté mes premiers travaux de recherche lors d’un atelier sur le clustering et l’apprentissage profond co-organisé à ICDM 2022, à Orlando, Floride, aux États-Unis. J’ai ensuite présenté deux travaux lors des conférences SDM 2024, organisées à Houston, Texas, États-Unis, puis à PAKDD 2024 à Taipei, Taiwan. J’ai également participé à l’école d’été Nordic Prob AI à Copenhague, Danemark, et j’ai eu l’occasion de réaliser une mobilité internationale de cinq mois au National Institute of Informatics à Tokyo, Japon, sous la supervision du Peur Yuichi Yoshida.
Par ailleurs, j’ai également présenté et assisté à de nombreuses conférences nationales, notamment EGC 2023 à Lyon, SFC 2023 à Strasbourg, EGC 2024 à Dijon, SFDS 2024 à Bordeaux, et enfin SFC 2024 à Marseille.
Chacun de ces voyages a été une véritable aventure et l’une des expériences les plus enrichissantes de ma thèse. Cela m’a permis de visiter de nouveaux lieux, de découvrir de nouvelles cultures, et de rencontrer et d'échanger des personnes venues du monde entier et passionnées par les mêmes sujets que moi.
Quel impact concret ces échanges ont-ils eu sur ton travail ? As-tu obtenu des collaborations durables ou des idées et inspirations nouvelles ?
Chacun de ces déplacements est une occasion de rencontrer des scientifiques du monde entier qui travaillent, directement ou indirectement, sur des sujets proches des nôtres. C’est donc une occasion en or d’échanger des idées, de recevoir un regard extérieur sur notre travail lors des présentations, des sessions de questions/réponses et des discussions, ce qui permet d’améliorer nos recherches, de les approfondir et, par conséquent, de faire naître de nouvelles idées.
Oui, je continue aujourd’hui à collaborer avec le Professeur Yuichi Yoshida. Nous continuons d’explorer certaines pistes qui prolongent l’étude que nous avons réalisée auparavant. Nous discutons également de nouveaux projets que nous pourrions potentiellement explorer à l’avenir, notamment dans les domaines de l’apprentissage profond et des réseaux de neurones.
Ce qui fait la beauté de la recherche, c’est que la fin d’une contribution ouvre souvent naturellement de nouvelles problématiques, qui sont le plus souvent des extensions de celles que nous venons de clôturer. Le fait de résoudre, ou d’essayer de résoudre, un problème de recherche nous permet de découvrir d’autres questions qui éveillent notre curiosité.
Y a-t-il des rencontres marquantes, un moment de conférence particuliers, ou un atelier qui a été particulier dans le cadre de ta thèse ?
La rencontre qui m’a le plus marquée est celle avec le Professeur Yuichi Yoshida, avec qui j’ai collaboré durant ma mobilité au Japon. Travailler avec lui a été à la fois intense et inspirant, nous passions de longues heures à réfléchir, à faire des maths, à tenter de démontrer des résultats. Partager ces moments a été une expérience particulièrement marquante.
Je me souviens aussi très bien de ma première présentation en conférence. C’était non seulement la première fois que je présentais mes travaux, mais aussi la toute première conférence à laquelle j’assistais. Cela se passait lors du workshop ICDM 2022, à Orlando en Floride. Je n’avais absolument aucune idée de ce qui m’attendait : je ne connaissais ni le public, ni le type de questions que l’on pouvait me poser. C’était un mélange d’excitation et de stress, d’autant plus que j’étais programmé le premier jour, en tant que deuxième intervenant. Les premières secondes ont été intenses, puis tout s’est enchaîné naturellement et la présentation s’est finalement très bien passée.
Ce qui m’a également marqué, c’est l’intérêt que plusieurs participants ont porté à mon travail. Certains sont venus me poser des questions à la fin de la session, puis lors des pauses café et des déjeuners. C’était gratifiant et motivant de voir autant de personnes curieuses et engagées autour de mes travaux.
« Grâce à ma co-encadrante, j'étais également devenu membre associé du LIPN (UMR CNRS 7030). Cette double affiliation m'a permis de bénéficier des ressources, de l'expertise et de la dynamique scientifique des deux laboratoires. »
Comment décrirais-tu l’appui du DIM AI4IDF dans le déroulé de ta thèse ?
La thèse que j'ai menée a été financée par le programme DIM AI4IDF, qui a joué un rôle déterminant dans la valorisation de nos travaux. Bénéficier du soutien d'un programme d'excellence comme le DIM AI4IDF a été pour moi une véritable source de motivation, m'incitant constamment à viser l'excellence. Cette reconnaissance s'est notamment concrétisée par l'opportunité de présenter mes recherches au salon Viva Technology 2024, offrant ainsi une visibilité concrète à nos résultats.
L’approche du DIM AI4IDF c’est justement la rencontre entre différents environnements, comment s’est déroulée la collaboration entre les équipes et laboratoires impliqués ?
Dans le cadre de ma thèse, j'étais inscrit à l'école doctorale de l'Université Paris-Saclay et membre du laboratoire DAVID à l'Université de Versailles Saint-Quentin-en-Yvelines (UVSQ). Grâce à ma co-encadrante, j'étais également devenu membre associé du LIPN (UMR CNRS 7030). Cette double affiliation m'a permis de bénéficier des ressources, de l'expertise et de la dynamique scientifique des deux laboratoires. La collaboration entre les équipes a été facilitée par le fait que mon directeur de thèse est un ancien membre du LIPN, ce qui a favorisé des échanges réguliers et ouvert la porte à des opportunités de coopération. J'ai ainsi pu interagir régulièrement avec des doctorants des deux équipes, enrichissant considérablement mon parcours de recherche.
Parmi les contributions de ta thèse, lesquelles te paraissent les plus importantes ?
La contribution que je considère comme la plus importante de ma thèse est ma première publication, présentée à la conférence de premier rang SDM 2024. C’est cette contribution qui constitue le cœur de ma thèse et qui a servi de base ou de contribution clé pour deux autres de mes travaux.
As-tu eu des surprises scientifiques ou des résultats inattendus ?
Oui! Lors de ma première contribution, l’objectif était de réduire le temps d’exécution d’un algorithme de clustering sans compromettre ses performances. Sur un échantillon de 100 000 observations, avec notre algorithme, l’exécution prend moins de trois minutes, tandis que l’algorithme standard nécessite 12 heures. Nous avons ainsi constaté un gain de temps exceptionnel, d’un facteur 200, sans aucune perte de performance, ce qui a largement dépassé nos attentes initiales.
« J’ai dû apprendre à rebondir vite, à rester résilient et motivé, et à ne pas prendre les critiques personnellement. Le vrai défi consiste à transformer ces critiques en une opportunité de progresser. »
Quel a été le principal défi scientifique et humain de ta thèse ?
Le principal défi, à la fois scientifique et humain, a été d’apprendre à encaisser et à surmonter les échecs que l’on rencontre en recherche. On peut investir des mois de travail dans une idée que l’on souhaite valoriser dans un article, y mettre toute son énergie, sa rigueur et sa conviction… et malgré cela, voir sa soumission refusée par un reviewer qui n’adhère pas à l’approche ou à l’idée. C’est une expérience qui peut être très brutale et cruelle. On reçoit parfois des critiques dures, subjectives, qui suscitent un sentiment d’injustice et remettent en question non seulement tous ces mois de travail, mais aussi la confiance que l’on a en soi-même.
J’ai dû apprendre à rebondir vite, à rester résilient et motivé, et à ne pas prendre les critiques personnellement. Le vrai défi consiste à transformer ces critiques en une opportunité de progresser. Il faut savoir comment présenter et défendre ses idées car il faut toujours garder en tête qu’on n’écrit pas pour soi, mais pour être lu par d’autres personnes qui peuvent venir de domaines différents du nôtre et n’ont donc pas forcément le même point de vue. Plus important encore, il faut savoir utiliser chacune de ces critiques pour améliorer, voire perfectionner, son travail. C’est un défi majeur, tant sur le plan humain que scientifique.
Je précise aussi que je n’ai pas traversé ces moments seul. Le soutien et la présence de mes encadrants ont joué un rôle crucial, m’aidant à garder confiance et motivation pour continuer à avancer pendant ces moments difficiles.
Pour finir, j’ai compris que la recherche dépasse le simple cadre scientifique: c’est un véritable apprentissage humain. Savoir tirer des enseignements d’un échec, renforcer son travail et revenir plus fort est sans doute l’une des leçons les plus précieuses que cette thèse m’a apportées.
As-tu eu un ou des moments de fierté particuliers ?
Oui, comme je l’avais indiqué, on se souvient toujours de sa première conférence ! Mais un autre moment très marquant de ma thèse a été ma sélection pour la mobilité au Japon. Le processus était particulièrement sélectif : il fallait d’abord être accepté par un chercheur du laboratoire d’accueil au Japon, puis être retenu au niveau de l’Université Paris-Saclay, qui ne sélectionne que trois candidatures à transmettre au NII. Une fois ce premier filtre franchi, il restait encore la sélection finale effectuée par le NII au niveau mondial.
Quelles sont tes perspectives immédiates après la thèse ? Tu avais indiqué dans de précédents échanges que pour le moment tu es en ATER et tu souhaites te présenter aux qualifications et de candidater aux postes de chargé de recherche et/ou maître de conférences. Peux-tu détailler ?
Oui, à l’avenir, je me projette dans une carrière académique, soit en tant que chercheur, soit en tant qu’enseignant-chercheur; c’est d’ailleurs ce que j’ai toujours souhaité faire. C’est dans cette perspective que j’occupe actuellement un poste d’ATER au laboratoire de mathématiques de Versailles, où j’assure des cours magistraux et des travaux dirigés en licence et en master. J’attends désormais d’obtenir la qualification aux fonctions de maître de conférences afin de pouvoir candidater aux postes de MCF, éventuellement, à des postes de chargé de recherche.
Un conseil que tu donnerais à un étudiant ou une étudiante qui souhaite se lancer dans la recherche ?
Je dirais de croire en ses idées et de ne pas s’auto-censurer. La recherche est parfois faite de défis et de moments difficiles, mais c’est justement ce qui rend chaque petite victoire si précieuse et lui donne un charme unique. Il faut persévérer, apprendre de ses erreurs, et ne jamais abandonner même lorsque tout semble s’effondrer.
Un livre, article ou ressource scientifique que tu recommanderais à quelqu’un qui veut mieux comprendre l’approche bayésienne ?
Je recommanderais Bayesian Data Analysis (Third Edition) de Andrew Gelman et al. C’est un ouvrage complet et accessible qui couvre à la fois les concepts théoriques et les applications pratiques de l’approche bayésienne.
Propos recueillis par Khaled Benaida