Research Lab F.initiatives et le regroupement de grands flux de données textuelles

Publication d’un nouvel article scientifique par le Research Lab F.initiatives

Le Research Lab, spécialisé dans l’intelligence artificielle (IA), de F.initiatives a publié un nouvel article scientifique intitulé « Online Clustering of Massive Text Data Streams » dans la revue « Springer Nature Computer Science ». Cet article a été rédigé par Maha Ben-Fares, supervisée par Pierre Holat, Responsable de la Recherche chez F.initiatives. 

Maha Ben-Fares a réalisé une thèse CIFRE au sein de F.initiatives, sur l’apprentissage non-supervisé sur les flux de données.

À son arrivée chez F.initiatives, elle a réalisé un état de l’art de l’existant, car de nombreuses recherches sur le clustering et le flux de données textuel étaient déjà disponibles. 

Grâce à cet état de l’art, Maha a pu faire ressortir certaines problématiques afin d’adapter ses recherches au cas de F.initiatives et construire des algorithmes permettant d’évoluer sur le regroupement des données par sujet et thématique.  

On vous explique tout sur la nouvelle méthode développée : OMTStream ! 

L’apprentissage non-supervisé sur les flux de données

Le regroupement automatique de grands flux de données textuelles est une tâche complexe et exigeante en informatique. Contrairement aux données statiques, les flux textuels arrivent en continu, évoluent rapidement, et sont souvent trop volumineux pour être stockés dans leur intégralité. Cela pose plusieurs défis majeurs, liés à : 

  • La haute dimensionnalité des données textuelles 
  • La Rareté des données 
  • L’Évolution des distributions de données 
  • Le Fléau de la dimension (curse of dimensionality), qui rend les calculs plus complexes. 

Les techniques classiques de regroupement montrent vite leurs limites face à ces contraintes, notamment en raison de leur difficulté à s’adapter à la vitesse et à la nature dynamique des flux tout en garantissant précision, mémoire maîtrisée et rapidité. 

C’est dans ce contexte, dans son article Online Clustering of Massive Text Data Streams, que Maha Ben-Fares a cherché à développer une nouvelle méthode capable de regrouper ces flux de données complexes en continu, sans nécessiter un recalcul complet à chaque nouvelle donnée, et tout en respectant les différentes contraintes. 

OMTStream, une nouvelle méthode s'appuyant sur des micro-clusters

OMTStream est une nouvelle approche innovante conçue pour le regroupement de flux de documents textuels massifs. Elle repose sur une architecture modulaire, qui combine : 

  • Une représentation sémantique du texte à l’aide de Sentence-BERT, capturant les riches informations intégrées au texte au-delà des simples mots clés. 
  • Une réduction de la dimensionnalité via UMAP permettant de conserver les informations essentielles tout en allégeant la complexité des calculs. 
  • Une stratégie de regroupement en ligne basée sur des structures évolutives appelées micro-clusters, qui résument dynamiquement des groupes de textes similaires. 
Overall-scheme-of-the-OMTStream-method
Schéma de la méthode OMTStream

Les micro-clusters jouent un rôle central pour cette approche : ils permettent d’enregistrer dynamiquement des informations statistiques issues des documents, telles que la moyenne, la dispersion, ou encore le nombre de documents regroupés dans chaque groupe.  

Plutôt que de stocker les documents textes eux-mêmes, OMTStream utilise ces résumés pour mettre à jour facilement le modèle de regroupement au fil de l’arrivée des nouveaux documents. Cette approche assure une adaptation continue et efficace au flux de données, sans nécessiter un nouvel apprentissage à partir de zéro.  

L’application chez F.initiatives

OMTStream s’inscrit désormais dans une logique d’application concrète au sein de l’entreprise. Sa capacité à regrouper des documents textes en temps réel, sans nécessiter de recalcul complet, ouvre la voie à plusieurs applications internes. Elle peut notamment être utilisée pour organiser automatiquement des documents par thématiques ou par secteurs d’activité, facilitant ainsi la navigation, la veille ou l’analyse ciblée de contenus.  

Découvrez les autres accomplissements du Research Lab !

Modèle GLiNER
Lire la suite
SemEval24
Lire la suite
Les outils d’IA par F.initiatives
Lire la suite