Accueil / Réalisations / Application web pour le matching de données textuelles hétéroclites

Application web pour le matching de données textuelles hétéroclites

Développement de réseaux de neurones permettant la conception d'une solution pour associer des données provenant de diverses sources à un référentiel unique créé et maintenu par une entreprise.

Projet

Le Groupe Dubreuil a souhaité développer une solution logicielle permettant de réaliser de la mise en correspondance de produits.

Nom du projet : Outil web de matching

Client : Le Groupe Dubreuil
Le groupe Dubreuil est une entreprise familiale qui s'est diversifiée autour de sept métiers au fil des décennies : automobile, aérien, matériels BTP, énergies, machinisme, agricole, poids lourd, hôtellerie, immobilier. Basée en Vendée, c'est aujourd’hui le premier groupe vendéen en termes de chiffre d'affaires.

  • Groupe Dubreuil

Descriptif

Le Groupe Dubreuil a sollicité Makina Corpus pour concevoir une solution permettant d'associer des données issues de diverses sources à un référentiel créé et maintenu par leurs experts métiers. Accessible via une application web, la rapidité de celle-ci assure une utilisation confortable aux utilisateurs qui effectuent des recherches. Cet outil interne porte des enjeux stratégiques importants pour l'entreprise, c'est pourquoi certains détails techniques ou métier restent confidentiels dans ce projet. 

Démarche

Première étape, Makina Corpus a proposé un audit pour analyser les données et réaliser des tests afin :

  • de faire émerger des pistes de développement utilisant des outils de machine learning ou non
  • d'imaginer une première solution répondant à la problématique

Les algorithmes conçus ont été spécialisés et entraînés. Ensuite, un outil web a été proposé pour faciliter la démonstration aux équipes du Groupe Dubreuil qui seront amenées à utiliser la solution de matching. Suite à la démonstration, un atelier UX a eu lieu pour collecter les retours utilisateurs et surtout avoir la vision métier nécessaire pour développer un outil industrialisable et sur-mesure. Les sources de données sont amenées à évoluer, l'application est capable de poursuivre son apprentissage en prenant en compte les retours réalisés par les utilisateurs (nouvelle version à venir).

+ INFO : article présentant une partie de la démarche du projet, "Mise en correspondance de données textuelles hétéroclites"

L'application web est opérationnelle et en production. Le renforcement des réseaux de neurones est prévu quand l'outil aura été suffisamment utilisé pour augmenter la vérité terrain.

Challenge

Les données textuelles à disposition sont des chaînes de caractères courtes pouvant être issues de plusieurs langues (français, anglais, allemand, etc.). La majorité des mots utilisés sont des noms propres absents des lexiques usuels.

Contrairement à d'autres type de données (mesures, images, vidéo, signal audio, etc.), les données textuelles ne peuvent pas être utilisées directement par une méthode de Machine Learning. D'abord, elles doivent être converties sous une forme numérique. Une méthode rapide pour les convertir consiste à associer un nombre à chaque mot.

Solution

  • Réseau de neurones de type Word2Vec
  • Application web basée sur Django et React

Découvrez nos formations en lien avec ces technologies :

Expertise

Suite à l'audit, un rapport d'analyse avec des préconisations des différentes solutions envisageables a été remis. Celui-ci mettant en exergue différents enjeux à priorisés :

  • Rapidité à mettre en œuvre la solution
  • Passage à l’échelle
  • Prise de risque

Un accompagnement a été mené avec la volonté de suivre une démarche tournée autour du conseil. Ainsi, Makina Corpus a mise en place rapidement un POC avant de confirmer le développement spécifique de la solution la plus adaptée.