Accueil / Blog / Formation / Évolutions de notre formation Machine Learning

Évolutions de notre formation Machine Learning

Par Bérengère Mathieu publié 21/04/2021

Aujourd'hui le Machine Learning est unanimement reconnu comme une évolution technologique majeure. Qu'il s'agisse de rester compétitif par rapport aux services proposés par vos concurrents ou de libérer vos experts métiers de tâches rendues de plus en plus chronophages par l'accumulation de données, les raisons ne manquent pas pour accroître les connaissances de vos équipes dans le domaine de l'intelligence artificielle.

Ces dernières années l'offre de formation en Machine Learning a littéralement explosée. Généralement ces dernières sont axées autour de deux problématiques :

  • couvrir la multitude d'algorithmes intégrant du Machine Learning ;
  • présenter une grande variété d'application (classification d'images, text mining, chat box, etc.).

Le programme de notre formation Machine Learning se veut un peu différent. Il s'appuie sur l'expérience professionnelle acquise lors des projets de data science que nous réalisons pour nos clients. Notre objectif : vous transmettre les compétences qui vous permettrons d'être autonomes face à vos problématiques métiers, plutôt que viser l'exhaustivité sur les algorithmes et les cas d'utilisation du Machine Learning.

La donnée : la difficulté centrale du Machine Learning

L'une des explications fréquemment évoquée concernant l'essor du Machine Learning porte sur l'augmentation du nombre de données collectées : d'une part nous disposons de la donnée nécessaire pour entraîner des méthodes de Machine Learning, d'autre part pour traiter la quantité toujours croissante de données, nous avons besoin des algorithmes de Machine Learning. Cette analyse omet cependant la question de la préparation des données, dont l'exploitation est loin d'être immédiate. Dans nos projets cette étape occupe une part conséquente, souvent plus importante que celle concernant le design et l'entraînement des algorithmes d'intelligence artificielle.

Afin de vous donner le maximum d'outils pour gérer aux mieux vos données, nous avons choisi d'aborder :

  • la détection de données aberrantes ;
  • la suppression ou le remplacement de données manquantes ;
  • l'adaptation du jeu de données aux exigences des algorithmes de Machine Learning.

Nous vous montrerons en outre que les données sont, dans de nombreux cas, le levier le plus efficace pour améliorer les performances d'un algorithme de Machine Learning.

Intérêt des méthodes d'apprentissages non supervisé

Si de plus en plus d'entreprises disposent d'une quantité de données suffisante pour se lancer dans du Machine Learning, elles ne possèdent cependant pas de vérité terrain sur ces données. La vérité terrain correspond au résultat attendu pour chaque donnée : elle doit donc être réalisée par les experts métiers et son coût constitue un frein important dans l'essor de nombreux projets de Machine Learning.

Les méthodes par apprentissage non-supervisé constituent une catégorie d'algorithme qui permettent d'organiser, d'associer, de représenter automatiquement des données sans disposer d'aucune connaissance a priori sur ces données i.e sans nécessiter de vérité terrain. Nous verrons comment les utiliser pour acquérir des informations pertinentes sur les données.

En bonus, nos récents travaux de R&D nous permettent de vous présenter l'algorithme Deep Cluster, un croisement intéressant entre réseaux de neurones et apprentissage non-supervisé.

Les méthodes d'auto-ML : un nouvel outil essentiel pour les data scientists

Lancés il y a quelques années, des projets comme Auto-Sklearn, TPOT ou Auto Keras contribuent à modifier le métier des data scientist en proposant des algorithmes capables de sélectionner automatiquement une combinaison  de techniques de Machine Learning pertinente dans le cadre d'une problématique donnée. Ces bibliothèques Python ne dispensent pas de disposer d'une bonne expertise sur les différents algorithmes de Machine Learning, mais elles permettent un gain de temps considérable.

Nous verrons comment les intégrer dans un projet de data science, quelles sont leurs avantages et les points sur lesquels il convient de rester vigilant.

MlFlow : suivie de vos expérimentations et mise en production

Entraîner une méthode de Machine Learning pour réaliser un traitement sur des données requiert une phase d'expérimentation. Sauvegarder le travail réalisé durant cette période afin de pouvoir le communiquer, le poursuivre ou le justifier est une tâche des outils comme MlFlow facilitent grandement.

L'un des atouts d'MlFlow résident également dans le fait de faciliter le serving du modèle retenu et donc de gagner du temps sur la mise en production. Nous vous ferrons partager l'expérience que nous avons acquis dans l'utilisation de cette bibliothèque.

En conclusion

Pour vous faire une idée plus précise de ce nous proposons, vous pouvez retrouver le programme de notre formation Machine Learning sur notre site. Cette formation est disponible en ateliers en ligne, qui nous pouvons adapter pour nous rapprocher au mieux de vos problématiques métiers.



Contact

Contactez Anaël Boulier, notre responsable formation

 

Demande d'information