Formation Machine Learning
Cette formation vous permettra d’acquérir les bases du Machine Learning. À la fin de ces trois jours vous serez en mesure de créer et de déployer vos propres modèles prédictifs, à l'aide de l'écosystème scientifique du langage Python. Vous aurez alors à votre disposition tout un ensemble de bibliothèques et d'outils open-source, tels que Numpy, Scikit-Learn ou TensorFlow. Les concepts théoriques étudiés seront accompagnés d'exemples pratiques, utilisant des données issues de problèmes réels et de domaines variés (biologie, analyse d'images, climatologie, etc).
Objectifs pédagogiques
- Comprendre en quoi consiste l'apprentissage automatique
- Identifier les problèmes pour lesquels ce type de méthode saura apporter une réponse pertinente
- Connaître les différents types de méthodes et savoir utiliser les principaux algorithmes
Formation Machine Learning en détail
Programme
1. Les bases de l'apprentissage automatique
Cette première partie définit l'apprentissage automatique.
Elle présente les différents types de méthodes et elle donne les connaissances nécessaire pour identifier quels problèmes se prêtent facilement à l'apprentissage automatique.
Qu'est ce que l'apprentissage automatique ?
L'apprentissage automatique appartient au domaine de l'intelligence artificielle, nous verrons quelles sont ses spécificités.
Catégorisation des algorithmes
Nous présenterons les différents types de méthodes d'apprentissage automatique. Nous verrons que plusieurs classifications sont possibles et qu'elles correspondent à différents aspects de l'apprentissage automatique :
- Apprentissage supervisé / Apprentissage non-supervisé
- Classification / Régression
- Problème binaire / Problème multi-classes
Présentation de quelques applications remarquables
Nous reviendrons sur quelques problèmes résolus par des méthodes d'apprentissage automatique.
2. Manipulation des données
Cette partie traite de l'acquisition et de la représentation des données. La préparation des données est une étape clé dans les méthodes d'apprentissage automatique.
Les techniques que nous étudierons nous permettront de découvrir une méthode d'apprentissage automatique supervisé (la décomposition en composantes principales) et une méthode d'apprentissage automatique non-supervisé (l'algorithme des k-moyennes).
Quelles données utiliser ?
Nous présenterons les types de données fréquemment utilisés dans des problèmes d'apprentissages automatiques. Nous verrons comment normaliser ces données ainsi que les avantages de ce pré-traitement.
Constitution d'un ensemble de données d'apprentissage
Lors de l'utilisation d'une méthode par apprentissage supervisé, la constitution et l'utilisation d'un ensemble de données d'apprentissage pertinent sont fondamentales.
Nous étudierons quelques bonnes pratiques :
- vérification de l'adéquation entre les données d'apprentissages et les données réelles
- identification des classes rares et stratégies pour les prendre en compte
Réduction de la dimension des données
Nous présenterons la méthode d'analyse en composantes principales et l'utiliserons pour identifier les variables corrélées et réduire la dimension des données.
Regroupement des données
Nous présenterons l'algorithme des k-moyennes et l'utiliserons pour regrouper les données d'un problème en un nombre restreint d'ensembles.
3. Régression
Les méthodes de régression permettent de quantifier et de comprendre la relation entre plusieurs variables. Nous verrons comment ces méthodes permettent de réaliser des prédictions ou d'optimiser un environnement de production.
Méthode des moindres carrés ordinaire
L'algorithme des moindres carrés ordinaire est l'une des méthodes de régression les plus simple.
Nous verrons son principe, comment l'utiliser et quels sont ses limites.
Autres algorithmes de régression
Nous présenterons et utiliserons quelques algorithmes plus avancés, proposé par la bibliothèque Scikit-Learn.
4. Classification par apprentissage supervisé
L'apprentissage supervisé se déroule en deux temps. Tout d'abord la méthode est entraînée à reconnaître chacune des classes à partir d'un ensemble de données d'apprentissage. Cet apprentissage aboutit à la production d'un modèle, capable de déterminer pour de nouvelles données à quelles classes elles appartiennent.
Problèmes binaires
Les problèmes de classifications les plus simples concernent l'attribution d'une donnée à une classe parmi deux. Nous présenterons et utiliserons la méthode Séparateur à Vaste Marge (SVM).
Paramétrage des méthodes par validation croisée
Les méthodes d'apprentissage comprennent généralement de nombreux paramètres. La validation croisée permet de déterminer automatiquement les meilleures valeurs pour ces paramètres.
Classification multi-classes
Nous verrons comment les problèmes de classifications peuvent être étendus de 2 à N classes. Nous montrerons comment les Séparateurs à Vaste Marge sont modifiés pour gérer de tels problèmes. Nous présenterons et utiliserons la méthode Random Forest.
5. Réseaux de neurones
Les réseaux de neurones et l'apprentissage profond rencontrent un succès croissant dans la résolution de problèmes complexes dans des domaines tels que la finance, la médecine ou la production industrielle.
Principe
Nous décrirons rapidement le fonctionnement d'un réseau de neurones.
La bibliothèque TensorFlow
Nous présenterons la bibliothèque TensorFlow et nous l'utiliserons pour entraîner un réseau de neurones.
6. Vers des modèles plus complexes
Apprentissage semi-supervisé
L'apprentissage semi-supervisé se situe entre l'apprentissage supervisé et l'apprentissage non-supervisé. Les données d'apprentissages sont bien présentes mais souvent incomplètes.
Apprentissage par renforcement
L'apprentissage par renforcement fait intervenir des interactions régulières avec un validateur. L'algorithme propose un résultat et le validateur lui indique quelles parties sont fausses et qu'elles sont celles qui sont correctes.
Ces indications permettent d'améliorer les connaissances de la méthode et aboutissent à la proposition d'un nouveau résultat, plus pertinent.
Apprentissage multi-tâches
Lors de l'étude d'une nouvelle discipline, il est fréquent que nous faisions appel aux connaissances et compétences acquises dans d'autres domaines. Par exemple le fait d'étudier l'anglais peut faciliter l'apprentissage d'une deuxième langue étrangère.
L'apprentissage multi-tâche comprends des méthodes capables de résoudre simultanément plusieurs problèmes, de manière à ce que la progression pour un problème influence favorablement la progression sur les autres problèmes.
Public visé et pré-requis
Public
- Data Scientists
- Développeurs
- Ingénieurs et chercheurs
Pré-requis
- Connaissances de base en algorithmie
- Connaissances de base en mathématiques
- probabilités et statistiques : notion de variable aléatoire, de probabilité conditionnelle, de moyenne et de variance
- vecteurs et espaces de dimensions N
- fonction à N variables
- Connaissance du langage Python
- structures algorithmiques de base (if, for, while)
- chaînes, booléens, nombres flottants et entiers
- listes, tuples, dictionnaires
- les fonctions
- visibilité des variables
- utilisation des packages et modules
Personne en situation de handicap
Pour toutes questions relatives à l’accueil d’un participant présentant un handicap, merci de nous contacter préalablement avant toute inscription.
Prochaines sessions & tarifs
Formations IA / Data Science
Machine Learning
À distance (FOAD) Du 25 au 29 novembre 2024
Durée : 3 jours soit 21 heures.
Prix : 1800 € ht par personne.
1 journée puis 4 demi-journées
Formations IA / Data Science
Machine Learning
Nantes Du 1 au 3 avril 2025
Durée : 3 jours soit 21 heures
Tarif : 1800 € ht par personne
Formations IA / Data Science
Machine Learning
Toulouse Du 16 au 18 juin 2025
Durée : 3 jours soit 21 heures
Tarif : 1800 € ht par personne
Formations IA / Data Science
Machine Learning
Paris Du 6 au 8 octobre 2025
Durée : 3 jours soit 21 heures
Tarif : 1800 € ht par personne
Formations IA / Data Science
Machine Learning
À distance (FOAD) Du 25 au 27 novembre 2025
Durée : 3 jours soit 21 heures
Tarif : 1800 € ht par personne
Ingénierie pédagogique
Moyens pédagogiques et techniques
- les supports de cours (slides) seront disponibles en ligne et distribués en début de formation (à l'aide d'un lien vers notre outil interne ou d'une version numérisée), puis fournis au format électronique à la fin de la formation
- une salle de formation équipée d'une connexion Internet, d'un vidéoprojecteur, paperboard…
- un ordinateur par stagiaire avec un système d'exploitation installé et les outils nécessaires
Modalités de suivi de l'exécution du programme
- durant la formation : alternance d'apports théoriques (30% du cours) et d’exercices pratiques et de mise en situation sous forme de travaux pratiques corrigés avec l’expert-formateur
-
en fin de formation : évaluation à chaud sur l'atteinte des objectifs pédagogiques sous forme de tour de table et de test de connaissances, d'exercices, de QCM
Moyens d'encadrement
- Formation assurée par un expert Python connaissant les librairies scientifiques et le machine learning
Témoignages
Experts Machine Learning
Daphné Lercier
Chercheuse en géomatique
Mickaël Carlos
Chargé de recherche et développement-Django-python.