Êtes-vous prêt·e à décupler la puissance de vos modèles grâce aux méthodes ensemblistes ? C’est ce que nous allons voir dans ce cours, en nous intéressant à une famille d’algorithme parmi les plus performantes actuellement.
En effet, en utilisant de manière rusée notre jeu de données, nous pouvons exploiter tout son potentiel, en créant un grand nombre de petit modèles rapidement puis en développant un méta-modèle qui les rassemble.
Suivez ce cours pour apprendre les deux familles de modèles les plus utilisées par les data scientists : les méthodes parallèles avec les forêts aléatoires et les méthodes séquentielles dont le modèle phare est le gradient boosting.
Intervenants
Yannis Chaouche
Ingénieur Machine Learning – Professeur @ OpenClassroomsDurée
Début le 04 Octobre 2017
Prérequis
Ce cours de Data Science se situe au croisement des mathématiques et de l’informatique. Pour en profiter pleinement, n’hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
- Python pour le calcul numérique que nous utiliserons dans la partie TP du cours (librairie numpy et création de graphes avec pyplot),
- Quelques notions d’algèbre linéaire, telles que manipulation de vecteurs, multiplications de matrices, normes,
- Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance.
Charge de travail
15 heures au total
Coût
Gratuit
Certification
Vous devez compléter tous les exercices du cours et obtenir une note finale d’au moins 70% pour obtenir votre certification !
Un compte OpenClassrooms Premium Solo (20€ / mois) est nécessaire pour valider votre certification.
Déroulement
Chaque cours est composé d’une ou plusieurs parties et peut comporter du texte, des images (schéma, illustration) et des vidéos. Les vidéos des cours durent 10 minutes maximum, avec une moyenne de 3-4 minutes. Elles sont visualisables à tout moment sur OpenClassrooms et téléchargeables en haute définition.
Chaque partie d’un cours certifiant est ponctuée d’exercices de 2 types :
– des quiz corrigés automatiquement
– des devoirs libres (exemple : créer un site web avec des consignes précises).Ces devoirs sont évalués par les pairs. Chaque devoir est corrigé 3 fois par 3 autres élèves, dans un processus en double aveugle, selon un barème fixé par le professeur. La note finale est la moyenne des 3 notes reçues sur le devoir.
Si vous rencontrez des difficultés, pas de panique ! Vous pouvez à tout moment obtenir de l’aide sur les forums.
Programme
Partie 1 – Apprivoisez les méthodes parallèles
1. Améliorez la performance de vos algorithmes à l’aide des méthodes ensemblistes parallèles
2. Contrôlez la variance à l’aide du bagging
3. Réduisez la corrélation entre les apprenants faibles à l’aide des forêts aléatoires
4. TP – Mesurez la puissance des forêts aléatoires
Quiz : Partie 1Partie 2 – Maîtrisez les méthodes séquentielles
1. Initiez-vous aux méthodes séquentielles et au Boosting
2. Décuplez les capacités du boosting : (X)GBoost
Quiz : Partie 2Plateforme
OpenClassrooms
Une technologie issue du projet Open Source CLAIRE (Community Learning through Adaptive and Interactive multichannel Resources for Education) développé conjointement par OpenClassrooms (ex : Simple IT / Site du zéro), le laboratoire LIRIS (équipe Silex), et INRIA Grenoble (équipe WAM)