Vous avez un important volume de données ? Il est important de savoir les synthétiser !
Dans ce cours, vous apprendrez à effectuer une analyse exploratoire multidimensionnelle. Nous utiliserons des méthodes populaires pour analyser rapidement votre échantillon en réduisant la dimension du nombre d’individus ou de variables.
Nous aborderons des méthodes emblématiques comme l’Analyse en Composantes Principales ou encore le fameux clustering :
L’Analyse en Composantes Principales (ACP ou PCA en anglais) permet de dégager rapidement les principales tendances de votre échantillon, en diminuant le nombre de variables nécessaires à la représentation de vos données tout en perdant le moins d’informations possible.
Nous aborderons également les deux méthodes de clustering les plus populaires : l’algorithme du k-means et la classification hiérarchique. Celles-ci permettent de regrouper vos individus selon leurs similarités.
À la fin de ce cours, vous aurez ajouté à votre boîte à outils les méthodes classiques de tout bon Data Analyst !
Les vidéos de ce cours seront disponibles en septembre. Merci pour votre patience
Intervenants
Nicolas Rangeon
Nicolas Rangeon, Data scientist et formateur, Diplôme d’Ingénieur en informatique (Université de Technologie de Compiègne)Thanh-Lan Nguyen
Durée
4 semaines
Vous pouvez vous inscrire à ce cours à n’importe quel moment de l’année… Le cours est disponible directement sur la plateforme OpenClassrooms 365 jours par an, 24/7, sur tous supports (PC, MAC, tablette, mobile).
Vous pouvez également choisir de suivre les cours selon un rythme prédéfini par la plateforme (1 semaine par partie) ou bien sans rythme, sans contrainte de temps et organiser vous-même une progression régulière..
Le rythme d’une semaine par partie permet un avancement régulier en fixant des dates limites sur le rendu des devoirs. L’avancement du cours sans rythme vous permet quant à lui une grande flexibilité, car vous pouvez réaliser vos exercices à tout moment.
Cette formation est ouverte toute l’année.
Prérequis
- Maîtriser les statistiques descriptives uni et bidimensionnelles, notamment connaître le vocabulaire de base et savoir représenter un échantillon ; les différents types de variables ; la notion de distribution (et comment la représenter) ;la notion de corrélation et plus précisément de corrélation linéaire
- Être familier avec la notion de vecteur (écriture, représentation graphique), de droite, d’axe.
- Savoir utiliser le langage Python dans le cadre de la Data Science, ou le langage R.
Charge de travail
8 heures au total
Coût
Gratuit
Certification
Vous devez compléter tous les exercices du cours et obtenir une note finale d’au moins 70% pour obtenir votre certification !
Un compte OpenClassrooms Premium Solo (20€ / mois) est nécessaire pour valider votre certification.
Déroulement
Chaque cours est composé d’une ou plusieurs parties et peut comporter du texte, des images (schéma, illustration) et des vidéos. Les vidéos des cours durent 10 minutes maximum, avec une moyenne de 3-4 minutes. Elles sont visualisables à tout moment sur OpenClassrooms et téléchargeables en haute définition.
Chaque partie d’un cours certifiant est ponctuée d’exercices de 2 types :
– des quiz corrigés automatiquement
– des devoirs libres (exemple : créer un site web avec des consignes précises).Ces devoirs sont évalués par les pairs. Chaque devoir est corrigé 3 fois par 3 autres élèves, dans un processus en double aveugle, selon un barème fixé par le professeur. La note finale est la moyenne des 3 notes reçues sur le devoir.
Si vous rencontrez des difficultés, pas de panique ! Vous pouvez à tout moment obtenir de l’aide sur les forums.
Programme
Partie 1 – Découvrez l’analyse exploratoire multidimensionnelle
1. Êtes-vous prêt à suivre ce cours ?
2. Découvrez l’intérêt de l’analyse multidimensionnelle
3. Rencontrez Emeric Nicolas, Data scientist
4. Découvrez les méthodes factorielles et la classification non supervisée
5. Téléchargez les jeux de données que nous étudierons
6. Représentez vos données dans un espace
Quiz : Avez-vous compris l’intérêt de l’analyse exploratoire multidimensionelle ?
Partie 2 – Découvrez l’Analyse en Composantes Principales (ACP)
1. Comprenez l’enjeu de l’Analyse en Composantes Principales
2. Calculez les composantes principales
3. Interprétez le cercle des corrélations
4. Représentez les individus sur les plans factoriels
5. Choisissez le nombre de composantes
6. TP : Réalisez une ACP
7. Soyez attentifs aux spécificités de l’ACP
Quiz : Pratiquez l’ACP
Partie 3 – Partitionnez vos données
1. Recherchez une bonne partition
2. Découvrez l’algorithme k-means
3. Effectuez une classification hiérarchique
4. Interprétez votre partition
5. TP : Partitionnez vos données
Activité : Réalisez un détecteur de slides
Certificat de réussitePlateforme
OpenClassrooms
Une technologie issue du projet Open Source CLAIRE (Community Learning through Adaptive and Interactive multichannel Resources for Education) développé conjointement par OpenClassrooms (ex : Simple IT / Site du zéro), le laboratoire LIRIS (équipe Silex), et INRIA Grenoble (équipe WAM)