Décrivez et nettoyez votre jeu de données

Quel est le point commun entre un biologiste, un journaliste et un analyste marketing ? Ils communiquent tous à l’aide de graphiques, de moyennes ou de pourcentages, bref : ils font des statistiques !

Avoir des données à disposition, c’est bien, mais savoir en tirer les informations principales, c’est essentiel. Les données sont l’or noir de notre époque : on en analyse des quantités astronomiques chaque seconde dans le monde grâce à des algorithmes. Vous avez probablement déjà entendu parler de Big Data ou de Data Science.

Dans ce cours, vous apprendrez les bases de la Data Science : chercher les informations essentielles dans des données, notamment à l’aide de graphiques. Vous avez déjà entendu parler de moyennes, de variances ou d’histogrammes. Nous allons ici redécouvrir tous ces concepts, mais nous irons encore plus loin en recherchant les relations qui existent à l’intérieur de vos données. Mais avant tout, nous verrons comment nettoyer des données : vous verrez en effet que vos données ne seront jamais directement exploitables sans une phase préalable.

Petit bonus : je vous propose d’analyser vos comportements de consommation à partir de vos relevés de compte bancaire, si vous en avez. Sinon, vous pourrez en télécharger un. Vous êtes-vous déjà posé les questions suivantes ?

  • Quand vous faites vos courses, à quelle vitesse consommez-vous vos produits ?
  • Combien faites-vous de stock ?
  • Consommez-vous plus en début ou en fin de mois ? les week-ends ?
  • Êtes-vous plus dépensier lorsque vous avez beaucoup d’argent sur votre compte ?
  • etc.

Si vous souhaitez vous lancer dans la Data Science, ce cours présente les bases essentielles : il est un très bon point de départ. Si vous êtes un simple curieux, ce cours vous conviendra également.

Quel que soit votre jeu de données, il a forcément quelque chose à vous dire !

Objectifs pédagogiques :

  • Nettoyer un jeu de données
  • Représenter les variables
  • Réaliser une analyse univariée
  • Réaliser une analyse bivariée
Organisateur :

OpenClassrooms

* MOOC Francophone est un service de mise en relation sans inscription et sans intermédiaire. Nous n’organisons aucun cours, le lien « Suivre le cours » vous redirige vers la page web des organisateurs. Les participants peuvent également évaluer ce cours en cliquant ici
  • icon

    Intervenants

    Nicolas Rangeon
    Nicolas Rangeon, Data scientist et formateur, Diplôme d’Ingénieur en informatique (Université de Technologie de Compiègne)

  • icon

    Durée

    4 semaines

    Vous pouvez vous inscrire à ce cours à n’importe quel moment de l’année… Le  cours est disponible directement sur la plateforme OpenClassrooms 365 jours par an, 24/7, sur tous supports (PC, MAC, tablette, mobile).

    Vous pouvez également choisir de suivre les cours selon un rythme prédéfini par la plateforme (1 semaine par partie) ou bien sans rythme, sans contrainte de temps et organiser vous-même une progression régulière..

    Le rythme d’une semaine par partie permet un avancement régulier en fixant des dates limites sur le rendu des devoirs. L’avancement du cours sans rythme vous permet quant à lui une grande flexibilité, car vous pouvez réaliser vos exercices à tout moment.

    Cette formation est ouverte toute l’année.

  • icon

    Prérequis

    • Avoir quelques notions de mathématiques : multiplication, division, puissance, nombres entiers, nombres réels, équation de droite par fonction affine ( f(x)=ax+b ), coordonnées d’un point dans un graphique à 2 dimensions
    • Optionnellement, savoir programmer en langage R ou en langage Python (niveau basique) et savoir manipuler les objets Dataframe (disponibles nativement sous R, ou en Python via la librairie Pandas). Cela vous sera utile pour quelques quiz et activités évaluées. Les cours permettant d’acquérir ces prérequis sont listés dans le premier chapitre de ce cours.
  • icon

    Charge de travail

    15 heures au total

  • icon

    Coût

    Gratuit

  • icon

    Certification

    Vous devez compléter tous les exercices du cours et obtenir une note finale d’au moins 70% pour obtenir votre certification !

    Un compte OpenClassrooms Premium Solo (20€ / mois) est nécessaire pour valider votre certification.

  • icon

    Déroulement

    Chaque cours est composé d’une ou plusieurs parties et peut comporter du texte, des images (schéma, illustration) et des vidéos. Les vidéos des cours durent 10 minutes maximum, avec une moyenne de 3-4 minutes. Elles sont visualisables à tout moment sur OpenClassrooms et téléchargeables en haute définition.

    Chaque partie d’un cours certifiant est ponctuée d’exercices de 2 types :
    – des quiz corrigés automatiquement
    – des devoirs libres (exemple : créer un site web avec des consignes précises).

    Ces devoirs sont évalués par les pairs. Chaque devoir est corrigé 3 fois par 3 autres élèves, dans un processus en double aveugle, selon un barème fixé par le professeur. La note finale est la moyenne des 3 notes reçues sur le devoir.

    Si vous rencontrez des difficultés, pas de panique ! Vous pouvez à tout moment obtenir de l’aide sur les forums.

  • icon

    Programme

    Partie 1 – Introduction
    1. Tirez parti de ce cours

    Partie 2 – Représentez vos variables
    1. Rencontrez Vincent, data analyst dans le domaine de l’énergie
    2. Installez R ou Python
    3. Découvrez les statistiques : vocabulaire et tour d’horizon
    4. Téléchargez les données
    5. Découvrez les 4 types de variables
    6. Représentez la distribution empirique d’une variable
    7. Présentez une variable sous forme de tableau
    Quiz : Testez vos connaissances sur les statistiques descriptives

    Partie 3 – Réalisez une analyse univariée
    1. Rencontrez Ulysse, Data Analyst à OpenClassrooms
    2. Laissez-vous guider par les indicateurs
    3. Découvrez les mesures de tendance centrale
    4. Comprenez les mesures de dispersion
    5. Appréhendez les mesures de forme
    6. Familiarisez-vous avec les mesures de concentration
    7. Abordez encore plus de mesures
    Quiz : Les mesures statistiques

    Partie 4 – Réalisez une analyse bivariée
    1. Entrez dans le monde de l’analyse bivariée
    2. Recherchez les corrélations
    3. Analysez la corrélation entre deux variables quantitatives
    4. Analysez deux variables quantitatives par régression linéaire
    5. Analysez une variable quantitative et une qualitative par ANOVA
    6. Analysez deux variables qualitatives avec le Chi-2
    Activité : Réalisez des analyses bivariées

    Partie 5 – Nettoyez votre jeu de données
    1. Repérez les différents types d’erreurs
    2. Traitez les valeurs manquantes, les outliers et les doublons
    3. TP : Nettoyez votre jeu de données
    Quiz : Nettoyez votre échantillon

    Certificat de réussite

  • icon

    Plateforme

    OpenClassrooms
    Une technologie issue du projet Open Source CLAIRE (Community Learning through Adaptive and Interactive multichannel Resources for Education) développé conjointement par OpenClassrooms (ex : Simple IT / Site du zéro), le laboratoire LIRIS (équipe Silex), et INRIA Grenoble (équipe WAM)

Evaluer ce cours !

Votre avis participe à une dynamique constructive pour les prochains sessions

0 50 100 1
50%
Moyenne des votes Je participe !
fermer

Merci pour votre contribution. Votre avis est en attente de modération avant publication. Après validation, vos données seront anonymisées.

fermer

Pin It on Pinterest

Share This
+