• contact@mooc-francophone.com

Explorez vos données avec des algorithmes non supervisés

‌Dans le cours Initiez-vous au machine learning, vous avez découvert comment transformer une question que vous avez sur vos données en un problème d’apprentissage automatique non supervisé. Dans ce cours, vous apprendrez à choisir et utiliser les principaux algorithmes qui permettent de résoudre ces problèmes.Vous découvrirez comment réduire la dimension de vos données grâce à des techniques linéaires comme l’analyse en composantes principales (ACP), ou des techniques non linéaires comme le très populaire t-SNE. Vous découvrirez aussi comment fonctionnent trois familles d’algorithmes de clustering : le clustering hiérarchique, k-means et le clustering par densité.Suivez ce cours pour apprendre à réduire la dimension de vos données, mieux les visualiser ou pour rendre vos algorithmes plus efficaces, et pour découvrir comment segmenter automatiquement vos données, sans avoir à définir des classes a priori.

Organisateur :

OpenClassrooms

* MOOC Francophone est un service de mise en relation sans inscription et sans intermédiaire. Nous n’organisons aucun cours, le lien « Suivre le cours » vous redirige vers la page web des organisateurs. Les participants peuvent également évaluer ce cours en cliquant ici
  • icon

    Intervenants

    Yannis Chaouche

    Data scientist & professeur chez OpenClassrooms

    Chloé-Agathe Azencott

    Chargée de recherche au CBIO de MINES ParisTech & Institut Curie. Enseignante à CentraleSupélec. Machine learning & bioinformatique.

  • icon

    Durée

    3 semaines

    Vous pouvez vous inscrire à ce cours à n’importe quel moment de l’année… Le  cours est disponible directement sur la plateforme OpenClassrooms 365 jours par an, 24/7, sur tous supports (PC, MAC, tablette, mobile).

    Vous pouvez également choisir de suivre les cours selon un rythme prédéfini par la plateforme (1 semaine par partie) ou bien sans rythme, sans contrainte de temps et organiser vous-même une progression régulière..

    Le rythme d’une semaine par partie permet un avancement régulier en fixant des dates limites sur le rendu des devoirs. L’avancement du cours sans rythme vous permet quant à lui une grande flexibilité, car vous pouvez réaliser vos exercices à tout moment.

    Cette formation est ouverte toute l’année.

  • icon

    Prérequis

    Prérequis :

    Ce cours de Data Science se situe au croisement des mathématiques et de l’informatique. Pour en profiter pleinement, n’hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :

    Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,

    -Quelques notions d’algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,

    -Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance.

  • icon

    Charge de travail

    15 heures

  • icon

    Coût

    Gratuit

  • icon

    Certification

    Vous devez compléter tous les exercices du cours et obtenir une note finale d’au moins 70% pour obtenir votre certification !

    Un compte OpenClassrooms Premium Solo (20€ / mois) est nécessaire pour valider votre certification.

  • icon

    Déroulement

    Chaque cours est composé d’une ou plusieurs parties et peut comporter du texte, des images (schéma, illustration) et des vidéos. Les vidéos des cours durent 10 minutes maximum, avec une moyenne de 3-4 minutes. Elles sont visualisables à tout moment sur OpenClassrooms et téléchargeables en haute définition.

    Chaque partie d’un cours certifiant est ponctuée d’exercices de 2 types :
    – des quiz corrigés automatiquement
    – des devoirs libres (exemple : créer un site web avec des consignes précises).

    Ces devoirs sont évalués par les pairs. Chaque devoir est corrigé 3 fois par 3 autres élèves, dans un processus en double aveugle, selon un barème fixé par le professeur. La note finale est la moyenne des 3 notes reçues sur le devoir.

    Si vous rencontrez des difficultés, pas de panique ! Vous pouvez à tout moment obtenir de l’aide sur les forums.

  • icon

    Programme

     Partie 1 – Utilisez un algorithme de réduction de dimension non supervisé linéaire

    1. Comprenez pourquoi réduire la dimension de vos données

    2. Calculez les composantes principales de vos données

    3. TP – ACP d’un jeu de données sur les performances d’athlètes olympiques

    4. Cherchez les variables latentes qui expliquent vos données

    Quiz : Quiz 1

    Partie 2 – Réduisez la dimension de vos données avec des algorithmes non linéaires

    1. Découvrez la réduction dimensionnelle non-linaire

    2. Utilisez une ACP avec un noyau

    3. Découvrez une variété qui conserve la structure globale

    4. Découvrez une variété qui favorise la structure globale

    Quiz : Quiz 2 

    Partie 3 – Partitionnez vos données avec un algorithme de clustering

    1. Découvrez l’intérêt des algorithme de clustering

    2. Définissez les critères que doit satisfaire votre clustering

    3. Partitionnez vos données avec un algorithme de clustering hiérarchique

    4. Partitionnez vos données avec un algorithme de k-means

    5. Partitionnez vos données avec DBSCAN

     

    Certificat de réussite

  • icon

    Plateforme

    OpenClassrooms
    Une technologie issue du projet Open Source CLAIRE (Community Learning through Adaptive and Interactive multichannel Resources for Education) développé conjointement par OpenClassrooms (ex : Simple IT / Site du zéro), le laboratoire LIRIS (équipe Silex), et INRIA Grenoble (équipe WAM)

Evaluer ce cours !

Votre avis participe à une dynamique constructive pour les prochains sessions

0 50 100 1
50%
Moyenne des votes Je participe !
fermer

Merci pour votre contribution. Votre avis est en attente de modération avant publication. Après validation, vos données seront anonymisées.

fermer

Pin It on Pinterest

Share This