Analysez vos données textuelles

Bienvenue dans ce cours de traitement du langage naturel. L’objectif de ce cours est de comprendre les méthodes qui permettent de transformer le texte en features exploitables par des algorithmes de machine learning, et les architectures et modèles qui correspondent le mieux à ce type de données. En l’occurence un ensemble de documents texte non-structurés.

Ce cours est divisé en 3 parties : une première qui traite de l’exploration, du nettoyage et de la normalisation du texte. Une seconde partie dédiée au différents types de transformations qui vont vous permettre de mieux comprendre vos données textuelles et de créer des features que vous pourrez utiliser dans vos algorithmes de machine learning. La dernière partie sera consacrée à la classification du texte à l’aide de l’apprentissage automatique sous forme de réseau de neurones.

Objectifs pédagogiques :

  • Effectuez un pré-traitement de corpus de texte
  • Maîtrisez les techniques de bag-of-words et de plongements de mots (word embeddings)
  • Modélisez des sujets de manière non-supervisée (LDA, etc.)
  • Classer des corpus de texte avec des méthodes supervisées (réseaux de neurones)
Centralesupelec
Organisateur :

OpenClassrooms

* MOOC Francophone est un service de mise en relation sans inscription et sans intermédiaire. Nous n’organisons aucun cours, le lien « Suivre le cours » vous redirige vers la page web des organisateurs. Les participants peuvent également évaluer ce cours en cliquant ici
  • icon

    Intervenants

    Yannis Chaouche
    Expert Machine Learning – Responsable Education Hub France IA – Professeur @ OpenClassrooms

  • icon

    Durée

    4 semaines

    Vous pouvez vous inscrire à ce cours à n’importe quel moment de l’année… Le  cours est disponible directement sur la plateforme OpenClassrooms 365 jours par an, 24/7, sur tous supports (PC, MAC, tablette, mobile).

    Vous pouvez également choisir de suivre les cours selon un rythme prédéfini par la plateforme (1 semaine par partie) ou bien sans rythme, sans contrainte de temps et organiser vous-même une progression régulière..

    Le rythme d’une semaine par partie permet un avancement régulier en fixant des dates limites sur le rendu des devoirs. L’avancement du cours sans rythme vous permet quant à lui une grande flexibilité, car vous pouvez réaliser vos exercices à tout moment.

    Cette formation est ouverte toute l’année.

  • icon

    Prérequis

    Ce cours fait partie du parcours Data Scientist. Il se situe au croisement des mathématiques et de l’informatique. Pour en profiter pleinement, n’hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :

    • Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,
    • Quelques notions d’algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,
    • Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance,
    • Les modèles non-supervisées permettront de modéliser des features automatiquement à partir du texte
    • Les modèles supervisées non-linéaires sont indispensables au traitement du texte, notamment les réseaux de neurones séquentiels
  • icon

    Charge de travail

    8 heures au total

  • icon

    Coût

    Gratuit

  • icon

    Certification

    Vous devez compléter tous les exercices du cours et obtenir une note finale d’au moins 70% pour obtenir votre certification !

    Un compte OpenClassrooms Premium Solo (20€ / mois) est nécessaire pour valider votre certification.

  • icon

    Déroulement

    Chaque cours est composé d’une ou plusieurs parties et peut comporter du texte, des images (schéma, illustration) et des vidéos. Les vidéos des cours durent 10 minutes maximum, avec une moyenne de 3-4 minutes. Elles sont visualisables à tout moment sur OpenClassrooms et téléchargeables en haute définition.

    Chaque partie d’un cours certifiant est ponctuée d’exercices de 2 types :
    – des quiz corrigés automatiquement
    – des devoirs libres (exemple : créer un site web avec des consignes précises).

    Ces devoirs sont évalués par les pairs. Chaque devoir est corrigé 3 fois par 3 autres élèves, dans un processus en double aveugle, selon un barème fixé par le professeur. La note finale est la moyenne des 3 notes reçues sur le devoir.

    Si vous rencontrez des difficultés, pas de panique ! Vous pouvez à tout moment obtenir de l’aide sur les forums.

  • icon

    Programme

    Partie 1 – Prétraitez des données textuelles
    1. Récupérez et explorez le corpus de textes
    2. Nettoyez et normalisez les données
    Activité : Prétraitez un corpus en vue de créer un moteur de résumés


    Partie 2 – Transformez des données textuelles
    1. Représentez votre corpus en « bag of words »
    2. Effectuez des plongements de mots (word embeddings)
    3. Modélisez des sujets avec des méthodes non supervisées
    Quiz : Partie 2


    Partie 3 – Détectez automatiquement les sentiments de commentaires clients
    1. Opérez une première classification naïve de sentiments
    2. Allez plus loin dans la classification de mots
    3. Traitez le corpus de textes à l’aide de réseaux de neurones
    Activité : Classifiez du texte


    Certificat de réussite 

  • icon

    Plateforme

    OpenClassrooms
    Une technologie issue du projet Open Source CLAIRE (Community Learning through Adaptive and Interactive multichannel Resources for Education) développé conjointement par OpenClassrooms (ex : Simple IT / Site du zéro), le laboratoire LIRIS (équipe Silex), et INRIA Grenoble (équipe WAM)

Evaluer ce cours !

Votre avis participe à une dynamique constructive pour les prochains sessions

0 50 100 1
50%
Moyenne des votes Je participe !
fermer

Merci pour votre contribution. Votre avis est en attente de modération avant publication. Après validation, vos données seront anonymisées.

fermer

Pin It on Pinterest

Share This
+