Exploiter des données textuelles

Bienvenue dans ce cours de traitement du langage naturel ! L’objectif de ce cours est de comprendre les méthodes qui permettent de transformer le texte en features exploitables par des algorithmes de machine learning classiques, et les architectures et modèles qui correspondent le mieux à ce type de données. En l’occurence un ensemble de documents texte non-structurés.

Ce cours est donc divisé en 3 parties : une première qui traite de l’exploration, du nettoyage et de la normalisation du texte. Une seconde partie est dédiée au différents types de transformations qui vont nous permettre de mieux comprendre nos données textuelles et de créer des features que nous pourrons utiliser dans les algorithmes classiques de machine learning. La dernière partie sera consacrée à la classification du texte à l’aide de l’apprentissage automatique.

Centralesupelec
Organisateur :

CentraleSupélec & OpenClassrooms

* MOOC Francophone est un service de mise en relation sans inscription et sans intermédiaire. Nous n’organisons aucun cours, le lien « Suivre le cours » vous redirige vers la page web des organisateurs.
  • icon

    Intervenants

    Yannis Chaouche

    Ingénieur Machine Learning – Professeur @ OpenClassrooms

  • icon

    Durée

    8 séquences

  • icon

    Prérequis

    Ce cours fait partie du parcours Data Scientist. Il se situe au croisement des mathématiques et de l’informatique. Pour en profiter pleinement, n’hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :

    • Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,
    • Quelques notions d’algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,
    • Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance.
  • icon

    Charge de travail

    12 heures au total

  • icon

    Coût

    Gratuit

  • icon

    Certification

    Vous devez compléter tous les exercices du cours et obtenir une note finale d’au moins 70% pour obtenir votre certification !

    Un compte OpenClassrooms Premium Solo (20€ / mois) est nécessaire pour valider votre certification.

  • icon

    Déroulement

    Chaque cours est composé d’une ou plusieurs parties et peut comporter du texte, des images (schéma, illustration) et des vidéos. Les vidéos des cours durent 10 minutes maximum, avec une moyenne de 3-4 minutes. Elles sont visualisables à tout moment sur OpenClassrooms et téléchargeables en haute définition.

    Chaque partie d’un cours certifiant est ponctuée d’exercices de 2 types :
    – des quiz corrigés automatiquement
    – des devoirs libres (exemple : créer un site web avec des consignes précises).

    Ces devoirs sont évalués par les pairs. Chaque devoir est corrigé 3 fois par 3 autres élèves, dans un processus en double aveugle, selon un barème fixé par le professeur. La note finale est la moyenne des 3 notes reçues sur le devoir.

    Si vous rencontrez des difficultés, pas de panique ! Vous pouvez à tout moment obtenir de l’aide sur les forums.

  • icon

    Programme

    Partie 1 – Traitez des données textuelles

    1. Explorez des données texte
    2. Nettoyez et normalisez des données texte
    Activité : Effectuez un nettoyage et une analyse exploratoire de données texte

    Partie 2 – Transformez des données textuelles

    1. Représentez votre corpus en «  »bag of words » »
    2. Effectuez des plongements de mots (word embeddings)
    3. Modélisez des sujets avec des méthodes non supervisées
    Quiz : Partie 2

    Partie 3 – Effectuez une classification de données textuelles

    1. Opérez une première classification naïve de sentiments
    2. Allez plus loin dans la classification de mots
    3. Traitez le langage à l’aide de réseaux de neurones
    Activité : Classifiez du texte

    Certificat de réussite.

  • icon

    Plateforme

    OpenClassrooms
    Une technologie issue du projet Open Source CLAIRE (Community Learning through Adaptive and Interactive multichannel Resources for Education) développé conjointement par OpenClassrooms (ex : Simple IT / Site du zéro), le laboratoire LIRIS (équipe Silex), et INRIA Grenoble (équipe WAM)

Pin It on Pinterest

Share This
Retrouvez-nous sur YouTube pour parler actu MOOC et formations en ligne !S'abonner
+