Bienvenue dans ce cours de traitement du langage naturel. L’objectif de ce cours est de comprendre les méthodes qui permettent de transformer le texte en features exploitables par des algorithmes de machine learning, et les architectures et modèles qui correspondent le mieux à ce type de données. En l’occurence un ensemble de documents texte non-structurés.
Ce cours est divisé en 3 parties : une première qui traite de l’exploration, du nettoyage et de la normalisation du texte. Une seconde partie dédiée au différents types de transformations qui vont vous permettre de mieux comprendre vos données textuelles et de créer des features que vous pourrez utiliser dans vos algorithmes de machine learning. La dernière partie sera consacrée à la classification du texte à l’aide de l’apprentissage automatique sous forme de réseau de neurones.
Objectifs pédagogiques :
- Effectuez un pré-traitement de corpus de texte
- Maîtrisez les techniques de bag-of-words et de plongements de mots (word embeddings)
- Modélisez des sujets de manière non-supervisée (LDA, etc.)
- Classer des corpus de texte avec des méthodes supervisées (réseaux de neurones)
Intervenants
Yannis Chaouche
Expert Machine Learning – Responsable Education Hub France IA – Professeur @ OpenClassroomsDurée
4 semaines
Vous pouvez vous inscrire à ce cours à n’importe quel moment de l’année… Le cours est disponible directement sur la plateforme OpenClassrooms 365 jours par an, 24/7, sur tous supports (PC, MAC, tablette, mobile).
Vous pouvez également choisir de suivre les cours selon un rythme prédéfini par la plateforme (1 semaine par partie) ou bien sans rythme, sans contrainte de temps et organiser vous-même une progression régulière..
Le rythme d’une semaine par partie permet un avancement régulier en fixant des dates limites sur le rendu des devoirs. L’avancement du cours sans rythme vous permet quant à lui une grande flexibilité, car vous pouvez réaliser vos exercices à tout moment.
Cette formation est ouverte toute l’année.
Prérequis
Ce cours fait partie du parcours Data Scientist. Il se situe au croisement des mathématiques et de l’informatique. Pour en profiter pleinement, n’hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
- Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,
- Quelques notions d’algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,
- Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance,
- Les modèles non-supervisées permettront de modéliser des features automatiquement à partir du texte
- Les modèles supervisées non-linéaires sont indispensables au traitement du texte, notamment les réseaux de neurones séquentiels
Charge de travail
8 heures au total
Coût
Gratuit
Certification
Vous devez compléter tous les exercices du cours et obtenir une note finale d’au moins 70% pour obtenir votre certification !
Un compte OpenClassrooms Premium Solo (20€ / mois) est nécessaire pour valider votre certification.
Déroulement
Chaque cours est composé d’une ou plusieurs parties et peut comporter du texte, des images (schéma, illustration) et des vidéos. Les vidéos des cours durent 10 minutes maximum, avec une moyenne de 3-4 minutes. Elles sont visualisables à tout moment sur OpenClassrooms et téléchargeables en haute définition.
Chaque partie d’un cours certifiant est ponctuée d’exercices de 2 types :
– des quiz corrigés automatiquement
– des devoirs libres (exemple : créer un site web avec des consignes précises).Ces devoirs sont évalués par les pairs. Chaque devoir est corrigé 3 fois par 3 autres élèves, dans un processus en double aveugle, selon un barème fixé par le professeur. La note finale est la moyenne des 3 notes reçues sur le devoir.
Si vous rencontrez des difficultés, pas de panique ! Vous pouvez à tout moment obtenir de l’aide sur les forums.
Programme
Partie 1 – Prétraitez des données textuelles
1. Récupérez et explorez le corpus de textes
2. Nettoyez et normalisez les données
Activité : Prétraitez un corpus en vue de créer un moteur de résumés
Partie 2 – Transformez des données textuelles
1. Représentez votre corpus en « bag of words »
2. Effectuez des plongements de mots (word embeddings)
3. Modélisez des sujets avec des méthodes non supervisées
Quiz : Partie 2
Partie 3 – Détectez automatiquement les sentiments de commentaires clients
1. Opérez une première classification naïve de sentiments
2. Allez plus loin dans la classification de mots
3. Traitez le corpus de textes à l’aide de réseaux de neurones
Activité : Classifiez du texte
Certificat de réussitePlateforme
OpenClassrooms
Une technologie issue du projet Open Source CLAIRE (Community Learning through Adaptive and Interactive multichannel Resources for Education) développé conjointement par OpenClassrooms (ex : Simple IT / Site du zéro), le laboratoire LIRIS (équipe Silex), et INRIA Grenoble (équipe WAM)