Traitement du langage naturel
Durée : 28 heures – Évaluation : Projet
Présentation
La formation vise à fournir une compréhension approfondie et une construction dans un contexte d’IA générative textuelle. Les élèves seront formés à la conception des architectures du traitement automatique du langage naturel (TLN), comme la génération automatique de résumés, de synthèses et autres. Ils sauront analyser les enjeux liés à la production automatisée de contenus en français, tout en intégrant une réflexion éthique et en veillant à la qualité des résultats.
À l’issue de la formation, il sera possible de déployer des solutions en utilisant des environnements Python adaptés, facilitant le développement d’architectures performantes. La formation inclut également la maîtrise du chargement, du nettoyage et de la préparation efficace des textes, en appliquant des techniques concrètes comme la normalisation et la tokenisation.
La compréhension des représentations vectorielles, notamment des embeddings modernes (Word2Vec et BERT), sera abordée pour optimiser la représentation du texte. Les analyses structurelles et sémantiques seront étudiées à travers l’utilisation des vecteurs, permettant une analyse fine du sens.
La formation permettra également de développer des techniques avancées pour la sélection et la génération de contenu, en dépassant les méthodes classiques pour obtenir des résultats plus sophistiqués.
L’objectif global est de fournir une expertise complète, allant du déploiement à la mise en œuvre concrète, afin que les participants soient capables de concevoir des architectures innovantes pour le traitement et la génération automatique de texte.
Arthur est Architecte des systèmes d'information dans les processus industriels, avec une spécialisation en Intelligence Artificielle. Il a débuté sa carrière professionnelle dans l'informatique au sein de la jeune pousse Oky Doky, en qualité de Chargé de projets IA.
Objectifs pédagogiques
- Introduire les concepts fondamentaux de l’IA générative et les techniques de traitement du langage naturel (TNL)
- Analyser les spécificités linguistiques du français pour mieux adapter les méthodes d’automatisation du résumé
- Installer et configurer un environnement Python (environnements virtuels, utilisation de bibliothèques telles que NLTK, spaCy, transformeurs)
- Préparer des textes en français avec des opérations de chargement, nettoyage et préparation concrètes et pratiques pour l’analyse et la modélisation
- Étudier les vecteurs de mots et de phrases, la réduction de dimension, et introduire des représentations modernes (représentations vectorielles, embeddings Word2Vec, GloVe, BERT). Explorer également la réduction de dimension via PCA, t-SNE et UMAP pour capturer le sens du texte
- Construire des vecteurs pour représenter le contenu textuel dans un espace numérique, en utilisant des matrices TF-IDF, des représentations par moyennes de vecteurs, et en exploitant ces vecteurs pour l’analyse sémantique
- Implémenter une architecture de base pour analyser et résumer le contenu, dépassant les simples scores de similarité
- Explorer des techniques sophistiquées pour la sélection des phrases clés, et introduire les méthodes de génération automatique de résumés
- Approfondir avec des méthodes d’apprentissage automatique pour améliorer la qualité des résumés et dépasser les approches classiques
Plan du module
- Introduction au traitement du langage naturel et préparation des données (Approfondissement)
- Introduction au TLN
- Enjeux linguistiques spécifiques au français
- Cas d’usage avancés
- Environnement de développement
- Chargement et nettoyage des texte
- Analyse exploratoire
- Analyse sémantique et construction d’un modèle de représentation (Approfondissement)
- Représentations vectorielles avancées
- Calcul manuel et compréhension
- Réduction de dimension
- Similarité entre textes
- Approches alternatives
- Construction d’un algorithme de résumé basé sur l’importance des phrases (Approfondissement)
- Score de phrase avancé
- Filtrage et diversification
- Construction du résumé
- Techniques plus avancées
- Intégration, optimisation, déploiement et méthodes avancées
- Automatisation et modularité
- Améliorations et outils avancés
- Évaluation et tests
- Approches modernes et projets avancés
- Déploiement simple
Bibliographie et ressources
- Python en pratique pour le data scientiste édition 2024 (Patrice Rey, éditeur : BoD – Books on Demand, ISBN : 9782322620685, 2322620688 – 2024)
- Créer une IA avec Python et Hugging Face (Julien Faujanet, éditeur : Amazon Digital Services LLC – Kdp, ISBN : 9798392791910 – 2023)
- Le traitement automatique des langues, comprendre les textes grâce à l’intelligence artificielle (François-Régis Chaumartin, Pirmin Lemberger, contributeur : Olivier Delabroy, ISBN : 9782100801886, 2100801880 – 2020)
Ce module fait partie de notre parcours Mastère Intelligence Artificielle (Bac+5) en première année.
Plutôt envie de découvrir ce module en immersion avant de vous inscrire ?
Participez à une de nos prochaines journées découvertes.