Ingénierie : Informatique et Électronique, Mécanique, Énergétique et Robotique

Apprentissage par renforcement : concepts et mise en pratique

AlphaZero qui bat les meilleurs joueurs du monde au Go, le robot d’OpenAI qui manipule un cube sous toutes ses faces ou qui résout le Rubik’s cube, un groupe d’agents qui bat des joueurs professionnels à StartCraft ou Dota2, un algorithme qui diminue de 40 % la facture de refroidissement des centres de calcul de Google, autant de succès très médiatisés de l’apprentissage par renforcement qui en ont fait une composante majeure de l’intelligence artificielle. Cette formation vous donnera les bases pour comprendre l’apprentissage par renforcement et vous guidera vers la mise en œuvre des algorithmes les plus utilisés dans le domaine.

OBJECTIFS ET COMPÉTENCES VISÉES

A l’issue de la formation, les participants auront acquis les bases théoriques et les savoir-faire leur permettant :
• d’identifier dans quelle mesure une problématique professionnelle se prête à une modélisation sous la forme d’un problème d’apprentissage par renforcement ;
• de choisir les bons algorithmes et une infra-structure de calcul adaptée face à un problème d’apprentissage par renforcement donné ;
• de mettre en œuvre ces algorithmes, en régler les hyper-paramètres et s’assurer de l’obtention d’une solution satisfaisante ;
• de suivre les progrès de la recherche en apprentissage par renforcement grâce à une bonne vue d’ensemble de ce domaine.

 

CONTENU DU PROGRAMME

Jour 1 : introduction générale, cadre de l’apprentissage par renforcement, algorithmes d’apprentissage par renforcement tabulaires (états et actions discrets). Travaux pratiques sur la programmation dynamique, Q-learning et Sarsa.

Jour 2 : algorithmes d’apprentissage par renforcement profond avec espace d’état de grande taille et actions discrètes : DQN, Rainbow, AlphaZero. Travaux pratiques sur DQN.

Jour 3 : méthodes de gradient sur les politiques, vue d’ensemble des algorithmes de deep RL. Travaux pratiques sur REINFORCE et algorithmes proches.

Jour 4 : parallélisation, algorithmes d’apprentissage par renforcement profond avec actions continues : DDPG, PPO, TD3, SAC. Travaux pratiques sur ces algorithmes. Remise d’un sujet de mini-projet didactique à réaliser en autonomie : challenge de recherche de performance sur un benchmark classique.

Jour 5 : cours d’ouverture à la demande. Evaluation des projets réalisés en autonomie. Evaluation générale de la formation, discussion générale.

PÉDAGOGIE, MÉTHODE ET OUTILS

Chaque journée sera rythmée par :
– un cours (2h30 environ),
– des travaux pratiques encadrés fondés sur le cours et évalués d’une semaine à l’autre,
– en fin de journée, de courtes évaluations des notions acquises (QCM),
– une séance de débreifing,
– des éléments d’ouverture à la demande.
Chaque participant dispose d’un poste de travail dédié à l’apprentissage automatique. La formation sera appuyée sur tensorflow ou pytorch (à déterminer en fonction de la demande).
Un mini-projet didactique sera réalisé en autonomie la dernière semaine. Des contenus plus ambitieux pourront être mis en place en fonction de la disponibilité et la motivation des participants.

 

LES POINTS FORTS DE LA FORMATION

Des enseignants experts de l’apprentissage par renforcement, alliant couverture large et profonde du domaine, et bonne connaissance de la pratique.
Une formation qui fournit les bases, les méthodes, et une expérience pratique de l’apprentissage par renforcement pour donner aux participants les moyens de progresser au-delà de la formation.
Une pédagogie active qui s’adapte aux questions et attentes des participants au fil des séances.

 

Catégorie de l’action de développement des compétences:
(Article L6313-1 du Code du Travail)

Action de formation

 

Thématique : Informatique

 

Responsable(s) pédagogique(s) : Olivier Sigaud

 

Organisation et Durée : 5 journées sur 5 semaines (5 jeudi consécutifs)

 

Effectifs : 3 à 12 participants

 

Tarifs :

Tarif pour les 5 journées : 3000 €
Tarif pour les 3 premières journées : 1800 €

(Sorbonne université est exonérée de TVA au titre de l’article 261-4-4° du code général des impôts)

 

Lieu : La formation sera hébergée dans les locaux du Sorbonne Center for Artificial Intelligence (SCAI), sur le Campus Pierre et Marie Curie (CPMC) de Sorbonne Université – Paris

 

Calendrier : Cette formation aura lieu tous les jeudi du 20 mai 2021 au 17 juin 2021 inclus (5 jeudi), de 9h à 18h (35h).
A noter : Une formation limitée aux trois premières journées, portant sur les bases générales, est possible (nous consulter).

 

Public :  Ingénieurs ou équivalent possédant une expérience en apprentissage automatique et en programmation Python, qui souhaitent comprendre en profondeur les principes de l’apprentissage par renforcement et en développer une maîtrise pratique.

 

Pré-requis : Connaissances en informatique: algorithme et syntaxe Python. Bon niveau en mathématiques: algèbre, statistiques et optimisation numérique, Une première expérience avec une librairie de différentiation automatique (tensorflow, pytorch, keras…) est requise.

 

Documents : Supports de cours PDF, vidéos

 

Évaluation et validation : Attestations de fin de formation et de compétences

 

Possibilité de sessions sur-mesure

Parcourir les formations en Ingénierie : Informatique et Électronique, Mécanique, Énergétique et Robotique