Programmes d'études
Apprentisage par renforcement

Programmes d'études
Apprentisage par renforcement
Programmes d'études
Détails et horaire du cours
Légende
Cours de jour
Cours de soir
Cours en ligne
Certificats et microprogrammes de 1er cycle
Baccalauréat (formation d'ingénieur)
Études supérieures
INF8250A
Apprentisage par renforcement
Nombre de crédits :
4 (3 - 3 - 6)
Les chiffres indiqués entre parenthèses sous le sigle du cours, par exemple (3 - 2 - 4), constituent le triplet horaire.
Le premier chiffre est le nombre d'heures de cours théorique par semaine (les périodes de cours durent 50 minutes).
Le second chiffre est le nombre d'heures de travaux dirigés (exercices) ou laboratoire, par semaine.
(Note : certains cours ont un triplet (3 - 1.5 - 4.5). Dans ce cas, les 1,5 heure par semaine sont des laboratoires qui durent 3 heures mais qui ont lieu toutes les deux semaines. À Polytechnique, on parle alors de laboratoires bi-hebdomadaires).
Le troisième chiffre est un nombre d'heures estimé que l'étudiant doit investir de façon personnelle par semaine pour réussir son cours.
Le premier chiffre est le nombre d'heures de cours théorique par semaine (les périodes de cours durent 50 minutes).
Le second chiffre est le nombre d'heures de travaux dirigés (exercices) ou laboratoire, par semaine.
(Note : certains cours ont un triplet (3 - 1.5 - 4.5). Dans ce cas, les 1,5 heure par semaine sont des laboratoires qui durent 3 heures mais qui ont lieu toutes les deux semaines. À Polytechnique, on parle alors de laboratoires bi-hebdomadaires).
Le troisième chiffre est un nombre d'heures estimé que l'étudiant doit investir de façon personnelle par semaine pour réussir son cours.
Département :
Génies informatique & logiciel
Préalable(s) :
70 crédits pour les étudiants de baccalauréat.
Corequis :
Notes :
Responsable(s) :
Sarath Chandar Anbil Parthipan
Description
Introduction à l'apprentissage par renforcement. Bandits à plusieurs bras. Bandits contextuels. Processus de décision de Markov fini. Programmation dynamique. Itération de politique. Itération des valeurs. Méthodes de Monte Carlo. Apprentissage par différence temporelle. Bootstrap à n étapes. Prédiction sur politique avec approximation de fonction. Contrôle sur politique avec approximation de fonction. Contrôle hors politique avec approximation de fonction. Méthodes de gradient de politique. REINFORCE. Acteur-Critique. Gradients de politique déterministes. Gradient naturel de politique. TRPO et PPO. RL basé sur un modèle. Planification. Traces d'éligibilité. RL hiérarchique. POMDPs. RL inverse. Exploration en RL. RL hors ligne. RL multi-agents.
Introduction à l'apprentissage par renforcement. Bandits à plusieurs bras. Bandits contextuels. Processus de décision de Markov fini. Programmation dynamique. Itération de politique. Itération des valeurs. Méthodes de Monte Carlo. Apprentissage par différence temporelle. Bootstrap à n étapes. Prédiction sur politique avec approximation de fonction. Contrôle sur politique avec approximation de fonction. Contrôle hors politique avec approximation de fonction. Méthodes de gradient de politique. REINFORCE. Acteur-Critique. Gradients de politique déterministes. Gradient naturel de politique. TRPO et PPO. RL basé sur un modèle. Planification. Traces d'éligibilité. RL hiérarchique. POMDPs. RL inverse. Exploration en RL. RL hors ligne. RL multi-agents.
Plan triennal
2024-2025 | 2025-2026 | 2026-2027 | ||||||
---|---|---|---|---|---|---|---|---|
Automne | Hiver | Été | Automne | Hiver | Été | Automne | Hiver | Été |
- | - | - | - | - | - | - | - | - |