Programmes d'études
Reinforcement Learning

Programmes d'études
Reinforcement Learning
Programmes d'études
Détails et horaire du cours
Légende
Cours de jour
Cours de soir
Cours en ligne
Certificats et microprogrammes de 1er cycle
Baccalauréat (formation d'ingénieur)
Études supérieures
INF8250E
Reinforcement Learning
Nombre de crédits :
3 (3 - 1.5 - 4.5)
Les chiffres indiqués entre parenthèses sous le sigle du cours, par exemple (3 - 2 - 4), constituent le triplet horaire.
Le premier chiffre est le nombre d'heures de cours théorique par semaine (les périodes de cours durent 50 minutes).
Le second chiffre est le nombre d'heures de travaux dirigés (exercices) ou laboratoire, par semaine.
(Note : certains cours ont un triplet (3 - 1.5 - 4.5). Dans ce cas, les 1,5 heure par semaine sont des laboratoires qui durent 3 heures mais qui ont lieu toutes les deux semaines. À Polytechnique, on parle alors de laboratoires bi-hebdomadaires).
Le troisième chiffre est un nombre d'heures estimé que l'étudiant doit investir de façon personnelle par semaine pour réussir son cours.
Le premier chiffre est le nombre d'heures de cours théorique par semaine (les périodes de cours durent 50 minutes).
Le second chiffre est le nombre d'heures de travaux dirigés (exercices) ou laboratoire, par semaine.
(Note : certains cours ont un triplet (3 - 1.5 - 4.5). Dans ce cas, les 1,5 heure par semaine sont des laboratoires qui durent 3 heures mais qui ont lieu toutes les deux semaines. À Polytechnique, on parle alors de laboratoires bi-hebdomadaires).
Le troisième chiffre est un nombre d'heures estimé que l'étudiant doit investir de façon personnelle par semaine pour réussir son cours.
Département :
Génies informatique & logiciel
Préalable(s) :
MTH2302 or equivalent and MTH1007 or equivalent and INF1007 or INF1005D or equivalent and 70 credits for undergraduate students.
Corequis :
Notes :
Responsable(s) :
Sarath Chandar Anbil Parthipan
Description
Introduction to Reinforcement Learning. Multi-armed bandits. Contextual Bandits. Finite Markov Decision Process. Dynamic Programming. Policy Iteration. Value Iteration. Monte Carlo Methods. Temporal Difference Learning. n-step bootstrapping. On-policy prediction with function approximation. on-policy control with function approximation. off-policy control with function approximation. Policy Gradient Methods. Model-based RL. Planning. Eligibility Traces. Hierarchical RL. POMDPs. inverse-RL. Exploration in RL. Offline RL.
Introduction to Reinforcement Learning. Multi-armed bandits. Contextual Bandits. Finite Markov Decision Process. Dynamic Programming. Policy Iteration. Value Iteration. Monte Carlo Methods. Temporal Difference Learning. n-step bootstrapping. On-policy prediction with function approximation. on-policy control with function approximation. off-policy control with function approximation. Policy Gradient Methods. Model-based RL. Planning. Eligibility Traces. Hierarchical RL. POMDPs. inverse-RL. Exploration in RL. Offline RL.
Plan triennal
2023-2024 | 2024-2025 | 2025-2026 | ||||||
---|---|---|---|---|---|---|---|---|
Automne | Hiver | Été | Automne | Hiver | Été | Automne | Hiver | Été |
- | - | - | - | - | - | - | - | - |