Programmes d'études
Reinforcement Learning

Programmes d'études
Reinforcement Learning
Programmes d'études
Détails et horaire du cours
Légende
Cours de jour
Cours de soir
Cours en ligne
Certificats et microprogrammes de 1er cycle
Baccalauréat (formation d'ingénieur)
Études supérieures
INF8953DE
Reinforcement Learning
Nombre de crédits :
3 (3 - 1.5 - 4.5)
Les chiffres indiqués entre parenthèses sous le sigle du cours, par exemple (3 - 2 - 4), constituent le triplet horaire.
Le premier chiffre est le nombre d'heures de cours théorique par semaine (les périodes de cours durent 50 minutes).
Le second chiffre est le nombre d'heures de travaux dirigés (exercices) ou laboratoire, par semaine.
(Note : certains cours ont un triplet (3 - 1.5 - 4.5). Dans ce cas, les 1,5 heure par semaine sont des laboratoires qui durent 3 heures mais qui ont lieu toutes les deux semaines. À Polytechnique, on parle alors de laboratoires bi-hebdomadaires).
Le troisième chiffre est un nombre d'heures estimé que l'étudiant doit investir de façon personnelle par semaine pour réussir son cours.
Le premier chiffre est le nombre d'heures de cours théorique par semaine (les périodes de cours durent 50 minutes).
Le second chiffre est le nombre d'heures de travaux dirigés (exercices) ou laboratoire, par semaine.
(Note : certains cours ont un triplet (3 - 1.5 - 4.5). Dans ce cas, les 1,5 heure par semaine sont des laboratoires qui durent 3 heures mais qui ont lieu toutes les deux semaines. À Polytechnique, on parle alors de laboratoires bi-hebdomadaires).
Le troisième chiffre est un nombre d'heures estimé que l'étudiant doit investir de façon personnelle par semaine pour réussir son cours.
Département :
Génies informatique & logiciel
Préalable(s) :
MTH2302 or equivalent and MTH1007 or equivalent and INF1007 or INF1005D or equivalent and 70 credits for undergraduate students.
Corequis :
Notes :
Responsable(s) :
À venir
Description
Introduction to Reinforcement Learning - Multi-armed bandits - Policy Gradient Methods - Contextual Bandits - Finite Markov Decision Process - Dynamic Programming - Policy Iteration - Value Iteration - Monte Carlo Methods - Temporal Difference Learning - n-step bootstrapping - Eligibility Traces - Model-based RL - Planning - On-policy prediction with function approximation - on-policy control with function approximation - off-policy control with function approximation - Hierarchical RL - POMDPs - inverse-RL - Exploration in RL - Offline RL.
Introduction to Reinforcement Learning - Multi-armed bandits - Policy Gradient Methods - Contextual Bandits - Finite Markov Decision Process - Dynamic Programming - Policy Iteration - Value Iteration - Monte Carlo Methods - Temporal Difference Learning - n-step bootstrapping - Eligibility Traces - Model-based RL - Planning - On-policy prediction with function approximation - on-policy control with function approximation - off-policy control with function approximation - Hierarchical RL - POMDPs - inverse-RL - Exploration in RL - Offline RL.