Programmes d'études

Détails et horaire du cours

Légende

  Cours de jour
  Cours de soir
  Cours en ligne
Certificats et microprogrammes de 1er cycle
Baccalauréat (formation d'ingénieur)
Études supérieures

INF8250

Apprentisage par renforcement

Nombre de crédits : 3 (3 - 1.5 - 4.5) Les chiffres indiqués entre parenthèses sous le sigle du cours, par exemple (3 - 2 - 4), constituent le triplet horaire.

Le premier chiffre est le nombre d'heures de cours théorique par semaine (les périodes de cours durent 50 minutes).
Le second chiffre est le nombre d'heures de travaux dirigés (exercices) ou laboratoire, par semaine.
(Note : certains cours ont un triplet (3 - 1.5 - 4.5). Dans ce cas, les 1,5 heure par semaine sont des laboratoires qui durent 3 heures mais qui ont lieu toutes les deux semaines. À Polytechnique, on parle alors de laboratoires bi-hebdomadaires).
Le troisième chiffre est un nombre d'heures estimé que l'étudiant doit investir de façon personnelle par semaine pour réussir son cours.
Département : Génies informatique & logiciel
Préalable(s) : MTH2302 ou équivalent et MTH1007 ou équivalent et INF1007 ou INF1005D ou équivalent et 70 crédits pour les étudiants de baccalauréat.
Corequis :
Notes :
Responsable(s) : À venir
Description
Introduction à l'apprentissage par renforcement. Bandits à plusieurs bras. Bandits contextuels. Processus de Décision Markov Finis. Programmation dynamique. Itération par politique. Itération par valeur. Méthodes Monte Carlo. Apprentissage par différence temporelle (Temporal Difference Learning). Bootstraping en n étapes (n-step bootstrapping). Prédiction sur politique avec approximation. Contrôle sur politique avec approximation. Méthodes hors politique avec approximation. Méthodes TD à gradient. Apprentissage par renforcement à base de modèles. Planification. Traces d'éligibilité. Apprentisage par renforcement hiérarchique. POMDPs. RL inverse. Exploration dans l'appretissage par renforcement. Apprentisage par renforcement hors ligne.