Universität Wien

250110 VO Introduction to Reinforcement Learning (2022S)

3.00 ECTS (2.00 SWS), SPL 25 - Mathematik

An/Abmeldung

Hinweis: Ihr Anmeldezeitpunkt innerhalb der Frist hat keine Auswirkungen auf die Platzvergabe (kein "first come, first served").

Details

Sprache: Englisch

Prüfungstermine

Lehrende

Termine (iCal) - nächster Termin ist mit N markiert

  • Freitag 04.03. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 18.03. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 25.03. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 01.04. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 08.04. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 29.04. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 06.05. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 13.05. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 20.05. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 27.05. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 03.06. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 10.06. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 17.06. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock
  • Freitag 24.06. 09:45 - 11:15 Hörsaal 11 Oskar-Morgenstern-Platz 1 2.Stock

Information

Ziele, Inhalte und Methode der Lehrveranstaltung

This course will cover the mathematics of reinforcement learning specially in the context of deep neural networks.

The goal of the course: We start form basics of probability and stochastics, describe the problem of reinforcement learning. This is an optimization problem, and we discuss both theoretical solutions and some optimization algorithms used in practice.

Topics covered in the course will include:
1 Review of probability and stochastics.
2. Markov Decision Process and the modeling of a reinforcement learning problem
3. Exact solutions and adding stochasticity.
4. Policy gradient estimation
5. Practical policy optimization methods such as TRPO and PPO.

Art der Leistungskontrolle und erlaubte Hilfsmittel

To get a grade on the course you must either do the final exam or submit a course project/paper.

Mindestanforderungen und Beurteilungsmaßstab

• Basic Probability and Statistics
• Basics of optimization (constraint optimization, cost functions, gradient descent, etc.)
• Familiarity with machine learning will be useful but not necessary.

Prüfungsstoff

Literatur

There is no official textbook for the class. Some references with links are listed on moodle.

Zuordnung im Vorlesungsverzeichnis

MAMV

Letzte Änderung: Mi 03.07.2024 00:17