Descripción del curso
En este curso, aprenderás los fundamentos del Reinforcement Learning, uno de los tres paradigmas de la inteligencia artificial moderna. Implementarás desde cero algoritmos adaptativos que resuelven tareas de control basadas en la experiencia. También aprenderás a combinar estos algoritmos con técnicas de Deep Learning y redes neuronales, dando lugar a la rama conocida como Deep Reinforcement Learning.
Este curso cubre tanto los fundamentos de esta rama como los algoritmos avanzados más populares y se centra en el desarrollo de habilidades prácticas. Por lo tanto, después de aprender los conceptos básicos en cada sección del curso, implementaremos los algoritmos desde cero.
Trailer del curso
Reseña destacada
"Estoy haciendo mi tesis doctoral en Ingeniería Eléctrica. Tuve que aprender RL desde el principio para implementarlo en mi tesis, y este curso me ayudó increíblemente a conseguir la intuición y los algoritmos básicos completos desde el principio hasta el final. Lo recomiendo encarecidamente".
- Sarah Allahmoradi
Prueba nuestros cursos sin compromiso
Todos nuestros cursos tienen 30 días de garantía de devolución del dinero. Pero estamos seguros de que te encantarán.
Requisitos
- Programar en Python con fluidez
- Conocer las bases del álgebra lineal y el cálculo (matrices, vectores, determinantes, derivadas, etc.)
- Conocimientos básicos de estadística (media, varianza, distribución normal, etc.)
Curriculum del curso
- Elementos comunes a las tareas de control (6:02)
- El proceso de decisión de Markov (PDM) (5:38)
- Tipos de proceso de decisión de Markov (2:08)
- Trayectoria vs episodio (1:13)
- Recompensa y retorno (1:25)
- Factor de descuento (3:52)
- Política de actuación (2:03)
- Valor de un estado y q-valor (1:06)
- Ecuaciones de Bellman (3:13)
- Resolver un proceso de decisión de Markov (3:04)
- PDM en código - Parte 1 (13:10)
- PDM en código - Parte 2 (13:07)
- Introducción a la programación dinámica (12:24)
- Iteración de valor (11:27)
- Iteración de valor en código - Parte 1 (4:11)
- Iteración de valor en código - Parte 2 (5:27)
- Iteración de valor en código - Parte 3 (1:16)
- Iteración de valor en código - Parte 4 (7:45)
- Iteración de valor en código - Parte 5 (3:09)
- Iteración de política (3:02)
- Iteración de política en código - Parte 1 (5:14)
- Evaluación de política (6:04)
- Iteración de política en código - Parte 2 (8:26)
- Mejora de política (9:15)
- Iteración de política en código - Parte 3 (6:33)
- Iteración de política en código - Parte 4 (6:12)
- Iteración de política en la práctica (2:08)
- Iteración de política generalizada (IPG) (4:09)
- Introducción a los métodos Monte Carlo (5:07)
- Resolver tareas de control con métodos Monte Carlo (7:27)
- Métodos Monte Carlo con estrategia on-policy (4:28)
- Implementación - Monte Carlo con estrategia on-policy 1 (10:12)
- Implementación - Monte Carlo con estrategia on-policy 2 (10:25)
- Implementación - Monte Carlo con estrategia on-policy 3 (2:51)
- Implementación - Monte Carlo de alpha constante (4:20)
- Métodos Monte Carlo con estrategia off-policy (7:44)
- Implementación - Monte Carlo con estrategia off-policy 1 (11:32)
- Implementación - Monte Carlo con estrategia off-policy 2 (12:44)
- Implementación - Monte Carlo con estrategia off-policy 3 (3:13)
- Introducción a los métodos de diferencias temporales (3:31)
- Resolver tareas de control con métodos de diferencias temporales (4:20)
- Comparativa - Métodos Monte Carlo vs diferencias temporales (1:40)
- SARSA (3:20)
- Implementación - SARSA 1 (5:18)
- Implementación - SARSA 2 (8:39)
- Q-Learning (1:50)
- Implementación - Q-Learning 1 (5:12)
- Implementación - Q-Learning 2 (9:08)
- Ventajas de los métodos de diferencias temporales (0:57)
- Deep SARSA (2:27)
- Optimización de la red neuronal (Deep Q-Network) (2:52)
- Memoria de reproducción (2:10)
- Red target (4:28)
- Implementación - Deep SARSA 1 (7:51)
- Implementación - Deep SARSA 2 (13:50)
- Implementación - Deep SARSA 3 (4:09)
- Implementación - Deep SARSA 4 (1:51)
- Implementación - Deep SARSA 5 (2:08)
- Implementación - Deep SARSA 6 (5:42)
- Implementación - Deep SARSA 7 (7:15)
- Implementación - Deep SARSA 8 (6:47)
- Implementación - Deep SARSA 9 (11:49)
- Implementación - Deep SARSA 10 (5:30)
- Métodos de gradiente de política (4:51)
- Representando políticas con redes neuronales (4:48)
- Rendimiento de la política (2:39)
- El teorema del gradiente de la política (3:40)
- REINFORCE (4:01)
- Aprendizaje en paralelo (3:29)
- Exploración mediante entropía (6:29)
- REINFORCE 2 (2:02)
- REINFORCE en código - Part 1 (8:10)
- REINFORCE en código - Part 2 (13:12)
- REINFORCE en código - Part 3 (7:56)
- REINFORCE en código - Part 4 (11:19)
- REINFORCE en código - Part 5 (14:57)