This course was created with the
course builder. Create your online course today.
Start now
Create your course
with
Autoplay
Autocomplete
Previous Lesson
Complete and Continue
Reinforcement Learning de principiante a maestro (Español)
Módulo de bienvenida
Bienvenida (8:38)
Estructura del curso (1:49)
Preparación del entorno [Importante]
Preparación - Mac (5:05)
El proceso de decisión de Markov (PDM)
Elementos comunes a las tareas de control (6:02)
El proceso de decisión de Markov (PDM) (5:38)
Tipos de proceso de decisión de Markov (2:08)
Trayectoria vs episodio (1:13)
Recompensa y retorno (1:25)
Factor de descuento (3:52)
Política de actuación (2:03)
Valor de un estado y q-valor (1:06)
Ecuaciones de Bellman (3:13)
Resolver un proceso de decisión de Markov (3:04)
PDM en código - Parte 1 (13:10)
PDM en código - Parte 2 (13:07)
Programación dinámica
Introducción a la programación dinámica (12:24)
Iteración de valor (11:27)
Iteración de valor en código - Parte 1 (4:11)
Iteración de valor en código - Parte 2 (5:27)
Iteración de valor en código - Parte 3 (1:16)
Iteración de valor en código - Parte 4 (7:45)
Iteración de valor en código - Parte 5 (3:09)
Iteración de política (3:02)
Iteración de política en código - Parte 1 (5:14)
Evaluación de política (6:04)
Iteración de política en código - Parte 2 (8:26)
Mejora de política (9:15)
Iteración de política en código - Parte 3 (6:33)
Iteración de política en código - Parte 4 (6:12)
Iteración de política en la práctica (2:08)
Iteración de política generalizada (IPG) (4:09)
Métodos Monte Carlo
Introducción a los métodos Monte Carlo (5:07)
Resolver tareas de control con métodos Monte Carlo (7:27)
Métodos Monte Carlo con estrategia on-policy (4:28)
Implementación - Monte Carlo con estrategia on-policy 1 (10:12)
Implementación - Monte Carlo con estrategia on-policy 2 (10:25)
Implementación - Monte Carlo con estrategia on-policy 3 (2:51)
Implementación - Monte Carlo de alpha constante (4:20)
Métodos Monte Carlo con estrategia off-policy (7:44)
Implementación - Monte Carlo con estrategia off-policy 1 (11:32)
Implementación - Monte Carlo con estrategia off-policy 2 (12:44)
Implementación - Monte Carlo con estrategia off-policy 3 (3:13)
Métodos de diferencias temporales
Introducción a los métodos de diferencias temporales (3:31)
Resolver tareas de control con métodos de diferencias temporales (4:20)
Comparativa - Métodos Monte Carlo vs diferencias temporales (1:40)
SARSA (3:20)
Implementación - SARSA 1 (5:18)
Implementación - SARSA 2 (8:39)
Q-Learning (1:50)
Implementación - Q-Learning 1 (5:12)
Implementación - Q-Learning 2 (9:08)
Ventajas de los métodos de diferencias temporales (0:57)
Diferencias temporales en n pasos
Introducción a los métodos de diferencias temporales en n pasos (3:45)
¿Dónde encajan los métodos en n pasos? (1:49)
¿Cómo afecta n al aprendizaje? (4:11)
SARSA en n pasos (2:15)
Aprendizaje con SARSA en n pasos (1:36)
Implementación - SARSA en n pasos (16:15)
Breve introducción a las redes neuronales
Aproximadores de funciones (7:36)
Redes neuronales (3:26)
Neuronas artificiales (4:44)
Cómo representar una red neuronal (6:44)
Optimización de la red neuronal (4:10)
Descenso gradiente estocástico (5:42)
Deep SARSA
Deep SARSA (2:27)
Optimización de la red neuronal (Deep Q-Network) (2:52)
Memoria de reproducción (2:10)
Red target (4:28)
Implementación - Deep SARSA 1 (7:51)
Implementación - Deep SARSA 2 (13:50)
Implementación - Deep SARSA 3 (4:09)
Implementación - Deep SARSA 4 (1:51)
Implementación - Deep SARSA 5 (2:08)
Implementación - Deep SARSA 6 (5:42)
Implementación - Deep SARSA 7 (7:15)
Implementación - Deep SARSA 8 (6:47)
Implementación - Deep SARSA 9 (11:49)
Implementación - Deep SARSA 10 (5:30)
Deep Q-Learning
Deep Q-Learning (2:45)
Implementación - Deep Q-Learning 1 (9:43)
Implementación - Deep Q-Learning 2 (6:06)
Implementación - Deep Q-Learning 3 (10:13)
REINFORCE
Métodos de gradiente de política (4:51)
Representando políticas con redes neuronales (4:48)
Rendimiento de la política (2:39)
El teorema del gradiente de la política (3:40)
REINFORCE (4:01)
Aprendizaje en paralelo (3:29)
Exploración mediante entropía (6:29)
REINFORCE 2 (2:02)
REINFORCE en código - Part 1 (8:10)
REINFORCE en código - Part 2 (13:12)
REINFORCE en código - Part 3 (7:56)
REINFORCE en código - Part 4 (11:19)
REINFORCE en código - Part 5 (14:57)
Advantage Actor-Critic (A2C)
Método actor-crítico por ventaja (A2C) (9:53)
Implementación - A2C 1 (5:20)
Implementación - A2C 2 (4:29)
Implementación - A2C 3 (5:49)
Implementación - A2C 4 (11:30)
Optimización de la red neuronal (Deep Q-Network)
Lesson content locked
If you're already enrolled,
you'll need to login
.
Enroll in Course to Unlock