Ejemplo Matlab Programacin Dinmica (3): laberinto 2D, iteracin de valor (policy iteration)

Ejemplo Matlab Programación Dinámica (3): laberinto 2D, iteración de valor (policy iteration)

Antonio Sala, UPV

Diﬁcultad: **** , Relevancia:

, Duración: 13:27

Materiales: [ Cód.: DP2dTests.mlx ] [ PDF ]

Resumen:

Este vídeo resuelve el problema planteado en el vídeo [dp2d1] mediante iteración de política (policy iteration), complementando a la iteración de valor (value iteration) y la programación lineal discutidas en el vídeo [dp2d2].

En la fase de “evaluación” de una política se plantean dos opciones: a) hacerlo resolviendo un sistema de ecuaciones o b) mediante iteración de valor.

Todas las opciones producen el mismo resultado para política y función de valor óptima (tolerancias aparte) que los otros algoritmos.

Colección completa [VER]:

Anterior Ejemplo Matlab Programación Dinámica (2): laberinto 2D, iteración de valor, programación lineal.
Siguiente Observadores del estado: análisis de efecto de ruidos de proceso y medida

Se reservan todos los derechos en materiales cuyo autor pertenezca a la UPV.
Para condiciones de uso de material de terceros referenciado, consulte a sus autores.