Ejemplo Matlab Programación Dinámica (3): laberinto 2D, iteración de valor (policy iteration)

Antonio Sala, UPV

Dificultad: **** ,       Relevancia: PIC,      Duración: 13:27

Materiales:    [ Cód.: DP2dTests.mlx ] [ PDF ]

Resumen:

Este vídeo resuelve el problema planteado en el vídeo [dp2d1] mediante iteración de política (policy iteration), complementando a la iteración de valor (value iteration) y la programación lineal discutidas en el vídeo [dp2d2].

En la fase de “evaluación” de una política se plantean dos opciones: a) hacerlo resolviendo un sistema de ecuaciones o b) mediante iteración de valor.

Todas las opciones producen el mismo resultado para política y función de valor óptima (tolerancias aparte) que los otros algoritmos.

Colección completa [VER]:

Se reservan todos los derechos en materiales cuyo autor pertenezca a la UPV.
Para condiciones de uso de material de terceros referenciado, consulte a sus autores.