Materiales: [ Cód.: DP2dTests.mlx ] [ PDF ]
Este vídeo resuelve el problema planteado en el vídeo [
En la fase de “evaluación” de una política se plantean dos opciones: a) hacerlo resolviendo un sistema de ecuaciones o b) mediante iteración de valor.
Todas las opciones producen el mismo resultado para política y función de valor óptima (tolerancias aparte) que los otros algoritmos.
Colección completa [VER]:
Anterior Ejemplo Matlab Programación Dinámica (2): laberinto 2D, iteración de valor, programación lineal.
Siguiente Observadores del estado: análisis de efecto de ruidos de proceso y medida