**Escuela Internacional de Primavera sobre Entornos Ubicuos y Aplicaciones de Robots Sociales**

**Tutorial #2 - Parte 1** - Aprendizaje Reforzado con Gym

[Dr. Miguel A. Solis](http://www.miguelsolis.info)

16 de octubre de 2023

In [None]:
import numpy as np

In [None]:
# Ejemplo 1 - Construcción de grilla

class Mapa:

    def __init__(self,ancho,alto,inicio):
        self.ancho = ancho
        self.alto = alto
        self.fila = inicio[0]
        self.columna = inicio[1]

    def conjunto(self,recompensas,acciones):
        self.recompensas = recompensas # diccionario de posibles recompensas para cada estado (fila,columna) : r
        self.acciones = acciones # diccionario de posibles acciones para cada estado (fila,columna) : ('U','D','L','R')

    def fijar_estado(self,s):
        self.fila = s[0]
        self.columna = s[1]

    def estado_actual(self):
        return (self.fila,self.columna)

    def es_final(self,s):
        return s not in self.acciones

    def mover(self,accion):
        if accion in self.acciones[self.estado_actual()] :
            if accion == 'U':
                self.fila -= 1
            elif accion == 'D':
                self.fila += 1
            elif accion == 'L':
                self.columna -= 1
            elif accion == 'R':
                self.columna += 1
        return self.recompensas.get(self.estado_actual(),0)

    def deshacer(self,accion):
        if accion in self.acciones[self.estado_actual()] :
            if accion == 'U':
                self.fila += 1
            elif accion == 'D':
                self.fila -= 1
            elif accion == 'L':
                self.columna += 1
            elif accion == 'R':
                self.columna -= 1
        assert(self.estado_actual() in self.todos_estados())

    def fin(self):
        return self.estado_actual not in self.acciones

    def todos_estados(self):
        return set(list(self.acciones.keys()) + list(self.recompensas.keys()))

In [None]:
# Ejemplo 1 - Configuración del problema

def mapa_con_costo(costo_paso = -0.1):
    g = Mapa(4,3,(2,0)) # ancho de 4 celdas, alto de 3 celdas y posición inicial en (2,0)
    recompensas = {(0,3) : 1, (1,3):-1}
    acciones = {
        (0,0) : ('D','R'),
        (0,1) : ('L','R'),
        (0,2) : ('L','R','D'),
        (1,0) : ('U','D'),
        (1,2) : ('U','D','R'),
        (2,0) : ('U','R'),
        (2,1) : ('L','R'),
        (2,2) : ('U','L','R'),
        (2,3) : ('L','U')
        }
    g.conjunto(recompensas,acciones)
    recompensas = {}
    for fila in range(g.alto):
        for columna in range(g.ancho):
            recompensas[(fila,columna)] = costo_paso
    recompensas[(0,3)] = 1
    recompensas[(1,3)] = -1
    recompensas.pop((1,1),None)
    g.conjunto(recompensas,g.acciones)
    return g

In [None]:
# Ejemplo 1 - Mostrar valores
def mostrar_valores(V,g):
    for fila in range(g.alto):
        print(20*"-")
        for columna in range(g.ancho):
            v = V.get((fila,columna),0)

            #if (v >= 0) :
            print(" %.2f|" % v, end="")
            #else :
             #   print "%.2f|"  % v,
        print("")

def mostrar_politica(P,g) :
    for fila in range(g.alto):
        print(20*"-")
        for columna in range(g.ancho):
            a = P.get((fila,columna),'')
            print(" %s |" % a, end="")
        print("")

In [None]:
# Ejemplo 1 - Value Iteration
repeticiones = 10
iteraciones = 0
gamma = 0.9
epsilon = 1e-3
total_acciones = ('U','D','L','R')
mapa = mapa_con_costo()
estados = mapa.todos_estados()
V = {}
for s in estados:
    V[s] = 0.0
while True:
    delta = 0
    iteraciones += 1
    for s in estados:
        if s not in mapa.acciones.keys():
            continue
        v = V[s]
        max_val = float("-inf")
        for accion in mapa.acciones[s]:
            mapa.fijar_estado(s)
            r = mapa.mover(accion)
            val = r + gamma * V[mapa.estado_actual()] # acciones deterministicas (probabilidad 1 o 0)
            if val > max_val:
                max_val = val
        V[s] = max_val
        delta = max(delta,abs(v-V[s]))

    if delta < epsilon or iteraciones >= repeticiones:
        mostrar_valores(V,mapa)
        break

In [None]:
# Ejemplo 1 - greedy
pi = {}
for s in mapa.acciones.keys():
    max_val = float("-inf")
    for accion in mapa.acciones[s]:
        mapa.fijar_estado(s)
        r = mapa.mover(accion)
        val = r + V[mapa.estado_actual()]
        if val > max_val :
            max_val = val
            max_accion = accion

    pi[s] = max_accion

mostrar_politica(pi,mapa)

In [None]:
# Ejemplo 2 - Policy Iteration (configuración)
gamma = 0.9
epsilon = 1e-3
total_acciones = ('U','D','L','R')
mapa = mapa_con_costo()
estados = mapa.todos_estados()
V = {}
pi = {}
for fila in range(mapa.alto):
    for columna in range(mapa.ancho):
        V[(fila,columna)] = 0.0

for s in mapa.acciones.keys():
    pi[s] = np.random.choice(total_acciones)

In [None]:
# Ejemplo 2 - Policy Iteration
repeticiones = 10
iteraciones = 0
while True:
    iteraciones += 1
# Evaluación de política
    while True :
        delta = 0
        v_anterior = 0.0
        for s in estados:
            if s not in pi:
                continue
            mapa.fijar_estado(s)
            v_anterior = V[s]
            accion = pi[s]
            r = mapa.mover(accion)
            nuevo_estado = mapa.estado_actual()
            V[s] = r + gamma * V[nuevo_estado]
            delta = max(delta,abs(v_anterior - V[s]))
        if delta < epsilon :
            break
# Mejora de politica
    politica_estable = True
    for s in estados:
        if s not in pi:
            continue
        accion_anterior = pi[s]
        max_val = float("-inf")
        for accion in mapa.acciones[s]:
            mapa.fijar_estado(s)
            r = mapa.mover(accion)
            nuevo_estado = mapa.estado_actual()
            val = r + gamma * V[nuevo_estado]
            if val > max_val :
                max_val = val
                max_accion = accion
        pi[s] = max_accion
        if accion_anterior != pi[s] :
            politica_estable = False
    if politica_estable == True or iteraciones >= repeticiones:
        mostrar_politica(pi,mapa)
        break

In [None]:
# Ejemplo 3 - Q-learning
# OJO con exploración - explotación : este agente se estanca en un óptimo local
repeticiones = 10
inicio = (2,0)
alpha = 0.8
gamma = 0.9
total_acciones = ('U','D','L','R')
mapa = mapa_con_costo()
estados = mapa.todos_estados()
Q = {}
pi = {}
timeout = 100
for s in estados:
    for a in total_acciones:
        Q[(s,a)] = 0.0

s = inicio
for n in range(repeticiones):
    k = 0
    mapa.fijar_estado(inicio)
    a = np.random.choice(mapa.acciones[inicio])
    print(s)
    while not mapa.es_final(s) and k < timeout:
        s = mapa.estado_actual()
        r = mapa.recompensas[s]
        mayorQ = -float("inf")
        for a in mapa.acciones[s]:
            mapa.mover(a)
            sn = mapa.estado_actual()
            if Q[(sn,a)] > mayorQ:
                mayorQ = Q[(sn,a)]
                accion = a
            mapa.deshacer(a)
        Q[(s,a)] += alpha*(r + gamma*mayorQ - Q[(s,a)])
        mapa.mover(accion)
        pi[s] = accion
        k += 1
mostrar_politica(pi,mapa)