conceptos básicos de aprendizaje reforzado y sus
TRANSCRIPT
![Page 1: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/1.jpg)
Conceptos básicos de aprendizaje reforzado ysus aplicaciones en robótica
Dr.-Eng. Miguel A. Solis
Congreso de Robótica y NeurocienciaCRoNe 2018
16 Noviembre de 2018
![Page 2: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/2.jpg)
Estructura
Introducción
Aprendizaje reforzadoFundamentosDefinición de un problema en RL
MétodosPlataforma para ejemplosValue IterationPolicy IterationQ-learning
Aplicaciones en robótica
2 / 47
![Page 3: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/3.jpg)
Introducción
Aprendizaje reforzadoFundamentosDefinición de un problema en RL
MétodosPlataforma para ejemplosValue IterationPolicy IterationQ-learning
Aplicaciones en robótica
3 / 47
![Page 4: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/4.jpg)
(algunos) Tipos de aprendizaje
I Aprendizaje Supervisado: encontrar un mapeo de entrada asalida, supervisor provee valores correctos.
I Regresión: la salida corresponde a un valor numérico.I Clasificación: la salida corresponde a una etiqueta de clase.
I Aplicaciones:I Reconocimiento de rostros, escritura, gestosI Diagnóstico médicoI Bioinformática, QuimioinformáticaI ...
4 / 47
![Page 5: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/5.jpg)
Recomendaciones
I Entrada: preferencias de otros usuarios con perfil similarI Salida: predicción de la etiqueta de clase que me interesa
5 / 47
![Page 6: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/6.jpg)
Detección de Spam
I Entrada: palabras en correo, junto con la cantidad de repeticionesI Salida: Spam / No-Spam
6 / 47
![Page 7: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/7.jpg)
Reconocimiento de objetos
iCub Simulator
7 / 47
![Page 8: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/8.jpg)
(algunos) Tipos de aprendizaje
I Aprendizaje no supervisado: de los datos de entrenamiento, sólose conocen las entradas
I Aplicaciones:I Extracción de característicasI Reducción de la dimensionalidad
8 / 47
![Page 9: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/9.jpg)
Reconocimiento de amigos en Facebook
Sugerencia en el etiquetado de amigos
9 / 47
![Page 10: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/10.jpg)
Aprendizaje reforzado
I Aprende de interacciones con el entornoI Aplicaciones:
I Problemas de decisión secuencialI Sistemas adaptivos
10 / 47
![Page 11: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/11.jpg)
Introducción
Aprendizaje reforzadoFundamentosDefinición de un problema en RL
MétodosPlataforma para ejemplosValue IterationPolicy IterationQ-learning
Aplicaciones en robótica
11 / 47
![Page 12: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/12.jpg)
Psicología
I Edward L. Thorndike - Animal Intelligence: An experimental studyof the associate processes in animals (1898)
I El animal modifica su conducta según interacción de prueba yerror con el medio ambiente
12 / 47
![Page 13: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/13.jpg)
Interacción
El agente interactúa con el entorno a través de percepciones yacciones.
I Recibe como entrada (percibe), el estado actual del entorno, s.
I Luego, genera una acción (ejecuta) a como salida.
I Recibe una señal de refuerzo (recompensa).
13 / 47
![Page 14: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/14.jpg)
Esquema
14 / 47
![Page 15: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/15.jpg)
Elementos
Un problema de aprendizaje reforzado (RL - Reinforcement Learning),formulado como un MDP (Proceso de Decisión Markoviano) estácompuesto por (S,A,T,R) donde...
I ¿Markoviano?
15 / 47
![Page 16: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/16.jpg)
Proceso de Markov
Un estado sk se dice que obedece a un proceso de Markov (de 1erorden) ssi:
Pr{sk+1|sk} = Pr{sk+1|s1, ..., sk},
16 / 47
![Page 17: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/17.jpg)
Elementos
Un problema de aprendizaje reforzado, formulado como un MDP(Proceso de Decisión Markoviano) está compuesto por (S,A,T,R)donde
I S: Conjunto de estadosI A: Conjunto de accionesI T: S× A× S→ [0,1] (desconocido)I R: S× A× S→ R.I π: S→ A.
17 / 47
![Page 18: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/18.jpg)
Aprendizaje Reforzado
Estado sk ∈ S : Acción ak ∈ A
sk →ak sk+1
Función de transición de estado T :
sk+1 = T (sk ,ak )
18 / 47
![Page 19: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/19.jpg)
Recompensas
rk = r(sk−1,ak , sk )
I rk > 0I rk = 0I rk < 0
Politica π: S → AUna politica es óptima si maximiza la recompensa a largo plazo
19 / 47
![Page 20: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/20.jpg)
Retorno
Función de Valor:
Vπ(sk ) = rk + γrk+1 + γ2rk+2 + ... =∞∑
i=0
γ i rk+i
0 ≤ γ < 1, rk acotado
Una politica π∗ es óptima si:
V ∗(s) = Vπ∗(s) ≥ Vπ(s) ∀s, π
20 / 47
![Page 21: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/21.jpg)
Introducción
Aprendizaje reforzadoFundamentosDefinición de un problema en RL
MétodosPlataforma para ejemplosValue IterationPolicy IterationQ-learning
Aplicaciones en robótica
21 / 47
![Page 22: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/22.jpg)
Value Iteration
Consiste en realizar k iteraciones, hasta que Vk (s)− Vk−1(s) essuficientemente pequeño, con actualización según
Vk (s) = m«axa
∑s′
p(s′, s,a) ·(r(s′, s,a) + γVk−1(s′)
)
22 / 47
![Page 23: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/23.jpg)
Value Iteration
1: k = 02: V̂0(x) = 0 ∀s ∈ S3: while ∆ > ε do . (para ε pequeño)4: for s ∈ S do5: V̂k+1(x) = m«axa∈A
∑s′∈S Pr{(s,a, s′)} (R(s,a) + γV (s′))
6: end for7: ∆ = ‖V̂k+1 − V̂k‖8: k = k + 19: end while
10: return π
23 / 47
![Page 24: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/24.jpg)
Ejemplo
I Estados: ubicación en la grillaI Acciones: arriba, izquierda, derecha, abajoI Recompensa: +1, -1, -0.1
24 / 47
![Page 25: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/25.jpg)
Ejemplo
Después de 1 iteración:
25 / 47
![Page 26: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/26.jpg)
Ejemplo
Después de 2 iteraciones:
26 / 47
![Page 27: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/27.jpg)
Ejemplo
En convergencia:
27 / 47
![Page 28: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/28.jpg)
Toma de decisiones
Entonces...
Vk (s) = m«axa
∑s′
p(s′, s,a) ·(r(s′, s,a) + γVk−1(s′)
)I debo ejecutar necesariamente la acción que maximiza este
argumento?I comportamiento greedyI comportamiento ε-greedy
28 / 47
![Page 29: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/29.jpg)
Policy Iteration
1: π̂0(s) = acción aleatoria ∀s ∈ S2: V̂0(s) = 0 ∀s ∈ S . arbitrariamente3: evaluar_politica()4: mejorar_politica()
29 / 47
![Page 30: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/30.jpg)
Policy Iteration
evaluar_politica():
1: k = 02: while ∆ > ε do . (para ε pequeño)3: for s ∈ S do4: V̂k+1(s) = m«axa∈A
∑s′∈S Pr{(s,a, s′)} (R(s,a) + γV (s′))
5: end for6: ∆ = ‖V̂k+1 − V̂k‖7: k = k + 18: end while
30 / 47
![Page 31: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/31.jpg)
Policy Iterationmejorar_politica() :
1: politica_estable = true2: k = 03: for s ∈ S do4: π̂k+1(s) = argmaxa∈A
∑s′∈S Pr{(s,a, s′)} (R(s,a) + γV (s′))
5: if π̂k (s) 6= π̂k+1(s) then6: politica_estable = false7: end if8: end for9: if politica_estable then
10: return π̂k11: else12: evaluar_politica()13: end if
31 / 47
![Page 32: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/32.jpg)
Ejemplo
I Se encuentra de forma directa la política
I De todas formas se evalúa la función de valor
32 / 47
![Page 33: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/33.jpg)
Ejemplo
33 / 47
![Page 34: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/34.jpg)
Valor Q
I Así como V (s) corresponde a la función que valoriza el estado,Q(s,a) corresponde a la función que valoriza el tomar ciertaacción en ese estado.
I Para una política óptima π∗, se cumple
Q∗(s,a) ≥ Qπ(s,a) ∀s,a, π
34 / 47
![Page 35: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/35.jpg)
Q-learning
I Consiste en iterar sobre cada par (estado,acción), para α y γ fijos.I Actualización:
Q(sk ,ak )← (1− α) Q(sk ,ak ) + α(
rk+1 + γ m«axa
Q(sk+1,a))
35 / 47
![Page 36: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/36.jpg)
Q-learning
1: Q̂(s0,a0) = 0 ∀s ∈ S, a ∈ A2: for k = 1,2, ...,n do3: Observar sk ,ak ,R(sk ,ak ), sk+14: Q̂(sk , ak ) = Q̂(sk , ak ) + α
(Rk+1 + γ m«axak+1 Q̂(sk+1, ak+1)− Q̂(sk , ak )
)5: end for6: return Q̂
Suponiendo Q̂ = Q∗, entonces la acción óptima para cada estado sepuede obtener maximizando:
π∗(s[k ]) = arg m«axa[k ]
Q∗(s[k ],a[k ]),
36 / 47
![Page 37: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/37.jpg)
Ejemplo
I No se realizan iteraciones sobre todo el espacio de estados, sólocuando el estado se visita
I Este ejemplo es repetitivo (cuando se llega a un estado final,vuelve al inicio)
I atención con los óptimos locales
37 / 47
![Page 38: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/38.jpg)
Ejemplo
Pegado en óptimo local:
38 / 47
![Page 39: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/39.jpg)
Ejemplo
Incorporando exploración:
39 / 47
![Page 40: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/40.jpg)
Introducción
Aprendizaje reforzadoFundamentosDefinición de un problema en RL
MétodosPlataforma para ejemplosValue IterationPolicy IterationQ-learning
Aplicaciones en robótica
40 / 47
![Page 41: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/41.jpg)
RoboCup SSL
I G.A. Ahumada, C.J. Nettle and M.A. Solis, ‘AcceleratingQ-learning through Kalman Filter Estimations applied in aRoboCup SSL Simulation’, Proceedings of the 10th IEEE LatinAmerican Robotics Symposium, 2013.
41 / 47
![Page 42: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/42.jpg)
RoboCup SSL
Estado compuesto porI posición de pelotaI posición y orientación de arquero
42 / 47
![Page 43: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/43.jpg)
RoboCup SSL
Generación de estrategia defensiva
estado compuesto por:I dist(Ki ,pelota), dist(Tj ,pelota)I dist(Ki ,Kj )I dist(Ki ,Tj )I angle(Ki ,Tj )
Memoria de Ingeniería Civil Informática - Franco Ollino (2016)
43 / 47
![Page 44: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/44.jpg)
RoboCup SSL
Generación de estrategia defensiva
I recolección de experiencias (transiciones)I actualización por lotes
44 / 47
![Page 45: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/45.jpg)
Péndulo invertido rotatorio
Péndulo de Furuta
I Sintonización de parámetros del controlador
45 / 47
![Page 46: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/46.jpg)
Lectura recomendada
I Richard S. Sutton and Andrew G. Barto. Reinforcement Learning:An Introduction, 1998.
I Jens Kober, J Andrew Bagnell, and Jan Peters. Reinforcementlearning in robotics: A survey. The International Journal ofRobotics Research, 32(11):1238–1274, 2013.
I Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al.Human-level control through deep reinforcement learning. Nature,518(7540):529-533, 2015.
46 / 47
![Page 47: Conceptos básicos de aprendizaje reforzado y sus](https://reader033.vdocuments.site/reader033/viewer/2022061102/629c980ed2ce5f366b079bd9/html5/thumbnails/47.jpg)
Preguntas?
47 / 47