introduction à la robotique cognitive - cours...

60
R. Chatila Introduction à la robotique cognitive - cours Cogmaster Raja Chatila Institut des Systèmes Intelligents et de Robotique (ISIR) UPMC/CNRS 1

Upload: dangkhanh

Post on 12-Sep-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

R. Chatila

Introduction à la robotique cognitive - cours Cogmaster

Raja Chatila Institut des Systèmes Intelligents et de Robotique (ISIR)

UPMC/CNRS

1

Le robot, paradigme de l’IA ...

n Initialement, l’Intelligence Artificielle est:

”Un ensemble de programmes informatiques qui résolvent des problèmes habituellement résolus par des processus mentaux de haut niveau chez les humains”

n Mais le robot est une machine n Matérialisée (embodied, “encorporée”); n agissant dans un milieu qui est le monde réel, elle

est mise en situation (situated).

n Robot : agent rationnel délibératif et réactif. n Fonctions inter-agissantes et intégrées.

2

A. Turing J. McCarthy

3

Le robot: principales capacités cognitives

3

Le robot: principales capacités cognitives

Percevoir/représenter/Apprendre l’espace, les situations, les humains

3

Le robot: principales capacités cognitives

Percevoir/représenter/Apprendre l’espace, les situations, les humains

Se déplacer et agir:

Le mouvement

3

Le robot: principales capacités cognitives

Percevoir/représenter/Apprendre l’espace, les situations, les humains

Anticiper décider réagir

Se déplacer et agir:

Le mouvement

3

Le robot: principales capacités cognitives

Percevoir/représenter/Apprendre l’espace, les situations, les humains

Anticiper décider réagir

Communiquer Interagir

Se déplacer et agir:

Le mouvement

3

Le robot: principales capacités cognitives

Percevoir/représenter/Apprendre l’espace, les situations, les humains

Apprendre de nouvelles capacités

Anticiper décider réagir

Communiquer Interagir

Se déplacer et agir:

Le mouvement

4

La perception est imprécise et incertaine

Trajectoire réelle

Odométrie

Laser 3D - Carte d’élevation

Stéréo

Vert: ultrasons Rouge: Laser Bleu: trajectoire odométrique

4

La perception est imprécise et incertaine

Trajectoire réelle

Odométrie

Laser 3D - Carte d’élevation

Stéréo

Vert: ultrasons Rouge: Laser Bleu: trajectoire odométrique

R. Chatila

Questions

n Comment le robot représente-t-il son environnement de manière cohérente et comment s'y localise-t-il ?

n Comment planifie-t-il son propre mouvement, tout en étant réactif aux évolutions de l'environnement ?

n Comment prend-il ses décisions et élabore-t-il des plans d'action, en particulier dans un monde incertain et partiellement connu ?

n Comment peut-il interagir d'autres agents ou des humains ?

n Comment apprend-il à améliorer ses actions ? n Et enfin, comment toutes ces fonctions peuvent-

elles être organisées dans une architecture globale permettant un fonctionnement cohérent ?

5

6

Cartographie et localisation simultanées: incertitudes

R0

6

Cartographie et localisation simultanées: incertitudes

R0

observation

O2O3O1

6

Cartographie et localisation simultanées: incertitudes

R0

observation

O2O3O1

6

Cartographie et localisation simultanées: incertitudes

R0déplacement

R1

observation

O2O3O1

6

Cartographie et localisation simultanées: incertitudes

R0déplacement

R1

observation

O2O3O1

6

Cartographie et localisation simultanées: incertitudes

R0déplacement

R1

O4

observation

O2O3O1

6

Cartographie et localisation simultanées: incertitudes

R0déplacement

R1

O4

observation

O2O3O1

7

Cartographie et localisation simultanées: incertitudes

R0R1

O4

O2 O3O1

R0R1

O4

O2 O3O1

8

Outil fondamental: le filtre Bayésien

x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman

•Particulaire •Markov

8

Outil fondamental: le filtre Bayésien

x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman

•Particulaire •Markov

Posteriori

8

Outil fondamental: le filtre Bayésien

x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman

•Particulaire •Markov

Vraisemblancede la mesure zt si robot à xtPosteriori

8

Outil fondamental: le filtre Bayésien

x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman

•Particulaire •Markov

Vraisemblancede la mesure zt si robot à xt

Priori: Distribution de probabilité de xt si le robot était à xt-1 et qu’il a effectué l’action ut-1 Posteriori

8

Outil fondamental: le filtre Bayésien

x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman

•Particulaire •Markov

Vraisemblancede la mesure zt si robot à xt

Priori: Distribution de probabilité de xt si le robot était à xt-1 et qu’il a effectué l’action ut-1 Posteriori

Distribution de probabilité de xt-1

(itération précédente)

9

Exemple

• Laser 2D

• Approximations linéaires

• EKF

9

Exemple

• Laser 2D

• Approximations linéaires

• EKF

Exemple: Stéréo

10

Exemple: Stéréo

10

11

Example: SLAM à partir d’images aériennes (uniquement)

11

Example: SLAM à partir d’images aériennes (uniquement)

R. Chatila

Perception: apprentissage et classification

n A partir d’exemples, d’observations: apprentissage supervisé. n l’environnement (ou le tuteur) fournit un nombre

suffisant de couples entrée/sortie (pas toujours possible).

n Apprentissage de distributions de probabilités.

n Apprentissage par renforcement

12

Classique. Les problèmes sont liés aux modèles et à la complexité

13

Classification par apprentissage supervisén Choix d’attributs caractéristiques pour chaque cellule:

n Densité des pointsn Différence de l’élévation et variancen Orientation moyenne de la normale et variance

n Classification supervisée bayésiennen 4 classes: obstacle, accidenté, plat, inconnun Elaboration des associations Classes-Attributs pour

construire les P(A |Ci) à partir d’exemples.

Utilisation en ligne

P (Ci | A) =P (A | Ci)P (Ci)

P (A)

P (A) =X

i

P (A | Ci)P (Ci)

P (A | Ci)

14

Modèle de terrain

n Classification

Plat Accidenté Obstacle Inconnu

n Reprojection dans l’image

Image stéréo

R. Chatila

Apprentissage de représentations sensori-motrices

15

Associative memory:Learned sensori-motor

representations

ObjectRepresentations

Composed Action synthesis

Actuation

Environment

Sensing

Value(Reinforcement learning)

Proprioception

LEARNEDSKILLS

(Memory)

LEARNED SYMBOLS(Memory)

R. Chatila

local: Potentiel

Stratégie de navigation

Evaluation de mouvement local

Easy

te

rrai

ns

Suivi de chemin

Génération du mouvement: plusieurs stratégies

16

Planification du Mouvement

Planification du Mouvement

Raisonnement géométrique dans l’espace des configurations du robot

• Espace des configurations. Topologie en général différente de celle de l’espace réel.

• Recherche probabiliste pour structurer l’espace des configurations

C = S1 x S1

Raisonnement géométrique dans l’espace des configurations du robot

• Espace des configurations. Topologie en général différente de celle de l’espace réel.

• Recherche probabiliste pour structurer l’espace des configurations

C = S1 x S1

Raisonnement géométrique dans l’espace des configurations du robot

• Espace des configurations. Topologie en général différente de celle de l’espace réel.

• Recherche probabiliste pour structurer l’espace des configurations

C = S1 x S1

Raisonnement géométrique dans l’espace des configurations du robot

• Espace des configurations. Topologie en général différente de celle de l’espace réel.

• Recherche probabiliste pour structurer l’espace des configurations

C = S1 x S1

Raisonnement géométrique dans l’espace des configurations du robot

• Espace des configurations. Topologie en général différente de celle de l’espace réel.

• Recherche probabiliste pour structurer l’espace des configurations

C = S1 x S1

Raisonnement géométrique dans l’espace des configurations du robot

• Espace des configurations. Topologie en général différente de celle de l’espace réel.

• Recherche probabiliste pour structurer l’espace des configurations

C = S1 x S1

Raisonnement géométrique dans l’espace des configurations du robot

• Espace des configurations. Topologie en général différente de celle de l’espace réel.

• Recherche probabiliste pour structurer l’espace des configurations

C = S1 x S1

Raisonnement géométrique dans l’espace des configurations du robot

• Espace des configurations. Topologie en général différente de celle de l’espace réel.

• Recherche probabiliste pour structurer l’espace des configurations

C = S1 x S1

R. Chatila

Formalisation de la prise de décision

n Notion d’état et de transition d’état par l’action n Contexte déterministe: logique des prédicats.

n Production d’un plan n Contexte incertain: <S, A,T, R, Ω, O >

n Indéterminisme de l’action. Transition probabiliste entre états T: SxA→ S’ (distribution de probabilités).

n Processus markovien. Production d’une politique maximisant une utilité.

n Si état S’ inconnu (probabilité de se trouver dans un état donné): Processus markovien partiellement observable. O: SxA→π(Ω).

n R: S×A → ℜ : récompenses associées aux états et/ou aux actions

n Si probabilités de transition inconnues: apprentissage par renforcement. 19

Exemple

20

observation action u3 état x2

récompense

observation

actions u1, u2

récompense

état x1

R. Chatila

Processus markovien

21

AGENT: π→a

Monde: T(s,a,s’)Etat s

Actio

n a

π*(s) = argmaxa∑s' T(s, a, s’)U(s’) T(s, a, s’) = Probabilité d’atteindre un état s’ à partir de l’état s

U(s’) = Utilité de l’état s’.

Politique optimale

R. Chatila

Observabilité partielle

22

MDP: Etat connu après exécution d’une action

POMDP:Estimation bayésienne de l’état

Estimation b→b’

π: b’→ a

b’

Observation o Ac

tion

a

Monde: s→s’ T(s,a,s’ ), O(s’,a,o)

R. Chatila

Mécanisme de décision

n Problème d’optimisation séquentiel

n Principe d’optimalité de Bellman. Maximiser l’utilité U(s) qui s’écrit comme fonction d’un état et de la transition vers ses voisins:

23

Ui+1(s) ßR(s) + γ maxa ∑s’ (T(s, a, s’) Ui(s’))

R. Chatila

Apprentissage par renforcement (RL)

•Q(s,a) = R(s) + γ∑s’T(s,a,s’)maxa’Q(s’,a’)

24

Action at

st

rtrt+1

st+1

tt+1

Actions non déterministes

Environnement

R. Chatila

Objectif de l’apprentissage

n Apprendre l’utilité d’une politique Uπ(s) : Somme des récompenses espérées pour cette politique.

n Politique maximisant l’utilité.

25

U⇡(s) = E

" 1X

t=0

�tR(st) | ⇡, s0 = s

#

Combiner: • Exploitation: maximise la récompense globale dans l’état d’estimation actuel des utilités. • Exploration: pour éviter l’application systématique de politiques sous-optimales. Tirage aléatoire d’une action pour explorer d’autres voies.

Interaction et coopération

La perspective de l’autre

26

Evaluation de la situation Coopération

R. Chatila

Le robot délibératif et réactif

n Intégrer dans un seul système n Les capacités d’anticipation et de décision au long

terme n La prise en compte de l’incertain dans la perception,

l’action et l’évolution du monde n Les capacités d’apprentissage n Les capacités de réaction et d’adaptation à

l’environnement immédiat

28

R. Chatila

Planification (états, temps, ressources) “symbolique”

Supervision réactive

Architecture Planification/Action

29

Architecture hybride 3 couches Représentations symboliques Raisonnement logique Calcul numérique

Modules fonctionnels (“numérique”)

Modèle BDI

Coopération et redondance

R. Chatila

Décisions simples

n Modularité

n Module. Modèle formel: automate à états finis

30

T

T

T

T

T

T

T

T

S

S

S

S

S

Architecture cognitive conceptuelle

R. Chatila

Remarques de conclusions

n Compatibilité de la représentation avec la tâche

n Obligation du sens : le monde doit faire sens pour permettre l’action

n Compatibilité de la décision et de l’action avec la dynamique de l’environnement et de la tâche (et non pas la rapidité)

n La nécessité de l’auto-référence (conscience de soi) par rapport à l’extérieur?

32