DOCUMENTS

Documents publiés

Programme journée GT8 : principe d'apprentissage, d'évolution et d'adaptation

Programme journée GT8 : principe d'apprentissage, d'évolution et d'adaptation



Lieu : salle 304, couloir 65-66, Jussieu

9h45 : accueil des participants

10h : Alain Dutech, LORIA : Recherche directe de politique en apprentissage par renforcement

Résumé:
Cet exposé sera l'occasion de revenir rapidement sur le cadre de l'apprentissage par renforcement en robotique. En analysant quelques architectures "acteur-critique" ayant été proposées, nous questionnerons la place et l'influence du critique dans ce cadre.

10h30 : Matthieu Geist, Supelec : tour d'horizon des approches de régularisation pour l'estimation de la fonction de valeur

11h : Freek Stulp, ENSTA : (something about the relation between RL and Black-Box Optimization)

11h30 : Pierre Andry, ETIS : titre à préciser

Résumé:
Je ferai un exposé, avec -je pense- un élément à apporter au débat RL-optim avec un modèle simple du cervelet + striatum que nous sommes  en train de mettre en place dans le cadre du projet Interact. Le cervelet comme prédicteur à t+1 de la sensorimotricité d'un geste appris et le striatum comme sélecteur autorisant la progression (d'un bras de robot) vers un nouveau  but par RL...

12h déjeuner

14h : Olivier Georgeon, LIRIS : Une approche interactioniste pour développer des robots adaptatifs auto-motivés

Résumé:
Nous proposons une approche "interactioniste" qui se base sur la notion de "schèmes sensorimoteurs" plutôt que de séparer les notions de perception et d'action. Nous définissons un schème sensorimoteur comme une "interaction élémentaire" entre l'agent et son environnement. Cette approche trouve des affinités avec l'épistémologie constructiviste de Piaget. Je présenterai les
algorithmes que nous avons développés en raisonnant de cette façon, et des exemples de résultats que nous avons obtenus. Ces travaux nous ont conduit à proposer les notion "d'agent agnostique" et de "motivation interactionnelle". Un agent agnostique est un agent dans lequel le programmeur n'a pas encodé de présupposés ontologiques sur l'environnement (contrairement aux agents implémentant des mécanismes d'apprentissage par renforcement classiques tels que les POMDPs). La motivation interactionnelle provient de la valeur attribuée à la mise en oeuvre de certains schèmes sensorimoteurs plutôt que de la valeur attribuée aux résultats qui découlent de la mise en oeuvre de ces schèmes.

14h30 : Olivier Buffet, Mauricio Araya, LORIA : Récompenser la collecte d'information

Résumé:
Dans les problèmes de prise de décision séquentielle sous observabilité partielle (POMDP) ou d'apprentissage par renforcement, acquérir des informations est en général un moyen d'arriver à ses fins. Nous allons voir ici qu'on peut aussi traiter des problèmes dans lesquels la collecte d'information est une fin en soi.

15h : Olivier Pietquin : Apprentissage par renforcement inverse : approches model-free

Résumé:
Cet exposé commencera par une définition de l'apprentissage par renforcement inverse et posera les bases des algorithmes récents de la littérature. Ceci montrera qu'une grande majorité d'entre eux nécessitent la connaissance du modèle de transition habituellement inconnu dans le cas d'applications réelles. De nouvelles méthodes "model-free" seront présentées ainsi que des conclusions sur leurs propriétés théoriques et expérimentales.

15h30 : Manuel Lopes, Flowers  : Exploration in model-based reinforcement learning with empirical evaluation of learning progress

16h : Pierre-Yves Oudeyer, Flowers : The challenges of active exploration in large continuous spaces

16h30 : Stephane Doncieux, ISIR  : Pressions de sélection en robotique évolutionniste

Résumé:
Comment guider un apprentissage dans le continu ? Comment faire cohabiter apprentissage en simulation et réalité ? Comment encourager des capacités de généralisation des comportements appris ? Nous nous plaçons dans le cadre de la robotique évolutionniste et avons proposé l'utilisation du formalisme des algorithmes multi-objectifs. Nous verrons comment ces questions peuvent être abordées dans ce cadre ainsi que les résultats que nous avons obtenus.

17h : Jean-Baptiste Mouret, ISIR : Adaptation et résilience par évolution artificielle : une approche basée sur la transférabilité

17h30 : discussion générale