
DOCUMENTS
Documents publiés
Programme journée GT8 : principe d'apprentissage, d'évolution et d'adaptation
Programme journée GT8 : principe d'apprentissage, d'évolution et d'adaptation
Lieu : salle 304, couloir 65-66, Jussieu
9h45 : accueil des participants
10h : Alain Dutech, LORIA : Recherche directe de politique en apprentissage par renforcement
Résumé:
Cet exposé sera l'occasion de revenir rapidement sur le cadre de l'apprentissage par renforcement en robotique. En analysant quelques architectures "acteur-critique" ayant été proposées, nous questionnerons la place et l'influence du critique dans ce cadre.
10h30 : Matthieu Geist, Supelec : tour d'horizon des approches de régularisation pour l'estimation de la fonction de valeur
11h : Freek Stulp, ENSTA : (something about the relation between RL and Black-Box Optimization)
11h30 : Pierre Andry, ETIS : titre à préciser
Résumé:
Je ferai un exposé, avec -je pense- un élément à apporter au débat RL-optim avec un modèle simple du cervelet + striatum que nous sommes en train de mettre en place dans le cadre du projet Interact. Le cervelet comme prédicteur à t+1 de la sensorimotricité d'un geste appris et le striatum comme sélecteur autorisant la progression (d'un bras de robot) vers un nouveau but par RL...
12h déjeuner
14h : Olivier Georgeon, LIRIS : Une approche interactioniste pour développer des robots adaptatifs auto-motivés
Résumé:
Nous proposons une approche "interactioniste" qui se base sur la notion de "schèmes sensorimoteurs" plutôt que de séparer les notions de perception et d'action. Nous définissons un schème sensorimoteur comme une "interaction élémentaire" entre l'agent et son environnement. Cette approche trouve des affinités avec l'épistémologie constructiviste de Piaget. Je présenterai les
algorithmes que nous avons développés en raisonnant de cette façon, et des exemples de résultats que nous avons obtenus. Ces travaux nous ont conduit à proposer les notion "d'agent agnostique" et de "motivation interactionnelle". Un agent agnostique est un agent dans lequel le programmeur n'a pas encodé de présupposés ontologiques sur l'environnement (contrairement aux agents implémentant des mécanismes d'apprentissage par renforcement classiques tels que les POMDPs). La motivation interactionnelle provient de la valeur attribuée à la mise en oeuvre de certains schèmes sensorimoteurs plutôt que de la valeur attribuée aux résultats qui découlent de la mise en oeuvre de ces schèmes.
14h30 : Olivier Buffet, Mauricio Araya, LORIA : Récompenser la collecte d'information
Résumé:
Dans les problèmes de prise de décision séquentielle sous observabilité partielle (POMDP) ou d'apprentissage par renforcement, acquérir des informations est en général un moyen d'arriver à ses fins. Nous allons voir ici qu'on peut aussi traiter des problèmes dans lesquels la collecte d'information est une fin en soi.
15h : Olivier Pietquin : Apprentissage par renforcement inverse : approches model-free
Résumé:
Cet exposé commencera par une définition de l'apprentissage par renforcement inverse et posera les bases des algorithmes récents de la littérature. Ceci montrera qu'une grande majorité d'entre eux nécessitent la connaissance du modèle de transition habituellement inconnu dans le cas d'applications réelles. De nouvelles méthodes "model-free" seront présentées ainsi que des conclusions sur leurs propriétés théoriques et expérimentales.
15h30 : Manuel Lopes, Flowers : Exploration in model-based reinforcement learning with empirical evaluation of learning progress
16h : Pierre-Yves Oudeyer, Flowers : The challenges of active exploration in large continuous spaces
16h30 : Stephane Doncieux, ISIR : Pressions de sélection en robotique évolutionniste
Résumé:
Comment guider un apprentissage dans le continu ? Comment faire cohabiter apprentissage en simulation et réalité ? Comment encourager des capacités de généralisation des comportements appris ? Nous nous plaçons dans le cadre de la robotique évolutionniste et avons proposé l'utilisation du formalisme des algorithmes multi-objectifs. Nous verrons comment ces questions peuvent être abordées dans ce cadre ainsi que les résultats que nous avons obtenus.
17h : Jean-Baptiste Mouret, ISIR : Adaptation et résilience par évolution artificielle : une approche basée sur la transférabilité
17h30 : discussion générale

- Contacts
- Direction
- Webmaster
- Mentions Légales
- Ce site regroupe
- 7501 Membres
- 2557 Chercheurs
- 937 Professionnels
- 4006 Etudiants
- Copyright © 2007-2025 GdR Robotique (CNRS)
- All rights reserved