L'actualité du GDR

Journée TS5 : Hybridation entre les approches basées modèles et basées données - 31 mai à Paris

Le 31/05/2024



Les animateurs du Thème Scientifique TS5 (Données et Modèles) du GdR Robotique organisent une journée sur l’Hybridation entre les approches basées modèles et basées données
Depuis une quinzaine d'années, les approches basée données (data-driven) ont pris une place de plus en plus importante en Robotique, avec des résultats remarquables dans certains domaines tels que la perception, ou l'analyse du langage. Cependant ces approches font aussi face à des difficultés qui peuvent freiner leur déploiement en robotique : nécessité de jeux de données (annotées) trop importants, entraînement long et coûteux, stabilité difficile à démontrer, explicabilité limitée... De plus en plus de travaux proposent aujourd'hui de lever certains de ces verrous en conciliant les approches basées sur la physique (model-based ou physics-based) et les approches basées données.
Pour cette première journée, le TS5 souhaite interroger la place relative à donner aux approches "physics-based" et aux approches "data-driven" en robotique. Nous invitons ainsi les communications de travaux de recherche hybrides combinant les deux types d'approches, dans tous les champs de la robotique.


Date : 31 mai 2024
Lieu : Campus des Arts et Métiers, Salle des Conseils, 151 Bd de l'Hôpital, 75013 Paris

Inscription gratuite mais obligatoire ici

Programme :


9h30 : Accueil/Café
10h00 - 10h40 : Nicolas Marchand (GIPSA-Lab) : Controlling and learning in Robotics, tradeoff between stability and performance
10h40 - 11h05 : Antonio Marino (Inria Rainbow) :  Analysis of dynamic properties of learning models in multi-agent systems
11h05 - 11h30 : Sotiris Manitsaris (Mines Paris) : Auto-encodeurs variationnels et modélisation espace-état pour l’analyse et représentation du mouvement humain
11h30 - 11h55 : Alexandre Oliveira Souza : Towards data-driven predictive control of active upper-body exoskeletons
------ Pause déjeuner -----
13h30 - 14h10 : Eric Lucet (CEA) :  Adaptation du comportement sensori-moteur des robots mobiles en milieux complexes
14h10 - 14h35 : Quentin Le Lidec (Inria Willow) : Travaux à l'interface de l'apprentissage par renforcement, de la simulation différentiable et de l'optimisation de trajectoires
14h35 - 15h00 : Chris Reinke (Inria RobotLearn) : Computational Behavior Sets for Adaptive Social Robotics
------ Pause
15h15 - 15h40 : Zakaria El Asri (ISIR) : Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinfor- cement Learning
15h40 - 16h20 : Madiha Nadri (LAGEPP) :  Learning Latent Dynamics for Control



Résumés des exposés :

Nicolas Marchand (GIPSA) : Controlling and learning in Robotics, tradeoff between stability and performance 
Cette présentation aura pour objectif de montrer quelques réflexions et résultats obtenus en commande des drones en alliant l’apprentissage et les approches évènementielles. Les robots volants sont connus pour leur impératif de stabilité qu’il peut être difficile de garantir lorsque l’on ajoute de l’intelligence artificielle. D’un autre côté, beaucoup de phénomènes (effet de sol, mauvaise répartition des masses, etc.) sont difficilement modélisables par des approches de types modélisation physique rendant potentiellement intéressantes les approches basées sur l’apprentissage. Les résultats ont pour objectif de faire la synthèse entre stabilité, performance, simplicité et sobriété des algorithmes en mixant des approches conventionnelles de commande avec de l’apprentissage évènementiel.

Antonio Marino (Inria Rainbow) :  Analysis of dynamic properties of learning models in multi-agent systems
Modelling tracking and control problem through learning systems revels appealing in many robotics applications where we know little or nothing about the environment and the system.  In particular, learning simplifies the generation of distributed policies in multi-agent systems. Defining dynamic properties of learnt policies is essential to generate reliable performances for unseen scenarios while ensuring convergence. I will present some insights into the research of data-driven control for the analysis and exploitation of dynamic properties for learning distributed policies to control a team of agents.

Sotiris Manitsaris (Mines Paris) :Auto-encodeurs variationnels et modélisation espace-état pour l’analyse et représentation du mouvement humain
Une approche hybride associant la transparence des modèles espace-état à la capacité générative des auto-encoders variationnels pour la représentation et génération du mouvement humain sera présentée. Elle suit le principe du Modèle Opérationnel du Geste qui intègre un ensemble d’hypothèses sur la manière dont le mouvement humain évolue dans l'espace et le temps. Deux variations de la même approche seront approfondies : une version basée modèle avec un apprentissage “one-shot” de ses paramètres et une version hybride basée données. Les usages et applications varient entre la modélisation biomécanique du geste professionnel et l’optimisation ergonomique de la collaboration humain-robot.

Alexandre Oliveira Souza : Towards data-driven predictive control of active upper-body exoskeletons
Upper-limb active exoskeletons are a promising technology to reduce muscu- loskeletal disorders in the context of load-carrying activities. To assist the user on time, it is crucial to predict the assistance torque required for the future intended movement. In this work, we propose to predict such a torque with predictive models trained on si- mulated data. We generate exoskeleton sensor data for training learning-based prediction models from human motion capture data. We design a Quadratic Programming control problem for the exoskeleton to track the human body across its movements. From the data generated using this simulation method, we train two torque command prediction methods for transparent control and load carrying.

Eric Lucet (CEA) :  Adaptation du comportement sensori-moteur des robots mobiles en milieux complexes
Cette présentation de résultats issus des travaux de la thèse d’Ashley Hill en collaboration CEA – INRAE aborde la problématique de l’adaptabilité des robots mobiles suivant un chemin dans un contexte hors route de type agricole. Il s’agit d'adapter continuellement le comportement d'un véhicule, en fonction des variations de la qualité de perception de ses capteurs et des conditions d'adhérence.
En général, les approches de commande classique optimisent les aspects capteurs et contrôle de façon indépendante, alors qu'une forte corrélation existe entre eux, résultant en des stratégies de contrôle sous-optimales. Ici, à partir de lois de commande et d’observateurs existants, une approche par apprentissage est ensuite envisagée. Il s'agit d'une approche d'apprentissage par renforcement avec des itérations épisodiques de la politique à l'aide d'une stratégie évolutionnaire, qui est utilisée pour former un réseau de neurones.
Différentes méthodes d'utilisation du réseau de neurones sont étudiées, y compris un remplacement complet de la loi de contrôle de l'angle de braquage. Une approche alternative d'ajustement en ligne des paramètres de contrôle de la direction permet de préserver la loi de contrôle robuste tout en utilisant les informations supplémentaires.
Une deuxième approche consiste à utiliser un réseau de neurones pour le contrôle simultané de la direction et de la vitesse. Pour cette approche, une plus grande attention est nécessaire afin de concevoir la fonction objectif appropriée pour obtenir les compromis adéquats, en raison des caractéristiques du front de Pareto pour cette approche d'optimisation multi-objectifs.
Une méthode d'importance des entrées du réseau de neurones est par ailleurs proposée pour mieux comprendre le comportement de ce dernier.
Des résultats d’essais montrent que ces méthodes sont capables de surpasser les contrôleurs existants dans des environnements à la fois très variables et constants, démontrant que la méthode proposée est capable d'adapter le comportement du robot de manière importante, par rapport à son état observé.

Quentin LE LIDEC (Inria Willow) :  Travaux à l'interface de l'apprentissage par renforcement, de la simulation différentiable et de l'optimisation de trajectoires
In the past few years, following the differentiable programming paradigm, there has been a growing interest in computing the gradient information of physical processes (e.g., physical simulation, image rendering). However, such processes may be non-differentiable or yield uninformative gradients (e.g., null almost everywhere). When faced with the former pitfalls, gradients estimated via analytical expression or nume- rical techniques such as automatic differentiation and finite differences, make classical optimization schemes converge towards poor-quality solutions. Thus, relying only on the local information provided by these gradients is often not sufficient to solve advanced optimization problems involving such physical processes, notably when they are subject to non-smoothness and non-convexity issues. In this talk, inspired by the field of zero- th-order optimization, I will present how to leverage randomized smoothing to augment differentiable physics by estimating gradients in a neighborhood. Our experiments sug- gest that integrating this approach inside optimization algorithms may be fruitful in controlling robotic systems subject to contact and friction issues.

Chris REINKE (Inria RobotLearn) :  Computational Behavior Sets for Adaptive Social Robotics
A crucial challenge for social robotics is the strong dependence of social beha- viors on user preferences and contexts. Consider, for example, the task of human-aware navigation. How close and with which speed a robot should navigate around people de- pends on users and the social context. In hospitals, a robot should give patients more personal space and go slower to increase their safety. Whereas, if the robot enters an office area it can get closer to personnel and move faster to be more efficient. To gua- rantee safety and acceptance social robots have to adapt quickly to these different users and contexts. We introduce the concept of Computation Behavior Sets (CBS) for Rein- forcement Learning to allow such fast adaptations. The CBS framework consists of a set of diverse behaviors (policies) including a prediction of their outcomes, in terms of key environment features, such as the distance or angle to people while navigating. Based on a reward function model over such features that will be adapted to the different users or contexts, the most appropriate behavior from the set can be identified for a quick adaptation. The talk will discuss the different components of CBS, possible methods for their implementation, and challenges.

Zakariae REINKE (ISIR) :  Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforce-
ment Learning

Applying reinforcement learning to real-world applications requires addres- sing a trade-off between asymptotic performance, sample efficiency, and inference time. In this work, we demonstrate how to address this triple challenge by leveraging par- tial physical knowledge about the system dynamics. Our approach involves learning a physics-informed model to boost sample efficiency and generating imaginary trajectories from this model to learn a model-free policy and Q-function. Furthermore, we propose a hybrid planning strategy, combining the learned policy and Q-function with the le- arned model to enhance time efficiency in planning. Through practical demonstrations, we illustrate that our method improves the compromise between sample efficiency, time efficiency, and performance.

Madiha Nadri (LAGEPP) :  Learning Latent Dynamics for Control
State estimation in dynamical systems, classically called observer design, is an important task in various applications including control system design, fault detection and output prediction. Indeed, in practical scenarios like robotics and chemical engineering, complete state information is often unavailable, necessitating reliance on indirect or partial measurements from sensors. Despite the widespread use of observers, designing them for nonlinear systems remains an ongoing challenge without universally established methods. In this context, a theory offering a promising approach by establishing the existence of observers for a broad class of systems involves embedding nonlinear systems into a higher-dimensional latent linear system. However, implementing such observers practically requires identifying an explicit change of coordinates, which is notoriously difficult. In our work, we explore hybrid methods that combine control theory and machine learning to approximate this change of coordinates, using neural networks to encode the original state into a high-dimensional latent space. Maintaining observer performance in the presence of measurement noise and disturbances, especially outliers, remains a significant challenge. To address this, we introduce a flexible observer design methodology based on multi-observer concepts. This approach allows for balancing trade-offs between robustness to measurement noise and convergence speed. Our methodology finds application across various problems, including state estimation for dynamical systems governed by differential equations, future output forecasting based on state observations, Data-driven control.

Merci pour votre participation

Anne Spalanzani (anne.spalanzani@inria.fr)
Celine Teuliere (celine.teuliere@uca.fr)
Adel Olabi (Adel.OLABI@ensam.eu)
Guillaume Allibert (guillaume.allibert@univ-cotedazur.fr)

Publié le 19/03/2024