*Titre*: Représentation adaptative de l'espace d'état pour l'apprentissage par renforcement on-policy dans le cadre des processus décisionnels de markov complètement observés Un processus décisionnel de markov (MDP) est défini par un espace d'état, un espace d'action, une fonction de transition, une fonction de récompense et un facteur d'actualisation. La définition à priori de l'espace d'état n'est pas forcément facile ni souhaitable. Par exemple, il n'est pas nécessairement pertinent d'utiliser une discrétisation à pas fixé pour représenter l'état d'un agent. Nous étudierons dans ce stage des architectures dans lesquelles l'espace d'état est appris en même temps que le contrôleur. La capture de l'espace d'état peut se faire par des approches de quantification vectorielle et en particulier les cartes de Kohohen (SOM) qui construisent une représentation topologique de l'espace d'état dont on peut tirer partie pour l'apprentissage du contrôleur (e.g. noyaux RBF pour l'apprentissage des fonctions de valeur). La distribution des prototypes d'une carte de Kohonen est sensible à la densité des échantillons qui lui sont présentés ce qui implique de fait une forte dépendance à la dynamique du système contrôlé. Or, rien n'indique à priori que sur-représenter une partie de l'espace d'état parce qu'il est plus souvent visité implique l'apprentissage d'un meilleur contrôleur. Récemment, une extension des cartes de Kohohen, Dynamic Self-Organized Maps (DSOM) [Rougier(2011)], a été proposée. Cette extension est beaucoup moins tributaire de la densité des échantillons que ne l'est SOM. Cette extension introduit un degré de liberté ou la densité des prototypes appris peut être modulée, par exemple, par la difficulté d'apprendre un contrôleur. Cela permettrait par exemple d'augmenter la densité des prototypes dans les régions de l'espace d'état ou il est difficile d'apprendre les fonctions de valeur, probablement causé par le fait que ces dernières varient plus vite dans certaines régions de l'espace d'état que dans d'autres. L'objet de ce stage est donc d'étudier différentes implémentations des cartes auto-organisatrices (SOM, DSOM avec différents critères de modulation de l'apprentissage) et leur influence sur les performances d'un contrôleur appris à partir de ces représentations d'état. Cette étude se fera en considérant des problèmes standards d'apprentissage par renforcement à espace d'état continu (mountain car, inverted cartpole). N.P.Rougier and Y.Boniface, Neurocomputing 74, 11, (2011), 1840-1847.