Apprentissage par renforcement

L'apprentissage par renforcement (RL) est une methode de machine learning ou un agent apprend a prendre des decisions en interagissant avec un environnement. Il recoit des recompenses ou des penalites selon ses actions.

Composants :

• Agent : le systeme qui apprend
• Environnement : le monde dans lequel l'agent agit
• Actions : les choix possibles de l'agent
• Recompenses : le signal de retour positif ou negatif
• Politique : la strategie de decision de l'agent

Applications celebres :

• AlphaGo (DeepMind) : a battu le champion du monde de Go
• RLHF : aligner les LLM avec les preferences humaines
• Robotique : apprentissage de la marche, manipulation d'objets
• Jeux video : agents surhumains dans Atari, StarCraft, Dota

Le RL est essentiel pour l'IA car c'est la seule methode qui permet d'apprendre par essai-erreur, sans exemples pre-existants.

Ressources externes

Termes lies

RLHF (Reinforcement Learning from Human Feedback)

Machine Learning (Apprentissage automatique)

Agent IA