Apprentissage par renforcement
Methode d'apprentissage ou un agent apprend en interagissant avec un environnement et en recevant des recompenses.
L'apprentissage par renforcement (RL) est une methode de machine learning ou un agent apprend a prendre des decisions en interagissant avec un environnement. Il recoit des recompenses ou des penalites selon ses actions.
Composants :
- • Agent : le systeme qui apprend
- • Environnement : le monde dans lequel l'agent agit
- • Actions : les choix possibles de l'agent
- • Recompenses : le signal de retour positif ou negatif
- • Politique : la strategie de decision de l'agent
Applications celebres :
- • AlphaGo (DeepMind) : a battu le champion du monde de Go
- • RLHF : aligner les LLM avec les preferences humaines
- • Robotique : apprentissage de la marche, manipulation d'objets
- • Jeux video : agents surhumains dans Atari, StarCraft, Dota
Le RL est essentiel pour l'IA car c'est la seule methode qui permet d'apprendre par essai-erreur, sans exemples pre-existants.