Alignement de l'IA

L'alignement de l'IA est le domaine de recherche qui vise a s'assurer que les systemes d'intelligence artificielle agissent conformement aux valeurs, intentions et objectifs des humains.

Problemes d'alignement :

• Specification des objectifs : comment definir precisement ce que l'on veut ?
• Robustesse : le systeme reste-t-il aligne dans des situations imprevues ?
• Corrigibilite : peut-on corriger un systeme IA qui devie ?
• Scalabilite : les methodes d'alignement tiennent-elles avec des IA plus puissantes ?

Approches actuelles :

• RLHF : entrainement base sur les preferences humaines
• Constitutional AI (Anthropic) : principes ethiques integres
• Red teaming : tester les limites des systemes
• Interpretabilite : comprendre les decisions de l'IA

L'alignement est considere par de nombreux chercheurs (dont ceux d'Anthropic et OpenAI) comme l'un des defis les plus importants de l'IA, en particulier a mesure que les systemes deviennent plus capables.

Ressources externes

Termes lies

RLHF (Reinforcement Learning from Human Feedback)

Biais algorithmique

AGI (Artificial General Intelligence)