Mecanisme d'attention
Technique permettant a un modele de ponderer l'importance relative de chaque element d'une sequence.
Le mecanisme d'attention est une technique qui permet a un reseau de neurones de se concentrer sur les parties les plus pertinentes de l'entree lors du traitement d'une sequence.
Fonctionnement simplifie :
- • Pour chaque mot, le modele calcule un score d'attention avec tous les autres mots
- • Les mots les plus pertinents recoivent un poids plus fort
- • Le modele "fait attention" aux elements importants du contexte
Types d'attention :
- • Self-attention : chaque element attend aux autres elements de la meme sequence
- • Cross-attention : attention entre deux sequences differentes (ex : texte et image)
- • Multi-head attention : plusieurs "tetes" d'attention en parallele pour capturer differents types de relations
L'attention est l'innovation fondamentale des Transformers. La formule cle est : Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V, ou Q (Query), K (Key) et V (Value) sont des projections de l'entree.