Mecanisme d'attention

Le mecanisme d'attention est une technique qui permet a un reseau de neurones de se concentrer sur les parties les plus pertinentes de l'entree lors du traitement d'une sequence.

Fonctionnement simplifie :

• Pour chaque mot, le modele calcule un score d'attention avec tous les autres mots
• Les mots les plus pertinents recoivent un poids plus fort
• Le modele "fait attention" aux elements importants du contexte

Types d'attention :

• Self-attention : chaque element attend aux autres elements de la meme sequence
• Cross-attention : attention entre deux sequences differentes (ex : texte et image)
• Multi-head attention : plusieurs "tetes" d'attention en parallele pour capturer differents types de relations

L'attention est l'innovation fondamentale des Transformers. La formule cle est : Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V, ou Q (Query), K (Key) et V (Value) sont des projections de l'entree.

Ressources externes

Termes lies

Transformer

Deep Learning (Apprentissage profond)

LLM (Large Language Model)