Transformer

Architecture de reseau de neurones revolutionnaire basee sur le mecanisme d'attention, a la base des LLM modernes.

Le Transformer est une architecture de reseau de neurones introduite en 2017 par Google dans l'article "Attention Is All You Need". C'est la base de pratiquement tous les modeles d'IA generative modernes.

Innovation cle : le mecanisme d'attention qui permet au modele de ponderer l'importance de chaque mot par rapport aux autres dans une phrase, quel que soit leur eloignement.

Avantages par rapport aux architectures precedentes (RNN, LSTM) :

• Parallelisation : traitement simultane de tous les tokens
• Attention longue distance : comprehension des relations entre mots eloignes
• Scalabilite : performance qui augmente avec la taille

Variantes :

• Encoder only : BERT (comprehension)
• Decoder only : GPT, Claude, Llama (generation)
• Encoder-Decoder : T5, BART (traduction, resume)

Ressources externes

Transformer sur Wikipedia — encyclopedie libre
Publications scientifiques sur Transformer — Google Scholar

Termes lies

Mecanisme d'attention

Technique permettant a un modele de ponderer l'importance relative de chaque element d'une sequence.

LLM (Large Language Model)

Grand modele de langage entraine sur des milliards de textes, capable de comprendre et generer du langage naturel.

GPT (Generative Pre-trained Transformer)

Famille de modeles de langage developpes par OpenAI, a l'origine de la revolution de l'IA generative.

BERT

Modele de comprehension du langage de Google, utilise massivement dans la recherche et la classification de texte.

Deep Learning (Apprentissage profond)

Sous-ensemble du machine learning utilisant des reseaux de neurones a plusieurs couches pour modeliser des representations complexes.

Retour au glossaire