Transformer
Architecture de reseau de neurones revolutionnaire basee sur le mecanisme d'attention, a la base des LLM modernes.
Le Transformer est une architecture de reseau de neurones introduite en 2017 par Google dans l'article "Attention Is All You Need". C'est la base de pratiquement tous les modeles d'IA generative modernes.
Innovation cle : le mecanisme d'attention qui permet au modele de ponderer l'importance de chaque mot par rapport aux autres dans une phrase, quel que soit leur eloignement.
Avantages par rapport aux architectures precedentes (RNN, LSTM) :
- • Parallelisation : traitement simultane de tous les tokens
- • Attention longue distance : comprehension des relations entre mots eloignes
- • Scalabilite : performance qui augmente avec la taille
Variantes :
- • Encoder only : BERT (comprehension)
- • Decoder only : GPT, Claude, Llama (generation)
- • Encoder-Decoder : T5, BART (traduction, resume)