Distillation de modele

La distillation de modele est une technique de compression ou un petit modele (student/eleve) apprend a imiter le comportement d'un grand modele (teacher/professeur).

Processus : 1. Entrainer ou utiliser un grand modele performant (teacher) 2. Le grand modele genere des predictions sur un jeu de donnees 3. Le petit modele est entraine pour reproduire ces predictions 4. Le petit modele capture l'essentiel des connaissances du grand

Avantages :

• Modele plus petit et plus rapide
• Couts d'inference reduits
• Deploiement sur des appareils limites
• Conservation de la majorite des performances

Exemples : DistilBERT (60% plus petit que BERT, conserve 97% des performances), les modeles GPT-5.4 mini et Claude Haiku 4.5 sont probablement des modeles distilles de leurs versions plus grandes.

Ressources externes

Termes lies

SLM (Small Language Model)

Quantisation

Transfer Learning

LLM (Large Language Model)