Distillation de modele
Technique transferant les connaissances d'un grand modele (teacher) vers un modele plus petit (student).
La distillation de modele est une technique de compression ou un petit modele (student/eleve) apprend a imiter le comportement d'un grand modele (teacher/professeur).
Processus : 1. Entrainer ou utiliser un grand modele performant (teacher) 2. Le grand modele genere des predictions sur un jeu de donnees 3. Le petit modele est entraine pour reproduire ces predictions 4. Le petit modele capture l'essentiel des connaissances du grand
Avantages :
- • Modele plus petit et plus rapide
- • Couts d'inference reduits
- • Deploiement sur des appareils limites
- • Conservation de la majorite des performances
Exemples : DistilBERT (60% plus petit que BERT, conserve 97% des performances), les modeles GPT-5.4 mini et Claude Haiku 4.5 sont probablement des modeles distilles de leurs versions plus grandes.