Actu-IA
Inference - definition et explication du terme IA
🖥️ Infrastructure

Inference

Phase d'utilisation d'un modele entraine pour produire des predictions ou generations a partir de nouvelles donnees.

L'inference est la phase ou un modele d'IA deja entraine est utilise pour produire des resultats (predictions, generations, classifications) a partir de nouvelles donnees d'entree.

Comparaison :

  • Entrainement : le modele apprend (couteux, long, une fois)
  • Inference : le modele repond (rapide, repete, chaque utilisation)

Quand vous envoyez un message a ChatGPT, c'est de l'inference.

Optimisation de l'inference :

  • Quantisation : reduire la precision pour accelerer
  • Batching : traiter plusieurs requetes simultanement
  • KV caching : eviter de recalculer les tokens precedents
  • Speculative decoding : accelerer la generation avec un petit modele

Cout de l'inference :

  • GPT-5.4 : ~5$/M tokens en entree, ~15$/M tokens en sortie
  • Claude Opus 4.6 : ~15$/M tokens en entree, ~75$/M tokens en sortie
  • Modeles open source locaux : cout materiel uniquement

L'optimisation de l'inference est devenue un enjeu majeur car le cout de l'inference depasse largement le cout de l'entrainement sur la duree de vie d'un modele.

Ressources externes

Termes lies