Multimodal

Un modele multimodal est un systeme d'IA capable de comprendre et/ou generer plusieurs types de donnees (modalites) : texte, images, audio, video, et parfois code.

Exemples de modeles multimodaux :

• GPT-5.4 : texte + images + audio en entree et sortie
• Claude Opus 4.6 : texte + images en entree
• Gemini 3.1 Pro : texte + images + audio + video
• Sora : texte vers video

Capacites typiques :

• Decrire une image en texte
• Generer une image a partir de texte
• Repondre a des questions sur une image
• Transcrire de l'audio en texte
• Comprendre des graphiques et tableaux

La tendance est clairement vers des modeles de plus en plus multimodaux, capables d'interagir avec le monde de maniere naturelle via plusieurs sens simultanement.

Ressources externes

Termes lies

GPT (Generative Pre-trained Transformer)

Vision par ordinateur (Computer Vision)

LLM (Large Language Model)