Vision par ordinateur (Computer Vision)

La vision par ordinateur (Computer Vision) est le domaine de l'IA qui permet aux machines d'extraire des informations significatives a partir d'images et de videos.

Taches principales :

• Classification d'images : identifier ce que contient une image
• Detection d'objets : localiser et identifier des objets (YOLO, Detectron)
• Segmentation : delimiter pixel par pixel les objets (SAM)
• Reconnaissance faciale : identifier des personnes
• OCR : extraire du texte depuis des images
• Estimation de pose : detecter la posture humaine

Applications :

• Voitures autonomes (Tesla, Waymo)
• Imagerie medicale (detection de tumeurs)
• Surveillance et securite
• Realite augmentee
• Controle qualite industriel

Les modeles multimodaux modernes (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) combinent vision par ordinateur et comprehension du langage pour analyser des images en conversant.

Ressources externes

Termes lies

Deep Learning (Apprentissage profond)

Multimodal