Embedding (Plongement vectoriel)
Representation numerique d'un texte sous forme de vecteur, capturant son sens semantique.
Un embedding est une representation numerique d'un texte (mot, phrase ou document) sous forme d'un vecteur de nombres. Cette representation capture le sens semantique du texte.
Proprietes cles :
- • Des textes au sens similaire ont des embeddings proches
- • La distance entre embeddings mesure la similarite semantique
- • "roi - homme + femme ≈ reine" (arithmetique des embeddings)
Utilisations :
- • Recherche semantique : trouver des documents par sens, pas par mots-cles
- • RAG : recuperer les documents pertinents pour un LLM
- • Classification : categoriser automatiquement des textes
- • Recommandation : suggerer du contenu similaire
- • Detection de duplicats : identifier les contenus semblables
Modeles d'embedding populaires : OpenAI text-embedding-3, Cohere Embed, BGE, E5. Les embeddings sont stockes dans des bases vectorielles pour une recherche rapide.