Tokenisation

La tokenisation est le processus par lequel un texte est decoupe en tokens avant d'etre traite par un modele de langage. C'est une etape cruciale du pipeline NLP.

Methodes courantes :

• BPE (Byte Pair Encoding) : utilisee par GPT, fusionne progressivement les paires de caracteres les plus frequentes
• WordPiece : utilisee par BERT, similaire a BPE mais avec une approche probabiliste
• SentencePiece : fonctionne sans pre-tokenisation, utile pour les langues sans espaces

La tokenisation impacte directement les performances : un mauvais decoupage peut degrader la comprehension du modele, notamment pour les langues non anglophones qui necessitent souvent plus de tokens pour le meme contenu.

Ressources externes

Termes lies

Token

NLP (Natural Language Processing)

LLM (Large Language Model)