Tokenisation
Processus de decoupage du texte en tokens, les unites de base traitees par les modeles de langage.
La tokenisation est le processus par lequel un texte est decoupe en tokens avant d'etre traite par un modele de langage. C'est une etape cruciale du pipeline NLP.
Methodes courantes :
- • BPE (Byte Pair Encoding) : utilisee par GPT, fusionne progressivement les paires de caracteres les plus frequentes
- • WordPiece : utilisee par BERT, similaire a BPE mais avec une approche probabiliste
- • SentencePiece : fonctionne sans pre-tokenisation, utile pour les langues sans espaces
La tokenisation impacte directement les performances : un mauvais decoupage peut degrader la comprehension du modele, notamment pour les langues non anglophones qui necessitent souvent plus de tokens pour le meme contenu.