LoRA (Low-Rank Adaptation)

LoRA (Low-Rank Adaptation) est une technique de fine-tuning efficace qui n'ajoute et n'entraine qu'un petit nombre de parametres supplementaires au modele, plutot que de modifier tous ses poids.

Principe :

• Au lieu de modifier la matrice de poids W (enorme), on ajoute deux petites matrices A et B telles que W' = W + A*B
• On n'entraine que A et B (beaucoup plus petits)
• Reduction typique : 10 000x moins de parametres a entrainer

Avantages :

• Memoire : necessite beaucoup moins de GPU
• Vitesse : entrainement beaucoup plus rapide
• Stockage : l'adaptateur LoRA ne fait que quelques Mo
• Modularite : on peut combiner plusieurs adaptateurs LoRA

QLoRA va encore plus loin en appliquant LoRA sur un modele deja quantise, permettant de fine-tuner un modele 65B sur un seul GPU grand public.

Ressources externes

Termes lies

Fine-tuning

Quantisation

LLM (Large Language Model)