LoRA (Low-Rank Adaptation)
Methode de fine-tuning efficace qui n'entraine qu'une petite fraction des parametres du modele.
LoRA (Low-Rank Adaptation) est une technique de fine-tuning efficace qui n'ajoute et n'entraine qu'un petit nombre de parametres supplementaires au modele, plutot que de modifier tous ses poids.
Principe :
- • Au lieu de modifier la matrice de poids W (enorme), on ajoute deux petites matrices A et B telles que W' = W + A*B
- • On n'entraine que A et B (beaucoup plus petits)
- • Reduction typique : 10 000x moins de parametres a entrainer
Avantages :
- • Memoire : necessite beaucoup moins de GPU
- • Vitesse : entrainement beaucoup plus rapide
- • Stockage : l'adaptateur LoRA ne fait que quelques Mo
- • Modularite : on peut combiner plusieurs adaptateurs LoRA
QLoRA va encore plus loin en appliquant LoRA sur un modele deja quantise, permettant de fine-tuner un modele 65B sur un seul GPU grand public.