Лист за преговор: Introduction aux modèles de langage et stratégies de décodage

1. 📌 L'essentiel

Un modèle de langage estime la probabilité d'une séquence de tokens : $P(w_1, ..., w_T) = \prod_{t=1}^T P(w_t | w_1, ..., w_{t-1})$ .
La tokenisation sous-mots (BPE, WordPiece, SentencePiece) réduit le vocabulaire et gère les rares.
Stratégies de décodage principales : Greedy, Beam Search, Sampling.
Greedy : choix du token le plus probable à chaque étape, rapide mais peu créatif.
Beam Search : exploration de plusieurs séquences, plus cohérent mais plus lent.
Sampling : choix probabiliste contrôlé par température, top-k, top-p pour plus de diversité.
La température modifie la distribution : T<1 pour plus conservateur, T>1 pour plus créatif.
Top-k limite la sélection aux k tokens les plus probables, renormalisés.
Top-p (Nucleus) sélectionne un ensemble dynamique de tokens jusqu’à la somme des probabilités p.
Contrôler la répétition via Repetition Penalty ou No-Repeat N-gram.
La graine (seed) permet la reproductibilité des résultats.

2. 🧩 Structures & Composants clés

Modèle de langage : probabiliste, prédit le prochain token basé sur le contexte.
Tokenisation : découpe en sous-mots, gère l'inconnu.
Décodage :
- Greedy : rapide, déterministe.
- Search : exploration parallèle, k séquences.
- Sampling : choix aléatoire, diversifié.
Paramètres de sampling :
- Température (T) : contrôle la créativité.
- Top-k : limite à k tokens.
- Top-p : sélection dynamique jusqu’à p.
Contrôle des répétitions :
- Repetition Penalty : pénalise les tokens déjà générés.
- No-Repeat N-gram : évite la répétition de séquences.
Reproductibilité : seed fixe pour résultats identiques.

3. 🔬 Fonctions, Mécanismes & Relations

La probabilité d’une séquence est le produit des probabilités conditionnelles.
Tokenisation sous-mots permet une gestion efficace du vocabulaire.
Décodage greedy : choisit le token le plus probable, rapide mais peu créatif.
Beam search : explore plusieurs chemins, équilibre cohérence et complexité.
Sampling : introduit de la diversité, paramétré par T, top-k, top-p.
La température ajuste la distribution : T<1 favorise les tokens probables, T>1 augmente la diversité.
Top-k et top-p peuvent être combinés pour un contrôle précis.
La pénalité de répétition et le no_repeat_ngram évitent les boucles et répétitions excessives.
Le seed permet de reproduire une même séquence de génération.

4. Tableau comparatif

Élément	Caractéristiques clés	Notes / Différences
Modèle de langage	Probabiliste, calcule $P(w_1,...,w_T)$	Prédiction du prochain token
Tokenisation	Sous-mots, méthodes BPE, WordPiece, SentencePiece	Réduit le vocabulaire, gère l'inconnu
Décodage Greedy	Max prob, rapide, déterministe	Peu créatif, risque boucle
Beam Search	Exploration parallèle, garde k séquences	Plus cohérent, plus lent
Sampling	Aléatoire, contrôlé par T, top-k, top-p	Plus diversifié
Température (T)	T<1 : distribution pointue, T>1 : distribution aplatie	Contrôle la créativité
Top-k	Limite à k tokens, renormalise la probabilité	Contrôle la diversité
Top-p (Nucleus)	Sélectionne tokens jusqu’à la somme des prob. = p	Flexible, évite rigidité
Contrôle répétitions	Repetition Penalty, No-Repeat N-gram	Évite boucle et répétitions
Seed	Fixe l’aléatoire pour reproductibilité	Développement vs production

5. 🗂️ Diagramme Hiérarchique ASCII

Modèle de langage
 ├─ Tokenisation
 ├─ Décodage
 │   ├─ Greedy
 │   ├─ Beam Search
 │   └─ Sampling
 │       ├─ Température
 │       ├─ Top-k
 │       └─ Top-p
 ├─ Contrôle répétitions
 │   ├─ Repetition Penalty
 │   └─ No-Repeat N-gram
 └─ Reproductibilité
     └─ Seed

6. ⚠️ Pièges & Confusions fréquentes

Confondre greedy et beam search : le premier est déterministe, l’autre explore plusieurs chemins.
Croire que température T>1 diminue la diversité : c’est l’inverse, T>1 augmente la diversité.
Utiliser top-k ou top-p seul sans ajuster la distribution.
Confondre Repetition Penalty et No-Repeat N-gram : leur rôle est différent.
Penser que seed garantit la diversité : non, elle est contrôlée par d’autres paramètres.
Ne pas adapter la stratégie de décodage à la tâche : factuelle vs créative.
Oublier de régler max_new_tokens pour limiter la longueur.
Confondre probabilités conditionnelles et choix de tokens.

7. ✅ Checklist Examen Final

Comprendre la formule de probabilité d’une séquence.
Expliquer la tokenisation sous-mots et ses avantages.
Différencier greedy, beam search et sampling.
Savoir comment la température influence la distribution.
Connaître le fonctionnement de top-k et top-p.
Savoir comment éviter les répétitions avec les pénalités.
Expliquer l’utilité du seed pour la reproductibilité.
Adapter la stratégie de décodage selon la tâche.
Maîtriser les paramètres clés : max_new_tokens, temperature, top-k, top-p, num_beams, repetition_penalty, seed.
Reconnaître les pièges courants lors de la génération.
Savoir combiner plusieurs stratégies pour un contrôle optimal.
Comprendre l’impact de chaque paramètre sur la diversité et la cohérence.
Être capable d’interpréter un tableau comparatif des méthodes.
Savoir quand privilégier la rapidité ou la qualité.
Connaître les limites de chaque méthode de décodage.

1. 📌 L'essentiel

2. 🧩 Structures & Composants clés

3. 🔬 Fonctions, Mécanismes & Relations

4. Tableau comparatif

5. 🗂️ Diagramme Hiérarchique ASCII

6. ⚠️ Pièges & Confusions fréquentes

7. ✅ Checklist Examen Final

Тествайте знанията си

Прегледайте с флашкарти

Similar courses

Introduction à la géométrie, algèbre et probabilités

Introduction à l'Intelligence Artificielle Symbolique

Introduction aux documents et sécurité en construction

Introduction à l'Informatique et IA

Introduction aux marchés publics et réglementations du bâtiment

Gestion des imprimantes Windows et PDF

Създайте свои собствени листове за преговор