Quiz: Introduction aux modèles de langage et stratégies de décodage — 10 domande

Domande e risposte dettagliate

1. Quelle stratégie de décodage consiste à choisir à chaque étape le token le plus probable, de manière rapide et déterministe ?

Sampling
Beam Search
Reinforcement learning
Greedy

Greedy

Spiegazione

Le décodage greedy sélectionne à chaque étape le token avec la probabilité la plus élevée, ce qui est rapide et déterministe, mais peut manquer de créativité ou de diversité.

2. Quelle est la principale caractéristique d’un modèle de langage?

Il estime la probabilité d'une séquence de tokens.
Il traduit entre différentes langues.
Il résout des équations mathématiques complexes.
Il remplit automatiquement des formulaires.

Il estime la probabilité d'une séquence de tokens.

Spiegazione

Les modèles de langage sont conçus pour estimer la probabilité d'une séquence de tokens, ce qui leur permet de générer du texte cohérent.

3. Quelle est la principale fonction d'un modèle de langage (LLM) ?

Reconnaître la parole à partir d'un fichier audio
Traduire automatiquement du texte d'une langue à une autre
Estimer la probabilité d'une séquence de tokens en se basant sur leur contexte
Générer des images à partir de descriptions textuelles

Estimer la probabilité d'une séquence de tokens en se basant sur leur contexte

Spiegazione

Un modèle de langage est conçu pour estimer la probabilité d'une séquence de tokens en fonction de leur contexte, permettant ainsi de prédire le prochain mot ou token dans une séquence donnée.

4. Quelle technique de tokenisation est mentionnée pour gérer la rareté des mots?

Tokenisation sous-mots, comme BPE, WordPiece, SentencePiece.
Tokenisation en caractères uniquement.
Tokenisation par phrases complètes.
Tokenisation par mots entiers uniquement.

Tokenisation sous-mots, comme BPE, WordPiece, SentencePiece.

Spiegazione

La tokenisation sous-mots, notamment BPE, WordPiece, et SentencePiece, limite la taille du vocabulaire et gère mieux les mots rares ou inconnus.

5. Quel paramètre permet de contrôler la diversité des textes générés en ajustant la distribution de probabilité des tokens, en rendant la sélection plus ou moins conservatrice ?

Top-k
Température
Top-p
Repetition Penalty

Température

Spiegazione

La température modifie la distribution de probabilité : une température inférieure à 1 rend la choix plus conservateur (plus pointu), tandis qu'une température supérieure à 1 favorise la créativité en aplatisant la distribution.

6. Quelle est la différence principale entre le décodage greedy et le Beam Search?

Greedy est plus rapide mais moins créatif; Beam Search explore plusieurs séquences pour plus de cohérence.
Greedy explore plusieurs séquences; Beam Search choisit le plus probable.
Greedy utilise la température; Beam Search ne l’utilise pas.
Ils sont identiques mais utilisés dans des contextes différents.

Greedy est plus rapide mais moins créatif; Beam Search explore plusieurs séquences pour plus de cohérence.

Spiegazione

Le décodage greedy choisit à chaque étape le token le plus probable, ce qui est rapide mais peu créatif, tandis que Beam Search explore plusieurs options pour générer des séquences plus cohérentes.

7. Comment la température (T) influence-t-elle la génération de texte?

T<1 rend la génération plus conservatrice; T>1 augmente la diversité.
T<1 augmente la créativité; T>1 limite la diversité.
T n'influence pas la génération, c'est une autre paramètre.
T est utilisé uniquement pour la longueur du texte.

T<1 rend la génération plus conservatrice; T>1 augmente la diversité.

Spiegazione

Une température inférieure à 1 favorise les tokens probables, rendant la texte plus conservateur; une température supérieure à 1 augmente la diversité en rendant la distribution plus équilibrée.

8. Quel paramètre limite la sélection aux k tokens les plus probables?

Top-k
Top-p
Repetition Penalty
Seed

Top-k

Spiegazione

Top-k limite la sélection des tokens aux k plus probables, ce qui contrôle la diversité du texte généré.

9. À quoi sert le paramètre 'seed' dans la génération de texte?

Il permet la reproductibilité des résultats.
Il augmente la créativité du modèle.
Il accélère la génération.
Il limite la longueur du texte.

Il permet la reproductibilité des résultats.

Spiegazione

Le 'seed' fixe la graine de nombre aléatoire utilisée lors de la génération, permettant de reproduire exactement le même texte à chaque exécution.

10. Quelle méthode est utilisée pour éviter la répétition excessive dans la génération de texte?

Repetition Penalty ou No-Repeat N-gram.
Augmentation de la température.
Tokenisation en sous-mots.
Utilisation de Beam Search.

Repetition Penalty ou No-Repeat N-gram.

Spiegazione

Pour éviter la répétition, on utilise la pénalité de répétition ou la technique No-Repeat N-gram, qui pénalisent ou empêchent la répétition de séquences dans le texte généré.

Ripassa con le flashcard

Memorizza le risposte con 10 flashcard su Introduction aux modèles de langage et stratégies de décodage.

Tokenisation — rôle ?

Découpe le texte en unités manipulables

Modèle de langage — définition?

Probabiliste, prédit la prochaine token.

Modèle de langage — définition ?

Estimations probabilistes de séquences de tokens

Vedi le flashcard →

Studia la scheda di revisione

Leggi la scheda di revisione completa su Introduction aux modèles de langage et stratégies de décodage.

Vedi la scheda di revisione →

Similar courses

Crea i tuoi quiz

Importa il tuo corso e l'AI genera quiz con correzioni in 30 secondi.

Generatore di quiz