Quiz: Introduction aux modèles de langage et stratégies de décodage — 10 perguntas

Perguntas e respostas detalhadas

1. Quelle stratégie de décodage consiste à choisir à chaque étape le token le plus probable, de manière rapide et déterministe ?

Sampling
Beam Search
Reinforcement learning
Greedy

Greedy

Explicação

Le décodage greedy sélectionne à chaque étape le token avec la probabilité la plus élevée, ce qui est rapide et déterministe, mais peut manquer de créativité ou de diversité.

2. Quelle est la principale caractéristique d’un modèle de langage?

Il estime la probabilité d'une séquence de tokens.
Il traduit entre différentes langues.
Il résout des équations mathématiques complexes.
Il remplit automatiquement des formulaires.

Il estime la probabilité d'une séquence de tokens.

Explicação

Les modèles de langage sont conçus pour estimer la probabilité d'une séquence de tokens, ce qui leur permet de générer du texte cohérent.

3. Quelle est la principale fonction d'un modèle de langage (LLM) ?

Reconnaître la parole à partir d'un fichier audio
Traduire automatiquement du texte d'une langue à une autre
Estimer la probabilité d'une séquence de tokens en se basant sur leur contexte
Générer des images à partir de descriptions textuelles

Estimer la probabilité d'une séquence de tokens en se basant sur leur contexte

Explicação

Un modèle de langage est conçu pour estimer la probabilité d'une séquence de tokens en fonction de leur contexte, permettant ainsi de prédire le prochain mot ou token dans une séquence donnée.

4. Quelle technique de tokenisation est mentionnée pour gérer la rareté des mots?

Tokenisation sous-mots, comme BPE, WordPiece, SentencePiece.
Tokenisation en caractères uniquement.
Tokenisation par phrases complètes.
Tokenisation par mots entiers uniquement.

Tokenisation sous-mots, comme BPE, WordPiece, SentencePiece.

Explicação

La tokenisation sous-mots, notamment BPE, WordPiece, et SentencePiece, limite la taille du vocabulaire et gère mieux les mots rares ou inconnus.

5. Quel paramètre permet de contrôler la diversité des textes générés en ajustant la distribution de probabilité des tokens, en rendant la sélection plus ou moins conservatrice ?

Top-k
Température
Top-p
Repetition Penalty

Température

Explicação

La température modifie la distribution de probabilité : une température inférieure à 1 rend la choix plus conservateur (plus pointu), tandis qu'une température supérieure à 1 favorise la créativité en aplatisant la distribution.

6. Quelle est la différence principale entre le décodage greedy et le Beam Search?

Greedy est plus rapide mais moins créatif; Beam Search explore plusieurs séquences pour plus de cohérence.
Greedy explore plusieurs séquences; Beam Search choisit le plus probable.
Greedy utilise la température; Beam Search ne l’utilise pas.
Ils sont identiques mais utilisés dans des contextes différents.

Greedy est plus rapide mais moins créatif; Beam Search explore plusieurs séquences pour plus de cohérence.

Explicação

Le décodage greedy choisit à chaque étape le token le plus probable, ce qui est rapide mais peu créatif, tandis que Beam Search explore plusieurs options pour générer des séquences plus cohérentes.

7. Comment la température (T) influence-t-elle la génération de texte?

T<1 rend la génération plus conservatrice; T>1 augmente la diversité.
T<1 augmente la créativité; T>1 limite la diversité.
T n'influence pas la génération, c'est une autre paramètre.
T est utilisé uniquement pour la longueur du texte.

T<1 rend la génération plus conservatrice; T>1 augmente la diversité.

Explicação

Une température inférieure à 1 favorise les tokens probables, rendant la texte plus conservateur; une température supérieure à 1 augmente la diversité en rendant la distribution plus équilibrée.

8. Quel paramètre limite la sélection aux k tokens les plus probables?

Top-k
Top-p
Repetition Penalty
Seed

Top-k

Explicação

Top-k limite la sélection des tokens aux k plus probables, ce qui contrôle la diversité du texte généré.

9. À quoi sert le paramètre 'seed' dans la génération de texte?

Il permet la reproductibilité des résultats.
Il augmente la créativité du modèle.
Il accélère la génération.
Il limite la longueur du texte.

Il permet la reproductibilité des résultats.

Explicação

Le 'seed' fixe la graine de nombre aléatoire utilisée lors de la génération, permettant de reproduire exactement le même texte à chaque exécution.

10. Quelle méthode est utilisée pour éviter la répétition excessive dans la génération de texte?

Repetition Penalty ou No-Repeat N-gram.
Augmentation de la température.
Tokenisation en sous-mots.
Utilisation de Beam Search.

Repetition Penalty ou No-Repeat N-gram.

Explicação

Pour éviter la répétition, on utilise la pénalité de répétition ou la technique No-Repeat N-gram, qui pénalisent ou empêchent la répétition de séquences dans le texte généré.

Revisar com flashcards

Memorize as respostas com 10 flashcards sobre Introduction aux modèles de langage et stratégies de décodage.

Tokenisation — rôle ?

Découpe le texte en unités manipulables

Modèle de langage — définition?

Probabiliste, prédit la prochaine token.

Modèle de langage — définition ?

Estimations probabilistes de séquences de tokens

Veja os flashcards →

Estude a ficha de revisão

Leia a ficha de revisão completa sobre Introduction aux modèles de langage et stratégies de décodage.

Veja a ficha de revisão →

Similar courses

Crie seus próprios quizzes

Importe seu curso e a IA gera quizzes com correções em 30 segundos.

Gerador de quizzes