Quiz: Introduction aux modèles de langage et stratégies de décodage — 10 perguntas

Question 1

1. Quelle stratégie de décodage consiste à choisir à chaque étape le token le plus probable, de manière rapide et déterministe ?

Sampling

Beam Search

Reinforcement learning

Greedy

Explicação

Le décodage greedy sélectionne à chaque étape le token avec la probabilité la plus élevée, ce qui est rapide et déterministe, mais peut manquer de créativité ou de diversité.

Answer

Il estime la probabilité d'une séquence de tokens.

Answer

Estimer la probabilité d'une séquence de tokens en se basant sur leur contexte

Answer

Tokenisation sous-mots, comme BPE, WordPiece, SentencePiece.

Answer

Température

Answer

Greedy est plus rapide mais moins créatif; Beam Search explore plusieurs séquences pour plus de cohérence.

Answer

T<1 rend la génération plus conservatrice; T>1 augmente la diversité.

Answer

Il permet la reproductibilité des résultats.

Answer

Repetition Penalty ou No-Repeat N-gram.

Question 2

2. Quelle est la principale caractéristique d’un modèle de langage?

Il estime la probabilité d'une séquence de tokens.

Il traduit entre différentes langues.

Il résout des équations mathématiques complexes.

Il remplit automatiquement des formulaires.

Explicação

Les modèles de langage sont conçus pour estimer la probabilité d'une séquence de tokens, ce qui leur permet de générer du texte cohérent.

Question 3

3. Quelle est la principale fonction d'un modèle de langage (LLM) ?

Reconnaître la parole à partir d'un fichier audio

Traduire automatiquement du texte d'une langue à une autre

Estimer la probabilité d'une séquence de tokens en se basant sur leur contexte

Générer des images à partir de descriptions textuelles

Explicação

Un modèle de langage est conçu pour estimer la probabilité d'une séquence de tokens en fonction de leur contexte, permettant ainsi de prédire le prochain mot ou token dans une séquence donnée.

Question 4

4. Quelle technique de tokenisation est mentionnée pour gérer la rareté des mots?

Tokenisation sous-mots, comme BPE, WordPiece, SentencePiece.

Tokenisation en caractères uniquement.

Tokenisation par phrases complètes.

Tokenisation par mots entiers uniquement.

Explicação

La tokenisation sous-mots, notamment BPE, WordPiece, et SentencePiece, limite la taille du vocabulaire et gère mieux les mots rares ou inconnus.

Question 5

5. Quel paramètre permet de contrôler la diversité des textes générés en ajustant la distribution de probabilité des tokens, en rendant la sélection plus ou moins conservatrice ?

Top-k

Température

Top-p

Repetition Penalty

Explicação

La température modifie la distribution de probabilité : une température inférieure à 1 rend la choix plus conservateur (plus pointu), tandis qu'une température supérieure à 1 favorise la créativité en aplatisant la distribution.

Question 6

6. Quelle est la différence principale entre le décodage greedy et le Beam Search?

Greedy est plus rapide mais moins créatif; Beam Search explore plusieurs séquences pour plus de cohérence.

Greedy explore plusieurs séquences; Beam Search choisit le plus probable.

Greedy utilise la température; Beam Search ne l’utilise pas.

Ils sont identiques mais utilisés dans des contextes différents.

Explicação

Le décodage greedy choisit à chaque étape le token le plus probable, ce qui est rapide mais peu créatif, tandis que Beam Search explore plusieurs options pour générer des séquences plus cohérentes.

Question 7

7. Comment la température (T) influence-t-elle la génération de texte?

T<1 rend la génération plus conservatrice; T>1 augmente la diversité.

T<1 augmente la créativité; T>1 limite la diversité.

T n'influence pas la génération, c'est une autre paramètre.

T est utilisé uniquement pour la longueur du texte.

Explicação

Une température inférieure à 1 favorise les tokens probables, rendant la texte plus conservateur; une température supérieure à 1 augmente la diversité en rendant la distribution plus équilibrée.

Question 8

8. Quel paramètre limite la sélection aux k tokens les plus probables?

Top-k

Top-p

Repetition Penalty

Seed

Explicação

Top-k limite la sélection des tokens aux k plus probables, ce qui contrôle la diversité du texte généré.

Question 9

9. À quoi sert le paramètre 'seed' dans la génération de texte?

Il permet la reproductibilité des résultats.

Il augmente la créativité du modèle.

Il accélère la génération.

Il limite la longueur du texte.

Explicação

Le 'seed' fixe la graine de nombre aléatoire utilisée lors de la génération, permettant de reproduire exactement le même texte à chaque exécution.

Question 10

10. Quelle méthode est utilisée pour éviter la répétition excessive dans la génération de texte?

Repetition Penalty ou No-Repeat N-gram.

Augmentation de la température.

Tokenisation en sous-mots.

Utilisation de Beam Search.

Explicação

Pour éviter la répétition, on utilise la pénalité de répétition ou la technique No-Repeat N-gram, qui pénalisent ou empêchent la répétition de séquences dans le texte généré.

Quiz: Introduction aux modèles de langage et stratégies de décodage — 10 perguntas

Perguntas e respostas detalhadas

1. Quelle stratégie de décodage consiste à choisir à chaque étape le token le plus probable, de manière rapide et déterministe ?

2. Quelle est la principale caractéristique d’un modèle de langage?

3. Quelle est la principale fonction d'un modèle de langage (LLM) ?

4. Quelle technique de tokenisation est mentionnée pour gérer la rareté des mots?

5. Quel paramètre permet de contrôler la diversité des textes générés en ajustant la distribution de probabilité des tokens, en rendant la sélection plus ou moins conservatrice ?

6. Quelle est la différence principale entre le décodage greedy et le Beam Search?

7. Comment la température (T) influence-t-elle la génération de texte?

8. Quel paramètre limite la sélection aux k tokens les plus probables?

9. À quoi sert le paramètre 'seed' dans la génération de texte?

10. Quelle méthode est utilisée pour éviter la répétition excessive dans la génération de texte?

Revisar com flashcards

Estude a ficha de revisão

Similar courses

Réseaux distribués et cloud

Merise et modélisation des données

Programming Language Paradigms

Programming Language Paradigms

Parcours d’études numériques et commerce

Écosystème de l’esport et médiation numérique

Crie seus próprios quizzes