Scheda di revisione: Introduction aux modèles de langage et enjeux éthiques

📋 Plan du Cours

  1. Apprentissage supervisé : principes et applications
  2. Apprentissage non supervisé : objectifs et algorithmes
  3. Fondements et exemples d’IA générative
  4. Fonctionnement des grands modèles de langage (LLM) et Transformers
  5. Mécanismes clés des Transformers : auto-attention et embeddings
  6. Architecture, types de modèles et processus d’entraînement des LLM
  7. Limites des LLM : hallucinations, biais et manque de compréhension réelle
  8. Biais algorithmiques dans les données d’entraînement et leurs conséquences
  9. Risques liés à l’utilisation de code généré par IA et sécurité informatique
  10. Impacts environnementaux de l’IA générative et consommation énergétique
  11. Défis éthiques et sociétaux de l’IA : vie privée, propriété industrielle et atrophie cognitive
  12. Résumé des blocs de construction des LLM et transfert learning

📖 1. Apprentissage supervisé : principes et applications

🔑 Notions clés & Définitions

  • Fr IA Générative Apprentissage supervisé : Un type d'intelligence artificielle capable de générer du texte, des images, des vidéos ou d'autres médias en réponse à des requêtes, utilisant des modèles pré-entraînés comme les LLM (Large Language Models) basés sur des réseaux de neurones de type Transformer.

📝 Points essentiels

  • L’évaluation en apprentissage supervisé est simple car les prédictions peuvent être comparées aux réponses correctes fournies.
  • La classification est un type d’apprentissage supervisé où la sortie est une classe.
  • La régression est un type d’apprentissage supervisé où la sortie est une valeur continue.
  • • Apprentissage d'une fonction qui associe une entrée à une sortie, sur la base d'exemples de couples entrée- sortie.

💡 À retenir

L’évaluation en apprentissage supervisé est simple car les prédictions peuvent être comparées aux réponses correctes fournies.

📖 2. Apprentissage non supervisé : objectifs et algorithmes

🔑 Notions clés & Définitions

  • Apprentissage non supervisé : Une méthode d'analyse de données qui identifie des motifs et des structures cachées sans utiliser d'étiquettes ou de réponses préalables.
  • Large Langage Model : Capacité à « comprendre » le sens des mots et caractériser une langue de manière très précise (LLM
  • Existe grâce : Le fonctionnement des modèles d'IA générative, comme les LLM, repose sur le mécanisme d'attention, la vectorisation et l'entraînement sur de vastes corpus de données.

📝 Points essentiels

  • L’apprentissage non supervisé vise à identifier des motifs et structures cachées dans les données sans étiquettes.
  • Le clustering regroupe des données similaires selon leurs caractéristiques.
  • Applications typiques de l’apprentissage non supervisé incluent la segmentation client, la détection d’anomalies et la compression d’images.
  • Ø Regrouper des données similaires en fonction de leurs caractéristiques.

💡 À retenir

L’apprentissage non supervisé cherche à extraire des structures intrinsèques des données sans utiliser de réponses préalablement connues.

📖 3. Fondements et exemples d’IA générative

🔑 Notions clés & Définitions

  • IA générative : Système d'intelligence artificielle capable de générer du texte, des images, des vidéos ou d'autres médias en réponse à des requêtes, aussi appelées prompts.

📝 Points essentiels

  • L’IA générative peut produire du texte, des images, vidéos ou autres médias en réponse à des requêtes.
  • Les LLM sont un type d’IA générative appliqué au langage, entraînés sur d’immenses corpus de texte.
  • Le Transformer est l’architecture sous-jacente aux LLM, permettant la prédiction des mots les plus probables dans un contexte.
  • Exemples d’IA générative incluent ChatGPT (texte), DALL·E (images) et MusicLM (musique).
  • • Principaux algorithmes : ØClustering (Regroupement) ØRéduction de Dimensionnalité • Applications : Ø Segmentation client Ø Détection d'anomalies Ø Compression d'images IA Générative IA Générative • L'intelligence artificielle générative ou IA générative (IAg ou GenAI) est un type de système d'intelligence artificielle (IA) capable de générer du texte, des images, des vidéos ou d'autres médias en réponse à des requêtes (aussi appelées invites, ou en anglais prompts) [Wikipedia] • Exemples : ChatGPT (texte), DALL·E (images), et MusicLM (musique).

💡 À retenir

L’IA générative produit du contenu nouveau en s’appuyant sur des modèles statistiques puissants comme les LLM basés sur les Transformers.

📖 4. Fonctionnement des grands modèles de langage (LLM) et Transformers

🔑 Notions clés & Définitions

  • Transformers Amélioration de la qualité de sortie : Architecture de réseau de neurones qui calcule tous les mots d'une phrase simultanément, améliorant la qualité de la sortie par l'attention et la recherche en faisceau.
  • Prompting : Technique permettant au modèle d’apprendre une tâche nouvelle via une consigne ou quelques exemples, exploitant la capacité d’inférence des LLM.

📝 Points essentiels

  • Les LLM sont des modèles de langage de grande taille capables de générer du texte en prédisant le mot suivant dans une séquence.
  • Le prompting permet au modèle d’apprendre une tâche jamais vue via une consigne ou quelques exemples.
  • Le Transformer permet de traiter tous les mots d’une phrase simultanément, contrairement aux réseaux neuronaux récurrents séquentiels.

💡 À retenir

Les LLM exploitent la puissance des Transformers pour générer du texte contextuel et s’adapter à de nouvelles tâches via le prompting.

📖 5. Mécanismes clés des Transformers : auto-attention et embeddings

🔑 Notions clés & Définitions

  • Auto-attention : Mécanisme qui analyse la relation entre chaque mot d'une phrase et leur importance relative pour comprendre le contexte global, permettant une évaluation simultanée de tous les mots dans la phrase.
  • Existe grâce aux Transformers : Les Transformers permettent le calcul simultané de tous les mots d'une phrase, facilitant une compréhension contextuelle avancée pour la génération de texte.

📝 Points essentiels

  • Le Transformer calcule l’ensemble des mots simultanément, permettant une évaluation globale de la phrase.
  • Le word embedding représente chaque mot par un vecteur numérique dont chaque coordonnée correspond à une signification latente.
  • Les embeddings permettent de mesurer la proximité sémantique entre mots dans différents contextes.
  • L’auto-attention permet aux LLM de prendre en compte le contexte au-delà des limites d’une phrase.

💡 À retenir

L’auto-attention permet aux LLM de prendre en compte le contexte au-delà des limites d’une phrase.

📖 6. Architecture, types de modèles et processus d’entraînement des LLM

🔑 Notions clés & Définitions

  • Hallucination : Phénomène où un modèle génératif produit des informations fausses ou inventées, résultant de sa nature statistique de prédiction du mot suivant sans vérification de la véracité.
  • Modèles autorégressifs : Architecture de modèles qui génèrent du texte en prédisant chaque mot successivement à partir du contexte précédent, utilisée notamment dans GPT.
  • Modèles bidirectionnels : Architecture de modèles qui analysent simultanément le contexte à gauche et à droite d’un mot pour des tâches de compréhension, comme BERT.
  • Modèles séquence-à-séquence : Architecture combinant un encodeur et un décodeur pour traiter des tâches de transformation de séquences, telles que la traduction ou le résumé, illustrée par T5 et BART.
  • Pré-entraînement : Phase initiale d’entraînement des modèles sur de larges corpus visant à encoder les propriétés statistiques du langage dans les paramètres du modèle.

📝 Points essentiels

  • Les modèles séquence-à-séquence (ex : T5, BART) combinent encodeur et décodeur pour des tâches comme la traduction.
  • L’entraînement des LLM comprend une phase de pré-entraînement sur de larges corpus, suivie d’un fine-tuning pour adapter le modèle à des tâches spécifiques.
  • Le fine-tuning contextuel permet d’améliorer la pertinence des réponses dans un domaine donné.
  • • Modèles plus puissants • Coûts élevés en calcul et donc en énergie Résumé : Comment fonctionne ChatGPT de la requête à la réponse En conclusion • Un LLM est basé sur une génération statistique • MAIS : • Il donne l’illusion de la compréhension • Il peut donc avoir des hallucinations et inventer des réponses • DONC : • Il faut toujours vérifier les résultats par des sources fiables Limites et défis de l’IAG Un LLM a une connaissance staPsPque des mots et en fait c’est un problème • Prédiction du mot suivant • Peu de communication sur les données utilisées pour l'entrainement à La véracité est difficile à établir.
  • • Entraînement des modèles NLP : 1.

💡 À retenir

La diversité architecturale des LLM, incluant autorégressifs, bidirectionnels et séquence-à-séquence, repose sur des phases d’entraînement pour leur spécialisation et performance.

📖 7. Limites des LLM : hallucinations, biais et manque de compréhension réelle

🔑 Notions clés & Définitions

  • Hallucination : Génération d’informations factuellement fausses par un modèle de langage, présentées de manière convaincante et argumentée.
  • Alignement : Processus visant à faire correspondre les sorties des modèles de langage aux attentes humaines afin de réduire les erreurs et les biais.
  • **Manque de compréhension réelle
  • Coûts** : Caractéristique des modèles de langage qui, malgré leur apparente puissance, ne possèdent pas une compréhension profonde mais se basent uniquement sur des régularités statistiques dans les données.

📝 Points essentiels

  • Les hallucinations correspondent à la génération d’informations factuellement fausses mais présentées de manière convaincante.
  • Les LLM donnent une illusion de compréhension alors qu’ils reposent sur des régularités statistiques dans les données d’entraînement.
  • Les modèles peuvent reproduire et amplifier les biais présents dans leurs données d’entraînement.
  • L’alignement vise à faire correspondre les sorties des LLM aux attentes humaines pour réduire erreurs et biais.
  • La connaissance des LLM est statique et limitée aux données d’entraînement, sans accès aux informations récentes.
  • • Modèles plus puissants • Coûts élevés en calcul et donc en énergie Résumé : Comment fonctionne ChatGPT de la requête à la réponse En conclusion • Un LLM est basé sur une génération statistique • MAIS : • Il donne l’illusion de la compréhension • Il peut donc avoir des hallucinations et inventer des réponses • DONC : • Il faut toujours vérifier les résultats par des sources fiables Limites et défis de l’IAG Un LLM a une connaissance staPsPque des mots et en fait c’est un problème • Prédiction du mot suivant • Peu de communication sur les données utilisées pour l'entrainement à La véracité est difficile à établir.
  • • LLM = Régularité textuelle présent dans les données d’entrainement • Reproduction des biais • Problème d’accessibilité : Acteurs privés qui décident de leur utilisation et de leur distribution à Les sorties doivent donc être prises avec du recul Limites et faiblesses • Problème de biais dans les données.

💡 À retenir

Malgré leur puissance, les LLM ont des limites fondamentales liées à leur nature statistique, aux biais des données et à leur manque de compréhension réelle.

📖 8. Biais algorithmiques dans les données d’entraînement et leurs conséquences

🔑 Notions clés & Définitions

  • Classes de catégories : Catégories utilisées pour classer les données dans les bases d’entraînement, pouvant inclure des labels offensants, discriminants ou obsolètes.
  • À Conséquence : Effet des biais dans les données d’entraînement qui peut amplifier les stéréotypes, entraîner des erreurs et renforcer les inégalités dans les décisions automatisées.

📝 Points essentiels

  • Les biais de sélection proviennent d’une composition non représentative des bases de données d’entraînement, comme ImageNet étant majoritairement occidentale.
  • Les biais d’annotation résultent des stéréotypes culturels introduits par les annotateurs humains lors du crowdsourcing.
  • Les biais de catégories concernent l’utilisation de labels offensants, discriminants ou obsolètes dans les bases de données.

💡 À retenir

Les biais dans les données d’entraînement sont une source majeure d’injustice algorithmique et nécessitent une gestion proactive.

📖 9. Risques liés à l’utilisation de code généré par IA et sécurité informatique

🔑 Notions clés & Définitions

  • Un test a été effectué : Une expérimentation réalisée en posant 400 questions à ChatGPT, révélant qu'environ 100 réponses contenaient des références à au moins un package Python ou Node.js inexistant.
  • Problème : = installation d’un programme malveillant baptisé JarkaStealer à Supprimé depuis du pool d’API de PyPI Source : https://korben.
  • De catégories : Labels utilisés pour classer des données, qui peuvent parfois être offensants, discriminants ou obsolètes, comme dans certains jeux de données d’images.
  • Packages Python malicieux : Des bibliothèques Python créées par des hackers, portant le même nom que des packages recommandés par l’IA, et contenant des programmes malveillants pouvant infecter les machines.

📝 Points essentiels

  • Le code généré par LLM peut contenir des références à des packages Python ou Node.js inexistants ou malveillants.
  • Des hackers peuvent créer des packages malicieux portant le même nom que ceux recommandés par l’IA, infectant ainsi les machines.
  • Des packages malveillants ont été détectés sur PyPI se faisant passer pour des API officielles d’IA générative, installant des malwares.
  • Il est recommandé de traiter tout code généré par IA comme potentiellement vulnérable et de le vérifier manuellement ou par des pairs.
  • L’utilisation non contrôlée du code généré par IA peut entraîner des risques de sécurité informatique importants.
  • • Production de code potentiellement dangereux.

💡 À retenir

Le code généré par LLM peut contenir des références à des packages Python ou Node.js inexistants ou malveillants.

📖 10. Impacts environnementaux de l’IA générative et consommation énergétique

🔑 Notions clés & Définitions

  • Consommation IA Générative : La quantité d'énergie électrique utilisée par les phases d'entraînement et d'inférence des modèles d'intelligence artificielle générative.

📝 Points essentiels

  • L’inférence (utilisation) des modèles d’IA générative consomme 60-70% de l’énergie totale, plus que l’entraînement (20-40%).
  • Une requête ChatGPT consomme environ 3 Wh, soit dix fois plus qu’une recherche Google traditionnelle.
  • La consommation électrique mondiale des data centers IA représente environ 2% de la consommation électrique globale en 2022.
  • L’empreinte carbone totale inclut aussi la consommation des terminaux utilisateurs, pouvant représenter jusqu’à 45% de l’empreinte.
  • L’entraînement de certains modèles comme BLOOM émet des dizaines de tonnes de gaz à effet de serre, équivalent à plusieurs années d’émissions d’un individu.
  • IA généraPve : le risque de l’atrophie cogniPve
  • Etude du MIT
  • Comment l’étude a été menée
  • 54 participants (18–39 ans)
  • Rédaction de 3 textes argumentatifs
  • 3 groupes :
  • Sans technologie
  • Avec Google (sans IA)
  • Avec ChatGPT
  • Mesure par électroencéphalogramme (EEG) Baisse de l’activité cérébrale avec ChatGPT Activité neuronale significativement plus faible 83 % incapables de se souvenir de leur texte Textes très similaires et peu originaux Développement durable – Impact carbone du numérique et des IA ODG Consommation IA Générative IA : phase d’entrainement + phase d’inférence, qu’est ce qui consomme le plus d’électricité d’après vous ?
  • • Une requête ChatGPT consomme environ 3 Wh contre 0,3 Wh pour une recherche Google traditionnelle [IAE] • Estimation d’une hausse de 29,3 TWh par an, autant que la consommation électrique de l’Irlande [The growing energy footprint of artificial intelligent, Alex de Vries, 2023] Réf: https://www.

💡 À retenir

L’impact énergétique et environnemental de l’IA générative est complexe et majeur, avec une consommation importante non seulement lors de l’entraînement mais surtout lors de l’inférence, ainsi qu’une empreinte carbone significative liée aux terminaux utilisateurs.

📖 11. Défis éthiques et sociétaux de l’IA : vie privée, propriété industrielle et atrophie cognitive

🔑 Notions clés & Définitions

  • Propriété industrielle : Ensemble des droits protégeant les innovations et créations d’une entreprise, justifiant des restrictions sur l’usage d’IA générative externe pour éviter la divulgation d’informations sensibles.
  • **En ligne »
  • Solution 2** : Utilisation de LLM interne à l’entreprise;
  • Outils d'« IA générative : Les flux de travail.

📝 Points essentiels

  • L’utilisation d’IA générative peut entraîner une baisse de l’activité cérébrale et une diminution de la mémorisation, comme montré par une étude du MIT où l’activité neuronale était significativement plus faible avec ChatGPT.
  • Le partage de données sensibles sur des LLM accessibles en ligne pose des risques pour la vie privée et la confidentialité, illustré par le cas d’un code source interne sensible de Samsung chargé sur ChatGPT.
  • Certaines entreprises interdisent l’usage d’IA générative externe pour protéger leur propriété industrielle, recommandant l’utilisation de LLM internes à l’entreprise.
  • L’intégration d’IA générative dans les flux de travail nécessite des mesures pour préserver la confidentialité et la sécurité des données, notamment en évitant de mettre des données personnelles ou sensibles sur des serveurs en ligne.
  • Les défis éthiques incluent la responsabilité, la transparence et l’impact social des technologies IA, en plus des enjeux de vie privée et de propriété industrielle.

💡 À retenir

Les enjeux éthiques majeurs liés à l’usage de l’IA générative concernent la cognition, la confidentialité et la propriété industrielle, avec des risques pour la mémoire, la sécurité des données et la protection des innovations.

📖 12. Résumé des blocs de construction des LLM et transfert learning

🔑 Notions clés & Définitions

  • Tokenisation : Processus consistant à représenter un mot ou un fragment de mot par un nombre ou un jeton, permettant à l’IA de traiter le langage naturel.
  • Transfer learning : Méthode qui utilise un modèle pré-entraîné pour l’adapter à des tâches spécifiques via un processus de fine-tuning, optimisant l’apprentissage.

📝 Points essentiels

  • La tokenisation consiste à représenter un mot ou un fragment par un nombre, permettant au modèle de traiter le langage sous forme numérique.
  • Le transfer learning permet d’utiliser un modèle déjà entraîné et de l’adapter à des tâches spécifiques par fine-tuning, évitant un entraînement complet.
  • Le positional encoding ajoute une information de position aux embeddings pour que le modèle prenne en compte l’ordre des mots dans une séquence.
  • Les blocs de construction des LLM incluent la tokenisation, les embeddings, l’attention et le pré-entraînement, qui encode les propriétés statistiques du langage dans les paramètres.
  • Le pré-entraînement encode dans les paramètres du modèle les propriétés statistiques du langage, permettant une compréhension générale avant l’adaptation à des tâches spécifiques.

💡 À retenir

Les composants fondamentaux des LLM, tels que la tokenisation, les embeddings, l’attention et le pré-entraînement, leur permettent de traiter et générer efficacement du langage naturel.

🧩 Compléments de couverture

  1. Détail source à réviser : à l’IA Plassart Stéphan [email protected] IA Générative Apprentissage supervisé : • Les réponses correctes sont fournies. • L’objectif est de trouver un modèle capable de prédire ces réponses à partir des données d’ (Source: "à l’IA Plassart Stéphan [email protected] IA Générative Apprentissage supervisé : • Les réponses correctes sont fournies. • L’objectif est de trouver un modèle capable de prédire ces réponses à partir des données d’entrée. • L’évaluation est simple, car les prédictions peuvent être comparées aux réponses correctes. • Apprentissage d'une")
  2. Détail source à réviser : • Apprentissage d'une fonction qui associe une entrée à une sortie, sur la base d'exemples de couples entrée- sortie. • Classification : la sortie de la fonction est une classe. • Régression : la sortie de la fonction es (Source: "• Apprentissage d'une fonction qui associe une entrée à une sortie, sur la base d'exemples de couples entrée- sortie. • Classification : la sortie de la fonction est une classe. • Régression : la sortie de la fonction est une valeur continue. • Soit un ensemble de N exemples d’entrainement : {(#! , %! ) ∈ ( × * ⊂ ℝ" ×ℝ}!#$,…,' , on cherche la")
  3. Détail source à réviser : La supervision provient de la connaissance du label Apprentissage Non supervisé Source: hps://knowmap.org/ L’apprentissage non supervisé (1/2) à Exemples ? L’apprentissage non supervisé (2/2) • Objectifs: Ø Identifier d _(Source: "La supervision provient de la connaissance du label Apprentissage Non supervisé Source: hps://knowmap.org/ L’apprentissage non supervisé (1/2) à Exemples ? L’apprentissage non supervisé (2/2) • Objectifs: Ø Identifier des motifs et des structures cachées dans les données. Ø Regrouper des données similaires en fonction de leurs caractéristiques. Ø Réduire")_
  4. Détail source à réviser : ou en anglais prompts) [Wikipedia] • Exemples : ChatGPT (texte), DALL·E (images), et MusicLM (musique). • Les LLM (Large Language Models) à génération de texte. • Réseau de neurones de type Transformer • Entraînés sur d’ (Source: "ou en anglais prompts) [Wikipedia] • Exemples : ChatGPT (texte), DALL·E (images), et MusicLM (musique). • Les LLM (Large Language Models) à génération de texte. • Réseau de neurones de type Transformer • Entraînés sur d’immenses corpus de texte • Prédiction des mots les plus probables avec le contexte • les LLM sont un type d’IA générative appliqué au")
  5. Détail source à réviser : ») et « GPT » (qui est le nom du modèle d’IA u]lisé). GPT lui-même signifie Genera&ve Pre-trained Transformer. • Une IA généraFve est conçue pour produire du contenu • Une IA pré-entraînée a déjà suivi un entraînement in (Source: "») et « GPT » (qui est le nom du modèle d’IA u]lisé). GPT lui-même signifie Genera&ve Pre-trained Transformer. • Une IA généraFve est conçue pour produire du contenu • Une IA pré-entraînée a déjà suivi un entraînement intensif. • Le terme Transformer désigne l’algorithme de base de GPT. Vient de l’ar]cle de recherche suivant de Google: « Aden]on")
  6. Détail source à réviser : de l’IA Modèles de language Source: https://knowmap.org/ Dans le Deep Learning, on s’intéresse au traitement automatique de langage naturel Source: https://ig.ft.com/generative-ai/ En détail, un LLM comment ça fonctionne (Source: "de l’IA Modèles de language Source: https://knowmap.org/ Dans le Deep Learning, on s’intéresse au traitement automatique de langage naturel Source: https://ig.ft.com/generative-ai/ En détail, un LLM comment ça fonctionne ? IA générative (IAG) • Sor]es de l’IA non-généra]ve ? • Sor]es de l’IA généra]ves ? • IAG = 1. Capacité à « comprendre » le sens des")
  7. Détail source à réviser : = Large Langage Model) 2. Capacité à générer des données, et non plus seulement à les classer, classifier... • Entraînement des modèles NLP : 1. Données d’entraînement 2. Nombre de paramètres du modèle ü Modèles petits + (Source: "= Large Langage Model) 2. Capacité à générer des données, et non plus seulement à les classer, classifier... • Entraînement des modèles NLP : 1. Données d’entraînement 2. Nombre de paramètres du modèle ü Modèles petits + peu de données : Bonne maîtrise de la grammaire et du vocabulaire, mais compréhension limitée du sens. ü Modèles géants + gros corpus")
  8. Détail source à réviser : des tâches complexes. LLM - Large Langage Model • Inférence (utilisation) • Prompting : Le modèle peut apprendre une tâche jamais vue via une consigne ou quelques exemples. L’IAG existe grâce au Transformer, au mécanisme (Source: "des tâches complexes. LLM - Large Langage Model • Inférence (utilisation) • Prompting : Le modèle peut apprendre une tâche jamais vue via une consigne ou quelques exemples. L’IAG existe grâce au Transformer, au mécanisme d’attention et à la vectorisation L’IA généraPve existe grâce aux Transformers Etape 1: Traduction dans une langue de référence Nous")
  9. Détail source à réviser : 2: Division en jetons (tokens) Nous allons travailler en train https://platform.openai.com /tokenizer L’IA générative existe grâce aux Transformers Etape 3: Analyse du contexte, analyse des mots proches. Etape 4: Proximi (Source: "2: Division en jetons (tokens) Nous allons travailler en train https://platform.openai.com /tokenizer L’IA générative existe grâce aux Transformers Etape 3: Analyse du contexte, analyse des mots proches. Etape 4: Proximité du mot « travail » dans les données d'apprentissage ensembletravailler avectravailler étudianttravailler saladetravailler Commencez")
  10. Détail source à réviser : travailler travailler Etape 5: Word Embedding Word embedding • Une coordonnée du vecteur = une signification d'un mot • Pas de compréhension spécifique des coordonnées du vecteur • Mais compréhension globale du vecteur L (Source: "travailler travailler Etape 5: Word Embedding Word embedding • Une coordonnée du vecteur = une signification d'un mot • Pas de compréhension spécifique des coordonnées du vecteur • Mais compréhension globale du vecteur L’IA générative existe grâce aux Transformers • Contextes différents mais embeddings proche • Notion de distances entre les mots à")
  11. Détail source à réviser : : Analyse la relation entre les mots et leur importance Avant les Transformers, les réseaux neuronaux récurrents (RNN) analysait uniquement de manière séquentielle. Le Transformer calcule tous les mots d'une phrase en mê (Source: ": Analyse la relation entre les mots et leur importance Avant les Transformers, les réseaux neuronaux récurrents (RNN) analysait uniquement de manière séquentielle. Le Transformer calcule tous les mots d'une phrase en même temps. Transformers Evaluation de l'ensemble de la phrase en une seule fois ! J’aime bien les chocolats au lait J’ ai")
  12. Détail source à réviser : via l'attention Transformers Cette fonctionnalité est cruciale pour la génération de textes avancés. Avec l'auto-attention le mot « énormément » est ignoré ! énormément Transformers Pas uniquement les mots à significaTon (Source: "via l'attention Transformers Cette fonctionnalité est cruciale pour la génération de textes avancés. Avec l'auto-attention le mot « énormément » est ignoré ! énormément Transformers Pas uniquement les mots à significaTons mulTples Et si nous modifions la phrase, en remplaçant "affamé" par "délicieux", le modèle est en mesure de recalculer, et il est")
  13. Détail source à réviser : permet aux LLM de prendre en compte le contexte au-delà des limites de la phrase. Transformers Création d’un bloc de données compris par la machine. Prédiction du mot suivant. Utilisation d’un score de probabilité. Trans (Source: "permet aux LLM de prendre en compte le contexte au-delà des limites de la phrase. Transformers Création d’un bloc de données compris par la machine. Prédiction du mot suivant. Utilisation d’un score de probabilité. Transformers Prédiction du mot suivant. Utilisation d’un score de probabilité. Il continue à le faire jusqu'à ce qu'il soit satisfait")
  14. Détail source à réviser : individuellement peut être le mieux adapté, la phrase complète peut s'avérer moins pertinente. Ce n'est pas nécessairement toujours faux, mais ce n'est peut-être pas ce à quoi on s'attendrait non plus. Transformers Améli (Source: "individuellement peut être le mieux adapté, la phrase complète peut s'avérer moins pertinente. Ce n'est pas nécessairement toujours faux, mais ce n'est peut-être pas ce à quoi on s'attendrait non plus. Transformers Amélioration de la qualité de sortie : • la recherche en faisceau. à texte plus cohérent et plus proche de l'homme. Le modèle est capable")
  15. Détail source à réviser : Plutôt que de se concentrer uniquement sur le mot suivant d'une séquence, elle examine la probabilité d'un ensemble plus large de jetons dans son ensemble. Architecture principale : Les Transformers • Transformers • Les (Source: "Plutôt que de se concentrer uniquement sur le mot suivant d'une séquence, elle examine la probabilité d'un ensemble plus large de jetons dans son ensemble. Architecture principale : Les Transformers • Transformers • Les modèles Transformers peuvent être composés : • D'un encodeur seul pour les tâches de compréhension. • D'un décoder seul pour la")
  16. Détail source à réviser : la traduction ou le résumé. Types de modèles courants utilisés dans les LLM • Modèles autorégressifs (comme GPT, GPT-3, GPT-4) • Modèles bidirectionnels (comme BERT, RoBERTa) • Modèles séquence-à-séquence (seq2seq) (comm (Source: "la traduction ou le résumé. Types de modèles courants utilisés dans les LLM • Modèles autorégressifs (comme GPT, GPT-3, GPT-4) • Modèles bidirectionnels (comme BERT, RoBERTa) • Modèles séquence-à-séquence (seq2seq) (comme T5, BART) Formation des LLM 1. Pré-entraînement 2. Fine-tuning 3. Apprentissage par renforcement Techniques avancées uPlisées dans les")
  17. Détail source à réviser : chat → [0.21, 0.88, 0.15] chien → [0.25, 0.85, 0.18] voiture → [0.90, 0.10, 0.70] Phrase 1 : "Le chat mange la souris" Phrase 2 : "La souris mange le chat" chat (pos 2) → [0.22, 0.90, 0.18] chat (pos 5) → [0.26, 0.94, 0. (Source: "chat → [0.21, 0.88, 0.15] chien → [0.25, 0.85, 0.18] voiture → [0.90, 0.10, 0.70] Phrase 1 : "Le chat mange la souris" Phrase 2 : "La souris mange le chat" chat (pos 2) → [0.22, 0.90, 0.18] chat (pos 5) → [0.26, 0.94, 0.22] "Il a commandé un Java" → réponse bizarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" →")
  18. Détail source à réviser : the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Jingfeng Yang and al., ACM Trans. Knowl. Discov. Data journal Des modèles d’IAG open-source Measuring Massive Multitask Language Understanding (MMLU) est un (Source: "the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Jingfeng Yang and al., ACM Trans. Knowl. Discov. Data journal Des modèles d’IAG open-source Measuring Massive Multitask Language Understanding (MMLU) est un test de performance pour évaluer les capacités des grands modèles de langage. Les outils existants • GPT 1 : Decodeur, 12 couches,")
  19. Détail source à réviser : • BERT : Encodeur, 12 couches, 768 dimensions, 340M de paramètres, dataset: BookCorpus (3GB), English Wikipedia (9GB) • GPT 2: Decodeur, 12 couches, 768 dimensions, 124M de paramètres, dataset: BookCorpus (3GB), WebText (Source: "• BERT : Encodeur, 12 couches, 768 dimensions, 340M de paramètres, dataset: BookCorpus (3GB), English Wikipedia (9GB) • GPT 2: Decodeur, 12 couches, 768 dimensions, 124M de paramètres, dataset: BookCorpus (3GB), WebText (40GB) Yannis Bend-Ouis, Inria • GPT-Neo : Decodeur, 32 couches, 2560 dimensions, 125M, 1.3B, 2.7B de paramètres; The Pile (800GB) •")
  20. Détail source à réviser : The Pile (800GB) • GPT 4 : Decodeur, 1800B de paramètres, Mixture of Expert 8220B • Mistral : Decodeur, 32 couches, 4096 dimensions, 7B de paramètres • Mixtral : Decodeur, 32 couches, 4096 dimensions, 49B de paramètres, _(Source: "The Pile (800GB) • GPT 4 : Decodeur, 1800B de paramètres, Mixture of Expert 8220B • Mistral : Decodeur, 32 couches, 4096 dimensions, 7B de paramètres • Mixtral : Decodeur, 32 couches, 4096 dimensions, 49B de paramètres, Mixture of Expert 8*7B Résumé : Les blocs de constructions 1) Tokenisation : un mot représenter par un nombre 2) Embedding :")_
  21. Détail source à réviser : LLMs • Transfer learning : utiliser un modèle préalablement entraîné et s’adapte à des taches spécifiques. • Attention : le modèle se concentre sur les éléments importants d'une séquence • Pré-entraînement : Encode les p (Source: "LLMs • Transfer learning : utiliser un modèle préalablement entraîné et s’adapte à des taches spécifiques. • Attention : le modèle se concentre sur les éléments importants d'une séquence • Pré-entraînement : Encode les propriétés statistiques du langage dans les paramètres du modèle. Résumé LLM : Large Langage Model ChatGPT ChatGPT Chaque année les tailles")
  22. Détail source à réviser : : souvent mul9pliée par 10 tous les deux ans. • Modèles plus puissants • Coûts élevés en calcul et donc en énergie Résumé : Comment fonctionne ChatGPT de la requête à la réponse En conclusion • Un LLM est basé sur une gé (Source: ": souvent mul9pliée par 10 tous les deux ans. • Modèles plus puissants • Coûts élevés en calcul et donc en énergie Résumé : Comment fonctionne ChatGPT de la requête à la réponse En conclusion • Un LLM est basé sur une génération statistique • MAIS : • Il donne l’illusion de la compréhension • Il peut donc avoir des hallucinations et inventer des")
  23. Détail source à réviser : sources fiables Limites et défis de l’IAG Un LLM a une connaissance staPsPque des mots et en fait c’est un problème • Prédiction du mot suivant • Peu de communication sur les données utilisées pour l'entrainement à La vé (Source: "sources fiables Limites et défis de l’IAG Un LLM a une connaissance staPsPque des mots et en fait c’est un problème • Prédiction du mot suivant • Peu de communication sur les données utilisées pour l'entrainement à La véracité est difficile à établir. • Hallucination = invente des faits de toutes pièces Limites des LLMs • Hallucinations : à crée de")
  24. Détail source à réviser : les données d’entrainement • Reproduction des biais • Problème d’accessibilité : Acteurs privés qui décident de leur utilisation et de leur distribution à Les sorties doivent donc être prises avec du recul Limites et fai (Source: "les données d’entrainement • Reproduction des biais • Problème d’accessibilité : Acteurs privés qui décident de leur utilisation et de leur distribution à Les sorties doivent donc être prises avec du recul Limites et faiblesses • Problème de biais dans les données. • Alignement : aligner les LLM avec les attentes des humains. • Connaissance statique, peu")
  25. Détail source à réviser : sources. • Quantité de données nécessaires, nombre de donnés et espace de calcul. Nombre de mots vus par un enfant de 13 ans en comparaison des LLM, 10k fois moins que chinchilla par ex. Hallucinations • Génère des infor (Source: "sources. • Quantité de données nécessaires, nombre de donnés et espace de calcul. Nombre de mots vus par un enfant de 13 ans en comparaison des LLM, 10k fois moins que chinchilla par ex. Hallucinations • Génère des informations factuellement. • Présenté de manière convaincante, argumentée et justifiée. • Apparition au milieu d'un texte contenant des données")
  26. Détail source à réviser : Source : https://www.bbc.com/news/technology-65202597 Hallucination Hallucination Hallucination Pourquoi des hallucinaRons ? • Absence de connaissances spécifiques ou contexte limité • Données d’entrainement datées ou de (Source: "Source : https://www.bbc.com/news/technology-65202597 Hallucination Hallucination Hallucination Pourquoi des hallucinaRons ? • Absence de connaissances spécifiques ou contexte limité • Données d’entrainement datées ou de faible qualité • Surapprentissage ou « overfitting » Limites • Biais des modèles • Qualité variable • Dépendance aux données • Manque de")
  27. Détail source à réviser : des algorithmes d’IA Exemple 1 : ImageNet – Qu'est-ce que c'est ? • Une des bases de données d’images les plus utilisées pour entraîner des modèles de reconnaissance visuelle. • Contient plus de 14 millions d’images clas (Source: "des algorithmes d’IA Exemple 1 : ImageNet – Qu'est-ce que c'est ? • Une des bases de données d’images les plus utilisées pour entraîner des modèles de reconnaissance visuelle. • Contient plus de 14 millions d’images classées en 20 000 catégories. Problème potentiel : Les données sont issues du web, avec des biais culturels et sociaux présents dans les")
  28. Détail source à réviser : et impartial ? Représentativité des données Partie 1/2 Représentativité des données Partie 2/2 Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Nature 559, 324-326 (2018) Biais 1 : sélect (Source: "et impartial ? Représentativité des données Partie 1/2 Représentativité des données Partie 2/2 Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Nature 559, 324-326 (2018) Biais 1 : sélection des images Exemples : 1. Taux d'erreur élevé pour les visages non caucasiens. 2. Certains systèmes de reconnaissance faciale")
  29. Détail source à réviser : 65% de précision les femmes noires. • Sélection des images (composition de la BD) : majoritairement occidentales, biais de représentation • Etude « Gender Shades: Intersectional Accuracy Disparities in Commercial Gender (Source: "65% de précision les femmes noires. • Sélection des images (composition de la BD) : majoritairement occidentales, biais de représentation • Etude « Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification », de Joy Buolamwini et Timnit Gebru (2018) à Conséquences : Renforce des stéréotypes ou des inégalités. Biais 2 :")
  30. Détail source à réviser : humains) : introduit des stéréotypes culturels. • Les annotations des images sont souvent réalisées par des travailleurs du "crowdsourcing" (Amazon Mechanical Turk, etc.), qui peuvent involontairement projeter leurs prop (Source: "humains) : introduit des stéréotypes culturels. • Les annotations des images sont souvent réalisées par des travailleurs du "crowdsourcing" (Amazon Mechanical Turk, etc.), qui peuvent involontairement projeter leurs propres stéréotypes culturels et sociaux dans leurs descriptions. à Conséquence : Reproduction des stéréotypes dans les")
  31. Détail source à réviser : on People Image », Jahna Otterbacher (2018) Biais 3 : classes de catégories choisies Conséquences : L'utilisation de ces catégories peut déshumaniser ou stigmatiser des individus, et limiter la capacité des modèles d'IA (Source: "on People Image », Jahna Otterbacher (2018) Biais 3 : classes de catégories choisies Conséquences : L'utilisation de ces catégories peut déshumaniser ou stigmatiser des individus, et limiter la capacité des modèles d'IA à comprendre la diversité et la complexité des situations humaines. • Classes de catégories : certains labels peuvent être")
  32. Détail source à réviser : classent les images en milliers de catégories, mais certaines d’entre elles peuvent être inappropriées, obsolètes ou discriminatoires Étude de Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fai (Source: "classent les images en milliers de catégories, mais certaines d’entre elles peuvent être inappropriées, obsolètes ou discriminatoires Étude de Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Nature 559, 324-326 (2018) • Les algorithmes entraînés sur ImageNet reproduisent et amplifient les biais sexistes et racistes • Par")
  33. Détail source à réviser : souvent des métiers techniques aux hommes et des métiers liés au soin aux femmes. à Conséquence : Perpétuation des inégalités dans les décisions automatisées. Autre exemple : Google Photos a été critiqué pour des classif (Source: "souvent des métiers techniques aux hommes et des métiers liés au soin aux femmes. à Conséquence : Perpétuation des inégalités dans les décisions automatisées. Autre exemple : Google Photos a été critiqué pour des classifications racistes involontaires dues à des biais dans ses données d’entraînement. Références : •")
  34. Détail source à réviser : e-mit-coupe-le-dataset-entrainant-une-ia- devenue-raciste-et-offensante-79628.html • https://www.arcsi.fr/doc/algorithmes-controle-des-biais-svp.pdf Biais : conséquence et évitement Conséquences des biais algorithmiques (Source: "e-mit-coupe-le-dataset-entrainant-une-ia- devenue-raciste-et-offensante-79628.html • https://www.arcsi.fr/doc/algorithmes-controle-des-biais-svp.pdf Biais : conséquence et évitement Conséquences des biais algorithmiques • Effet d’amplification • Perte de fiabilité • Erreurs graves dans la prise de décision automatisée Comment réduire ces biais ? • Améliorer")
  35. Détail source à réviser : • Créer des algorithmes "fair AI" • Auditer régulièrement les modèles pour détecter et corriger les biais. AenPon pour les développeurs ! • Pas infaillible ! • Production de code potentiellement dangereux. • Création de _(Source: "• Créer des algorithmes "fair AI" • Auditer régulièrement les modèles pour détecter et corriger les biais. AenPon pour les développeurs ! • Pas infaillible ! • Production de code potentiellement dangereux. • Création de segments de code individuels qui n'ont pas d'objectif malveillant en soi, mais qui agissent comme des logiciels malveillants")_
  36. Détail source à réviser : d’attaques • Utilise des bibliothèques de code Python qui n'existent pas actuellement. • Un test a été effectué: Pour 400 questions posées à ChatGPT et environ 100 de ses réponses contenaient des références à au moins un (Source: "d’attaques • Utilise des bibliothèques de code Python qui n'existent pas actuellement. • Un test a été effectué: Pour 400 questions posées à ChatGPT et environ 100 de ses réponses contenaient des références à au moins un paquetage Python ou Node.js qui n'existe pas en réalité. à ChatGPT mentionnaient plus de 150 paquets inexistants, avec plus de 25% de")
  37. Détail source à réviser : recommande des packages python qui n’existent pas ou plus Un hackeur crée un package malicieux avec ce nom Les développeurs importent le package avec le nom recommandé par le LLM Machine infectée Attention malware : util (Source: "recommande des packages python qui n’existent pas ou plus Un hackeur crée un package malicieux avec ce nom Les développeurs importent le package avec le nom recommandé par le LLM Machine infectée Attention malware : utilisation d’API gratuite python (sur PyPI) • Deux packages Python se sont fait passer pour des API officielles de ChatGPT et Claude sur le")
  38. Détail source à réviser : baptisé JarkaStealer à Supprimé depuis du pool d’API de PyPI Source : https://korben.info/malware-fausses-api-chatgpt-claude- piratage-developpeurs.html, 25/11/2024 Préventions • Traitez tout le code généré par ChatGPT c (Source: "baptisé JarkaStealer à Supprimé depuis du pool d’API de PyPI Source : https://korben.info/malware-fausses-api-chatgpt-claude- piratage-developpeurs.html, 25/11/2024 Préventions • Traitez tout le code généré par ChatGPT comme s'il contenait des vulnérabilités • Complétez votre utilisation de ChatGPT par un codage manuel. • Analyse du code par des")
  39. Détail source à réviser : sécurité. IA et vie privé ou propriété industrielle • Un code source interne sensible de Samsung a été chargé sur ChatGPT. • Samsung à a interdit l'utilisation d'outils d'« IA générative » non développé en interne. • Sol (Source: "sécurité. IA et vie privé ou propriété industrielle • Un code source interne sensible de Samsung a été chargé sur ChatGPT. • Samsung à a interdit l'utilisation d'outils d'« IA générative » non développé en interne. • Solution 1: Ne pas mettre de données personnelles ou d’entreprise sur un LLM « libre accès en ligne » • Solution 2: utilisation de LLM interne")
  40. Détail source à réviser : les flux de travail. IA généraPve : le risque de l’atrophie cogniPve • Etude du MIT • Comment l’étude a été menée • 54 participants (18–39 ans) • Rédaction de 3 textes argumentatifs • 3 groupes : • Sans technologie • Ave (Source: "les flux de travail. IA généraPve : le risque de l’atrophie cogniPve • Etude du MIT • Comment l’étude a été menée • 54 participants (18–39 ans) • Rédaction de 3 textes argumentatifs • 3 groupes : • Sans technologie • Avec Google (sans IA) • Avec ChatGPT • Mesure par électroencéphalogramme (EEG) Baisse de l’activité cérébrale avec ChatGPT Activité neuronale")
  41. Détail source à réviser : de leur texte Textes très similaires et peu originaux Développement durable – Impact carbone du numérique et des IA ODG Consommation IA Générative IA : phase d’entrainement + phase d’inférence, qu’est ce qui consomme le (Source: "de leur texte Textes très similaires et peu originaux Développement durable – Impact carbone du numérique et des IA ODG Consommation IA Générative IA : phase d’entrainement + phase d’inférence, qu’est ce qui consomme le plus d’électricité d’après vous ? • D’après l’International Energy Agency (IEA), avec des modèles comme ChatGPT : • 60-70% du coût")
  42. Détail source à réviser : • Ainsi, si toutes les recherches Google – 9 milliards chaque jour (plus de 100k à la s !) – s’appuyaient sur ChatGPT, 10 TWh d’électricité supplémentaires seraient consommés chaque année. • Chaque demande via un serveur (Source: "• Ainsi, si toutes les recherches Google – 9 milliards chaque jour (plus de 100k à la s !) – s’appuyaient sur ChatGPT, 10 TWh d’électricité supplémentaires seraient consommés chaque année. • Chaque demande via un serveur d'IA nécessite 7 à 9 wattheures (Wh) d'énergie. • Une requête ChatGPT consomme environ 3 Wh contre 0,3 Wh pour une recherche")
  43. Détail source à réviser : 29,3 TWh par an, autant que la consommation électrique de l’Irlande [The growing energy footprint of artificial intelligent, Alex de Vries, 2023] Réf: https://www.polytechnique-insights.com/tribunes/energie/ia- generativ (Source: "29,3 TWh par an, autant que la consommation électrique de l’Irlande [The growing energy footprint of artificial intelligent, Alex de Vries, 2023] Réf: https://www.polytechnique-insights.com/tribunes/energie/ia- generative-la-consommation-energetique-explose/#note-6 • 8 000 data center IA à travers le monde, dont 33 % se situent aux États-Unis, 16 % en")
  44. Détail source à réviser : l’énergie) • 2 % de la consommation électrique mondiale en 2022, soit 460 TWh. • Hausse entre 160 et 590 TWh entre 2022 et 2026. • Data center US à 176 TWh (4,4%) de l'électricité du pays; ce chiffre pourrait doubler ou (Source: "l’énergie) • 2 % de la consommation électrique mondiale en 2022, soit 460 TWh. • Hausse entre 160 et 590 TWh entre 2022 et 2026. • Data center US à 176 TWh (4,4%) de l'électricité du pays; ce chiffre pourrait doubler ou tripler d'ici 2028 à entre 7 % et 12%. [département américain de l'énergie] ODG Consomma+on IA Généra+ve Réf:")
  45. Détail source à réviser : Quantité moyenne d’émissions de carbone que produisent l’inférence de taches spécifiques (en g de !"2#) pour 1 000 requêtes. Axe vertical logarithmique. • Quels types de requête ? • Les architectures plus polyvalentes é _(Source: "Quantité moyenne d’émissions de carbone que produisent l’inférence de taches spécifiques (en g de !"2#) pour 1 000 requêtes. Axe vertical logarithmique. • Quels types de requête ? • Les architectures plus polyvalentes émettent plus de CO2 que les architectures spécifiques ODG Consommation IA Générative Power Hungry Processing:")_
  46. Détail source à réviser : Luccioni, Yacine Jernite, Emma Strubell, FACCT 2024 La neutralité carbone : mission impossible pour l’IA ? Réf: h^ps://www.polytechnique-insights.com/tribunes/energie/ia- genera_ve-la-consomma_on-energe_que-explose/#note (Source: "Luccioni, Yacine Jernite, Emma Strubell, FACCT 2024 La neutralité carbone : mission impossible pour l’IA ? Réf: h^ps://www.polytechnique-insights.com/tribunes/energie/ia- genera_ve-la-consomma_on-energe_que-explose/#note-6 Quelle empreinte ? 1. Empreinte liée à la consommation dynamique de l’entrainement (slide précédent) 2. Empreinte totale liée à")
  47. Détail source à réviser : pas négligeable : elle est de l’ordre de 25 à 45 % de l’empreinte carbone totale de certains modèles d’IA. • L’entrainement de l’IA BLOOM – un modèle en accès libre – émet de l’ordre de 50 tonnes de gaz à effet de serre, (Source: "pas négligeable : elle est de l’ordre de 25 à 45 % de l’empreinte carbone totale de certains modèles d’IA. • L’entrainement de l’IA BLOOM – un modèle en accès libre – émet de l’ordre de 50 tonnes de gaz à effet de serre, soit 10 fois plus que les émissions annuelles d’un Français. • 2022 – 2023 à une augmentation de 23% des émissions carbone •")
  48. Détail source à réviser : • Classification : la sortie de la fonction est une classe (Source: "• Classification : la sortie de la fonction est une classe")
  49. Détail source à réviser : L’apprentissage non supervisé (1/2) à Exemples ? L’apprentissage non supervisé (2/2) • Objectifs: Ø Identifier des motifs et des structures cachées dans les données. Ø Regrouper des données similaires en fonction de leur (Source: "L’apprentissage non supervisé (1/2) à Exemples ? L’apprentissage non supervisé (2/2) • Objectifs: Ø Identifier des motifs et des structures cachées dans les données. Ø Regrouper des données similaires en fonction de leurs caractéristiques. Ø Réduire la dimensionnalité des données")
  50. Détail source à réviser : er désigne l’algorithme de base de GPT. Vient de l’ar]cle de recherche suivant de Google: « Aden]on is All You Need ». LLM c’est quoi ? • Une toute petite partie de l’IA Modèles de language Source: https://knowmap.org/ D (Source: "er désigne l’algorithme de base de GPT. Vient de l’ar]cle de recherche suivant de Google: « Aden]on is All You Need ». LLM c’est quoi ? • Une toute petite partie de l’IA Modèles de language Source: https://knowmap.org/ Dans le Deep Learning, on s’intéresse au traitement automa")
  51. Détail source à réviser : 1. Capacité à « comprendre » le sens des mots et caractériser une langue de manière très précise (LLM = Large Langage Model) 2 (Source: "1. Capacité à « comprendre » le sens des mots et caractériser une langue de manière très précise (LLM = Large Langage Model) 2")
  52. Détail source à réviser : 2017 Etape 2: Division en jetons (tokens) Nous allons travailler en train https://platform (Source: "2017 Etape 2: Division en jetons (tokens) Nous allons travailler en train https://platform")
  53. Détail source à réviser : Transformers L’auto-attention : Analyse la relation entre les mots et leur importance Avant les Transformers, les réseaux neuronaux récurrents (RNN) analysait uniquement de manière séquentielle (Source: "Transformers L’auto-attention : Analyse la relation entre les mots et leur importance Avant les Transformers, les réseaux neuronaux récurrents (RNN) analysait uniquement de manière séquentielle")
  54. Détail source à réviser : ionnalité est cruciale pour la génération de textes avancés. Avec l'auto-attention le mot « énormément » est ignoré ! énormément Transformers Pas uniquement les mots à significaTons mulTples Et si nous modifions la phras (Source: "ionnalité est cruciale pour la génération de textes avancés. Avec l'auto-attention le mot « énormément » est ignoré ! énormément Transformers Pas uniquement les mots à significaTons mulTples Et si nous modifions la phrase, en remplaçant "affamé" par "délicieux", l")
  55. Détail source à réviser : Types de modèles courants utilisés dans les LLM • Modèles autorégressifs (comme GPT, GPT-3, GPT-4) • Modèles bidirectionnels (comme BERT, RoBERTa) • Modèles séquence-à-séquence (seq2seq) (comme T5, BART) Formation des LL (Source: "Types de modèles courants utilisés dans les LLM • Modèles autorégressifs (comme GPT, GPT-3, GPT-4) • Modèles bidirectionnels (comme BERT, RoBERTa) • Modèles séquence-à-séquence (seq2seq) (comme T5, BART) Formation des LLM 1. Pré-entraînement 2. Fine-tuning 3. Apprentissage par renforcement Techniques avancées uPlisées dans les LLM 1. Embedding 2. Position...")
  56. Détail source à réviser : 3. Fine-tuning contextuel chat → [0 (Source: "3. Fine-tuning contextuel chat → [0")
  57. Détail source à réviser : GPT 4 : Decodeur, 1800B de paramètres, Mixture of Expert 8220B • Mistral : Decodeur, 32 couches, 4096 dimensions, 7B de paramètres • Mixtral : Decodeur, 32 couches, 4096 dimensions, 49B de paramètres, Mixture of Expert _(Source: "GPT 4 : Decodeur, 1800B de paramètres, Mixture of Expert 8220B • Mistral : Decodeur, 32 couches, 4096 dimensions, 7B de paramètres • Mixtral : Decodeur, 32 couches, 4096 dimensions, 49B de paramètres, Mixture of Expert 8*7B Résumé : Les blocs de constructions 1) Tokenisation : un mot représenter par un nombre 2) Embedding : représentation vectorielle Rés...")_
  58. Détail source à réviser : 1) Tokenisation : un mot représenter par un nombre 2) Embedding : représentation vectorielle Résumé : Les blocs de constructions des LLMs • Transfer learning : utiliser un modèle préalablement entraîné et s’adapte à des (Source: "1) Tokenisation : un mot représenter par un nombre 2) Embedding : représentation vectorielle Résumé : Les blocs de constructions des LLMs • Transfer learning : utiliser un modèle préalablement entraîné et s’adapte à des taches spécifiques")
  59. Détail source à réviser : • Hallucination = invente des faits de toutes pièces Limites des LLMs • Hallucinations : à crée de fausses informations (Source: "• Hallucination = invente des faits de toutes pièces Limites des LLMs • Hallucinations : à crée de fausses informations")
  60. Détail source à réviser : e contenant des données et faits réels et vérifiables. Hallucinations – exemples Source : https://www.bbc.com/news/technology-65202597 Hallucination Hallucination Hallucination Pourquoi des hallucinaRons ? • Absence de c (Source: "e contenant des données et faits réels et vérifiables. Hallucinations – exemples Source : https://www.bbc.com/news/technology-65202597 Hallucination Hallucination Hallucination Pourquoi des hallucinaRons ? • Absence de connaissances spécifiques ou contex")
  61. Détail source à réviser : Un algorithme est-il toujours objectif et impartial ? Représentativité des données Partie 1/2 Représentativité des données Partie 2/2 Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Natu (Source: "Un algorithme est-il toujours objectif et impartial ? Représentativité des données Partie 1/2 Représentativité des données Partie 2/2 Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Nature 559, 324-326 (2018) Biais 1 : sélection des images Exempl")
  62. Détail source à réviser : 2018) Biais 1 : sélection des images Exemples : 1 (Source: "2018) Biais 1 : sélection des images Exemples : 1")
  63. Détail source à réviser : 2018) Biais 3 : classes de catégories choisies Conséquences : L'utilisation de ces catégories peut déshumaniser ou stigmatiser des individus, et limiter la capacité des modèles d'IA à comprendre la diversité et la comple (Source: "2018) Biais 3 : classes de catégories choisies Conséquences : L'utilisation de ces catégories peut déshumaniser ou stigmatiser des individus, et limiter la capacité des modèles d'IA à comprendre la diversité et la complexité des situations humaines")
  64. Détail source à réviser : s peuvent être inappropriées, obsolètes ou discriminatoires Étude de Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Nature 559, 324-326 (2018) • Les algorithmes entraînés sur ImageNet r (Source: "s peuvent être inappropriées, obsolètes ou discriminatoires Étude de Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Nature 559, 324-326 (2018) • Les algorithmes entraînés sur ImageNet reproduisent et amplifient les biais sexistes et racistes • Par exemple, une IA de reconna")
  65. Détail source à réviser : Biais : conséquence et évitement Conséquences des biais algorithmiques • Effet d’amplification • Perte de fiabilité • Erreurs graves dans la prise de décision automatisée Comment réduire ces biais ? • Améliorer la représ (Source: "Biais : conséquence et évitement Conséquences des biais algorithmiques • Effet d’amplification • Perte de fiabilité • Erreurs graves dans la prise de décision automatisée Comment réduire ces biais ? • Améliorer la représenta<vité des données • Corriger les annotaUons biaisées • C")
  66. Détail source à réviser : ogramme malveillant baptisé JarkaStealer à Supprimé depuis du pool d’API de PyPI Source : https://korben.info/malware-fausses-api-chatgpt-claude- piratage-developpeurs.html, 25/11/2024 Préventions • Traitez tout le code (Source: "ogramme malveillant baptisé JarkaStealer à Supprimé depuis du pool d’API de PyPI Source : https://korben.info/malware-fausses-api-chatgpt-claude- piratage-developpeurs.html, 25/11/2024 Préventions • Traitez tout le code généré par ChatGPT comme s'il contenait des v")
  67. Détail source à réviser : n interne. • Solution 1: Ne pas mettre de données personnelles ou d’entreprise sur un LLM « libre accès en ligne » • Solution 2: utilisation de LLM interne à l’entreprise; intégration d’outils d'IA générative dans les fl (Source: "n interne. • Solution 1: Ne pas mettre de données personnelles ou d’entreprise sur un LLM « libre accès en ligne » • Solution 2: utilisation de LLM interne à l’entreprise; intégration d’outils d'IA générative dans les flux de travail. IA généraPve : le risque de l’atrophie")
  68. Détail source à réviser : Développement durable – Impact carbone du numérique et des IA ODG Consommation IA Générative IA : phase d’entrainement + phase d’inférence, qu’est ce qui consomme le plus d’électricité d’après vous ? • D’après l’Internat (Source: "Développement durable – Impact carbone du numérique et des IA ODG Consommation IA Générative IA : phase d’entrainement + phase d’inférence, qu’est ce qui consomme le plus d’électricité d’après vous ? • D’après l’International Energy Agency (IEA), avec des modèles comme ChatGPT :")
  69. Détail source à réviser : 2022, soit 460 TWh (Source: "2022, soit 460 TWh")
  70. Détail source à réviser : 2024 La neutralité carbone : mission impossible pour l’IA (Source: "2024 La neutralité carbone : mission impossible pour l’IA")
  71. Détail source à réviser : 2022 – 2023 à une augmentation de 23% des émissions carbone (Source: "2022 – 2023 à une augmentation de 23% des émissions carbone")
  72. Détail source à réviser : • Entraînement des modèles NLP : 1. Données d’entraînement 2. Nombre de paramètres du modèle ü Modèles petits + peu de données : Bonne maîtrise de la grammaire et du vocabulaire, mais compréhension limitée du sens. ü Mod (Source: "• Entraînement des modèles NLP : 1. Données d’entraînement 2. Nombre de paramètres du modèle ü Modèles petits + peu de données : Bonne maîtrise de la grammaire et du vocabulaire, mais compréhension limitée du sens. ü Modèles géants + gros corpus (ex. 50x Wikipédia) : Capacité à traduire, raisonner, ou effectuer des tâches complexes. LLM - Large Langage Mo...")
  73. Détail source à réviser : Alexandra Sasha Luccioni, Yacine Jernite, Emma Strubell, FACCT 2024 La neutralité carbone : mission impossible pour l’IA ? Réf: h^ps://www.polytechnique-insights.com/tribunes/energie/ia- genera_ve-la-consomma_on-energe_q (Source: "Alexandra Sasha Luccioni, Yacine Jernite, Emma Strubell, FACCT 2024 La neutralité carbone : mission impossible pour l’IA ? Réf: h^ps://www.polytechnique-insights.com/tribunes/energie/ia- genera_ve-la-consomma_on-energe_que-explose/#note-6 Quelle empreinte ? 1. Empreinte liée à la")
  74. Détail source à réviser : 2. Nombre de paramètres du modèle ü Modèles petits + peu de données : Bonne maîtrise de la grammaire et du vocabulaire, mais compréhension limitée du sens (Source: "2. Nombre de paramètres du modèle ü Modèles petits + peu de données : Bonne maîtrise de la grammaire et du vocabulaire, mais compréhension limitée du sens")
  75. Détail source à réviser : Les architectures plus polyvalentes émettent plus de CO2 que les architectures spécifiques ODG Consommation IA Générative Power Hungry Processing: Watts Driving the Cost of AI Deployment?, Alexandra Sasha Luccioni, Yacin (Source: "Les architectures plus polyvalentes émettent plus de CO2 que les architectures spécifiques ODG Consommation IA Générative Power Hungry Processing: Watts Driving the Cost of AI Deployment?, Alexandra Sasha Luccioni, Yacine Jernite, Emma Strubell, FACCT 2024 La neutralité carbone :")
  76. Détail source à réviser : • 2022 – 2023 à une augmentation de 23% des émissions carbone • L’optimisation des modèles, si elle réduit effectivement leur consommation, elle pousse à une utilisation accrue… à Effet rebond à Sobriété des usages Merci (Source: "• 2022 – 2023 à une augmentation de 23% des émissions carbone • L’optimisation des modèles, si elle réduit effectivement leur consommation, elle pousse à une utilisation accrue… à Effet rebond à Sobriété des usages Merci")
  77. Détail source à réviser : 2018) à Conséquences : Renforce des stéréotypes ou des inégalités (Source: "2018) à Conséquences : Renforce des stéréotypes ou des inégalités")
  78. Détail source à réviser : 1. Empreinte liée à la consommation dynamique de l’entrainement (slide précédent) 2 (Source: "1. Empreinte liée à la consommation dynamique de l’entrainement (slide précédent) 2")
  79. Détail source à réviser : L’IAG existe grâce au Transformer, au mécanisme d’attention et à la vectorisation L’IA généraPve existe grâce aux Transformers Etape 1: Traduction dans une langue de référence Nous allons travailler en train • Transforme (Source: "L’IAG existe grâce au Transformer, au mécanisme d’attention et à la vectorisation L’IA généraPve existe grâce aux Transformers Etape 1: Traduction dans une langue de référence Nous allons travailler en train • Transformers, Google, 2017 Etape 2: Division en jetons (tokens) Nous allons travailler en train https://platform")
  80. Détail source à réviser : Empreinte totale liée à l’utilisation ? • Empreinte carbone des terminaux utilisateurs n’est pas négligeable : elle est de l’ordre de 25 à 45 % de l’empreinte carbone totale de certains modèles d’IA. • L’entrainement de (Source: "Empreinte totale liée à l’utilisation ? • Empreinte carbone des terminaux utilisateurs n’est pas négligeable : elle est de l’ordre de 25 à 45 % de l’empreinte carbone totale de certains modèles d’IA. • L’entrainement de l’IA BLOOM – un modèle en accès libre – émet de l’ordre de 5")
  81. Détail source à réviser : IAG) • Sor]es de l’IA non-généra]ve ? • Sor]es de l’IA généra]ves ? • IAG = 1. Capacité à « comprendre » le sens des mots et caractériser une langue de manière très précise (LLM = Large Langage Model) 2. Capacité à génér (Source: "IAG) • Sor]es de l’IA non-généra]ve ? • Sor]es de l’IA généra]ves ? • IAG = 1. Capacité à « comprendre » le sens des mots et caractériser une langue de manière très précise (LLM = Large Langage Model) 2. Capacité à générer des données, et non plus seulement à les")
  82. Détail source à réviser : souris mange le chat" chat (pos 2) → [0.22, 0.90, 0.18] chat (pos 5) → [0.26, 0.94, 0.22] "Il a commandé un Java" → réponse bizarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" → "Il a (Source: "souris mange le chat" chat (pos 2) → [0.22, 0.90, 0.18] chat (pos 5) → [0.26, 0.94, 0.22] "Il a commandé un Java" → réponse bizarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" → "Il a commandé un café" Quels sont les types de modèles ?")
  83. Détail source à réviser : mandé un Java" → réponse bizarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" → "Il a commandé un café" Quels sont les types de modèles ? Harnessing the Power of LLMs in Practice: A Su (Source: "mandé un Java" → réponse bizarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" → "Il a commandé un café" Quels sont les types de modèles ? Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Jingfeng Yang and al., AC")
  84. Détail source à réviser : izarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" → "Il a commandé un café" Quels sont les types de modèles ? Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (Source: "izarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" → "Il a commandé un café" Quels sont les types de modèles ? Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Jingfeng Yang and al., ACM Trans. Knowl. Discov. Da")
  85. Détail source à réviser : 2028 à entre 7 % et 12% (Source: "2028 à entre 7 % et 12%")
  86. Détail source à réviser : ivité des données Partie 1/2 Représentativité des données Partie 2/2 Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Nature 559, 324-326 (2018) Biais 1 : sélection des images Exemples : (Source: "ivité des données Partie 1/2 Représentativité des données Partie 2/2 Zou et Schiebinger : « AI can be sexist and racist — it’s time to make it fair », Nature 559, 324-326 (2018) Biais 1 : sélection des images Exemples : 1. Taux d'erreur élevé pour les visages non caucasiens. 2. Certains systèmes de reconnais")
  87. Détail source à réviser : es (composition de la BD) : majoritairement occidentales, biais de représentation • Etude « Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification », de Joy Buolamwini et Timnit Gebru (201 (Source: "es (composition de la BD) : majoritairement occidentales, biais de représentation • Etude « Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification », de Joy Buolamwini et Timnit Gebru (2018) à Conséquences : Renforce des stéréotypes ou des inégalités. Biais 2 : annotations défaillantes • Annotations par cro")
  88. Détail source à réviser : escriptions. à Conséquence : Reproduction des stéréotypes dans les classifications. Etude « Social Cues, Social Biases: Stereotypes in Annotations on People Image », Jahna Otterbacher (2018) Biais 3 : classes de catégori (Source: "escriptions. à Conséquence : Reproduction des stéréotypes dans les classifications. Etude « Social Cues, Social Biases: Stereotypes in Annotations on People Image », Jahna Otterbacher (2018) Biais 3 : classes de catégories choisies Conséquences : L'utilisation de ces catégories peut déshumaniser ou stigmatiser des individu")
  89. Détail source à réviser : rlande [The growing energy footprint of artificial intelligent, Alex de Vries, 2023] Réf: https://www.polytechnique-insights.com/tribunes/energie/ia- generative-la-consommation-energetique-explose/#note-6 • 8 000 data ce (Source: "rlande [The growing energy footprint of artificial intelligent, Alex de Vries, 2023] Réf: https://www.polytechnique-insights.com/tribunes/energie/ia- generative-la-consommation-energetique-explose/#note-6 • 8 000 data center IA à travers le monde, dont 33 % se situent")
  90. Détail source à réviser : • L’entrainement de l’IA BLOOM – un modèle en accès libre – émet de l’ordre de 50 tonnes de gaz à effet de serre, soit 10 fois plus que les émissions annuelles d’un Français (Source: "• L’entrainement de l’IA BLOOM – un modèle en accès libre – émet de l’ordre de 50 tonnes de gaz à effet de serre, soit 10 fois plus que les émissions annuelles d’un Français")
  91. Détail source à réviser : ou Need ». LLM c’est quoi ? • Une toute petite partie de l’IA Modèles de language Source: https://knowmap.org/ Dans le Deep Learning, on s’intéresse au traitement automatique de langage naturel Source: https://ig.ft.com/ (Source: "ou Need ». LLM c’est quoi ? • Une toute petite partie de l’IA Modèles de language Source: https://knowmap.org/ Dans le Deep Learning, on s’intéresse au traitement automatique de langage naturel Source: https://ig.ft.com/generative")
  92. Détail source à réviser : ans le Deep Learning, on s’intéresse au traitement automatique de langage naturel Source: https://ig.ft.com/generative-ai/ En détail, un LLM comment ça fonctionne ? IA générative (IAG) • Sor]es de l’IA non-généra]ve ? • (Source: "ans le Deep Learning, on s’intéresse au traitement automatique de langage naturel Source: https://ig.ft.com/generative-ai/ En détail, un LLM comment ça fonctionne ? IA générative (IAG) • Sor]es de l’IA non-généra]ve ? • Sor]es de l’IA généra]")
  93. Détail source à réviser : En détail, un LLM comment ça fonctionne ? IA générative (IAG) • Sor]es de l’IA non-généra]ve ? • Sor]es de l’IA généra]ves ? • IAG = 1. Capacité à « comprendre » le sens des mots et caractériser une langue de manière trè (Source: "En détail, un LLM comment ça fonctionne ? IA générative (IAG) • Sor]es de l’IA non-généra]ve ? • Sor]es de l’IA généra]ves ? • IAG = 1. Capacité à « comprendre » le sens des mots et caractériser une langue de manière très précise (LLM = Large Langage Model) 2. Capacité à générer")
  94. Détail source à réviser : IA générative (IAG) • Sor]es de l’IA non-généra]ve ? • Sor]es de l’IA généra]ves ? • IAG = 1. Capacité à « comprendre » le sens des mots et caractériser une langue de manière très précise (LLM = Large Langage Model) 2. C (Source: "IA générative (IAG) • Sor]es de l’IA non-généra]ve ? • Sor]es de l’IA généra]ves ? • IAG = 1. Capacité à « comprendre » le sens des mots et caractériser une langue de manière très précise (LLM = Large Langage Model) 2. Capacité à générer des données, et non plus seulement à les c")
  95. Détail source à réviser : 22] "Il a commandé un Java" → réponse bizarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" → "Il a commandé un café" Quels sont les types de modèles ? Harnessing the Power of LLMs in P (Source: "22] "Il a commandé un Java" → réponse bizarre ou incorrecte Après fine-tuning sur le domaine du café : "Il a commandé un Java" → "Il a commandé un café" Quels sont les types de modèles ? Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Jingfeng Yang and a")
  96. Détail source à réviser : Limites • Biais des modèles • Qualité variable • Dépendance aux données • Manque de compréhension réelle • Coûts énergétiques AenPon aux biais des algorithmes d’IA Exemple 1 : ImageNet – Qu'est-ce que c'est ? • Une des _(Source: "Limites • Biais des modèles • Qualité variable • Dépendance aux données • Manque de compréhension réelle • Coûts énergétiques AenPon aux biais des algorithmes d’IA Exemple 1 : ImageNet – Qu'est-ce que c'est ? • Une des bases de données d’images les plus utilisées pour entraîner")_

📅 Repères chronologiques

DateÉvénement
2022Année d'entraînement de certains modèles
2023Publication d'études sur l'empreinte carbone de l'IA
2018Début des recherches sur les Transformers
25/11/2024Date cible pour la réglementation de l'IA en Europe
2026Projection de l'impact environnemental de l'IA
2028Évolution des modèles de langage et de leur capacité

📊 Tableaux de Synthèse

Comparaison des architectures de modèles de langage

Type de modèleAnalyse contextuelleUtilisation principaleExemples
AutorégressifPrévision séquentielleGénération de texteGPT
BidirectionnelAnalyse simultanéeCompréhension et classificationBERT
Séquence-à-séquenceTransformation de séquencesTraduction, résuméT5, BART

⚠️ Pièges & Confusions Fréquentes

  1. Hallucinations produisant des informations fausses ou inventées
  2. Biais dans les données entraînant des discriminations
  3. Consommation énergétique élevée lors de l'entraînement et de l'inférence
  4. Manque de compréhension réelle, uniquement statistique
  5. Risques liés à la sécurité du code généré par IA
  6. Impact environnemental dû à la consommation énergétique
  7. Atrophie cognitive liée à une dépendance accrue à l'IA

✅ Checklist Examen

  1. Comprendre le principe de l'apprentissage supervisé
  2. Identifier les objectifs de l'apprentissage non supervisé
  3. Expliquer le fonctionnement des Transformers et auto-attention
  4. Connaître les limites des LLM et leurs risques
  5. Évaluer l'impact environnemental de l'IA générative
  6. Reconnaître les biais algorithmiques dans les données d'entraînement
  7. Analyser les enjeux éthiques liés à l'IA
  8. Différencier les modèles autorégressifs et bidirectionnels
  9. Comprendre le processus de pré-entraînement et fine-tuning
  10. Connaître les risques liés à la sécurité du code généré par IA
  11. Évaluer la consommation énergétique des modèles d'IA
  12. Identifier les défis sociétaux liés à l'IA

Metti alla prova le tue conoscenze

Metti alla prova le tue conoscenze su Introduction aux modèles de langage et enjeux éthiques con 9 domande a scelta multipla con correzioni dettagliate.

1. Quel est le rôle principal de l'évaluation en apprentissage supervisé ?

2. Qu'est-ce que l'apprentissage supervisé en intelligence artificielle ?

Fai il quiz →

Ripassa con le flashcard

Memorizza i concetti chiave di Introduction aux modèles de langage et enjeux éthiques con 9 flashcard interattive.

Apprentissage supervisé — principe ?

Prédire des réponses à partir de données étiquetées.

Apprentissage supervisé — principe?

Apprend d'exemples avec réponses correctes

Objectif de l'apprentissage non supervisé ?

Identifier des structures ou motifs dans des données non étiquetées.

Vedi le flashcard →

Similar courses

Crea le tue schede di revisione

Importa il tuo corso e l'AI genera schede, quiz e flashcard in 30 secondi.

Generatore di schede