Hoja de repaso: Introduction aux fondamentaux de l'Intelligence Artificielle

📋 Plan du Cours

  1. Introduction à l'IA
  2. Fondements du ML
  3. Types d'apprentissage
  4. Algorithmes classiques
  5. Évaluation et validation
  6. Introduction au Deep Learning
  7. Réseaux de neurones convolutifs
  8. Réseaux de neurones récurrents
  9. Architectures avancées
  10. Applications pratiques
  11. Outils et frameworks
  12. Défis et perspectives

📖 1. Introduction à l'IA

🔑 Notions clés & Définitions

  • Intelligence Artificielle (IA) : désigne l'ensemble des théories et techniques permettant de développer des programmes informatiques capables de simuler certains aspects de l'intelligence humaine (source : introduction).
  • Sous-domaines de l'IA : incluent le raisonnement automatique, la représentation des connaissances, la planification, le traitement du langage naturel, la vision par ordinateur, et surtout le Machine Learning (source : introduction).
  • Hivers de l'IA : périodes d'enthousiasme et de désillusion dans le domaine de l'IA, caractérisées par une baisse d'investissement et d'intérêt (source : introduction).
  • Hiérarchie IA > Machine Learning > Deep Learning : l'IA est le domaine global, le Machine Learning en est une sous-catégorie qui apprend à partir de données, et le Deep Learning est un sous-ensemble du ML basé sur des réseaux de neurones profonds (source : hiérarchie).
  • Importance de l'IA : dans l'automatisation, l'extraction de connaissances, la prise de décision, l'adaptation, avec des applications dans divers secteurs comme la santé, la finance, l'industrie, et les transports (source : importance).

📝 Points essentiels

  • L'IA a connu plusieurs cycles d'enthousiasme et de désillusion, appelés « hivers de l'IA » (source : introduction).
  • La renaissance récente de l'IA est due à l'explosion des données, à la puissance de calcul accrue (GPU, TPU), et aux avancées algorithmiques (source : introduction).
  • La hiérarchie des concepts est : IA > Machine Learning > Deep Learning, chaque sous-domaine étant une extension ou spécialisation du précédent (source : hiérarchie).
  • L'IA permet d'automatiser des tâches complexes, d'extraire des connaissances à partir de grandes quantités de données, d'améliorer la prise de décision, et de créer des systèmes adaptatifs (source : importance).
  • Ses secteurs d'application sont nombreux : santé, finance, industrie, transports, sécurité, etc. (source : importance).

💡 À retenir

L'IA est un domaine en pleine expansion qui repose sur une hiérarchie de sous-domaines, dont le Machine Learning et le Deep Learning, et qui joue un rôle clé dans l'automatisation, la prise de décision et l'innovation dans de nombreux secteurs.

📖 2. Fondements du ML

🔑 Notions clés & Définitions

Machine Learning (ML)
AUTEUR (2025-2026) : branche de l'IA qui permet à un système d'apprendre automatiquement à partir d'expériences (données) sans programmation explicite pour chaque tâche. Un algorithme de ML identifie des patterns dans les données et construit un modèle mathématique pour généraliser ces patterns à de nouvelles données.

Composants fondamentaux du ML

  • Données (Data) : matière première du ML, doit être représentative, nombreuse et de qualité.
  • Modèle : représentation mathématique apprise à partir des données, pouvant être une fonction, un arbre, un réseau de neurones, etc.
  • Algorithme d'apprentissage : procédure qui ajuste les paramètres du modèle pour minimiser l'erreur de prédiction.
  • Fonction de perte : mesure l'écart entre les prédictions du modèle et les vraies valeurs, avec pour objectif de la minimiser.
  • Caractéristiques (Features) : variables d'entrée utilisées par le modèle pour faire ses prédictions.
  • Étiquettes (Labels) : dans l'apprentissage supervisé, sorties attendues associées à chaque exemple d'entraînement.

Pipeline ML
Processus standard comprenant :

  • collecte et préparation des données,
  • analyse exploratoire,
  • ingénierie des caractéristiques,
  • sélection et entraînement du modèle,
  • évaluation et validation,
  • déploiement et surveillance en production.

Notion de généralisation
Capacité d’un modèle ML à appliquer ce qu’il a appris sur de nouvelles données non vues lors de l’entraînement. Deux problèmes majeurs :

  • Sous-apprentissage (underfitting) : modèle trop simple, ne capturant pas la complexité des données.
  • Sur-apprentissage (overfitting) : modèle qui mémorise le bruit des données d’entraînement sans généraliser.

📝 Points essentiels

  • Le ML apprend à partir de données pour construire un modèle capable de faire des prédictions ou classifications.
  • La qualité, la représentativité et la quantité des données sont cruciales pour un apprentissage efficace.
  • La fonction de perte guide l’algorithme d’apprentissage dans l’ajustement des paramètres du modèle.
  • Le pipeline ML suit une séquence structurée : collecte, analyse, ingénierie, entraînement, évaluation, déploiement.
  • La généralisation est l’objectif principal : éviter le sous-apprentissage et le sur-apprentissage pour assurer la performance sur de nouvelles données.

💡 À retenir

Le Machine Learning consiste à créer des modèles capables d’apprendre et de généraliser à partir de données, en suivant un processus structuré de collecte à déploiement, tout en évitant le sous- et le sur-apprentissage.

📖 3. Types d'apprentissage

🔑 Notions clés & Définitions

  • Apprentissage supervisé : Apprentissage où chaque exemple d'entraînement est accompagné d'une étiquette (label). L'algorithme apprend à associer des entrées à des sorties à partir d'exemples étiquetés.

  • Classification : Tâche principale en apprentissage supervisé consistant à prédire une catégorie (ex : spam/non-spam).

  • Régression : Tâche principale en apprentissage supervisé visant à prédire une valeur continue (ex : prix d'une maison).

  • Algorithmes d'apprentissage supervisé : Régression linéaire, Régression logistique, SVM, arbres de décision, réseaux de neurones.

  • Apprentissage non supervisé : Apprentissage où les données ne sont pas étiquetées. L'algorithme doit découvrir seul la structure cachée dans les données.

  • Clustering : Regrouper des exemples similaires (ex : K-Means, DBSCAN).

  • Réduction de dimension : Compresser les données en conservant l'information essentielle (ex : PCA, t-SNE).

  • Détection d'anomalies : Identifier des observations inhabituelles.

  • Modèles génératifs : Apprendre la distribution des données pour générer de nouvelles instances (ex : VAE, GAN).

  • Apprentissage par renforcement : Un agent apprend à agir dans un environnement en recevant des récompenses ou punitions. L'objectif est de maximiser la récompense cumulée à long terme.

  • Applications du RL : Jeux, robotique, véhicules autonomes, gestion de l'énergie, trading.

  • Apprentissage semi-supervisé : Combine un petit ensemble de données étiquetées avec un grand ensemble non étiqueté.

  • Auto-supervisé : Génère automatiquement des labels à partir des données brutes, notamment pour pré-entraîner de grands modèles (ex : BERT, GPT).

📝 Points essentiels

  • L'apprentissage supervisé est le plus répandu, avec des tâches de classification et de régression.
  • En non supervisé, l'objectif est d'explorer et comprendre des données sans étiquettes, via clustering, réduction de dimension ou détection d'anomalies.
  • Le RL repose sur un agent qui apprend par essais et erreurs pour maximiser une récompense dans un environnement.
  • L'apprentissage semi-supervisé et auto-supervisé permettent d'utiliser efficacement des données peu ou pas étiquetées, notamment dans le contexte de grands modèles.
  • Les sous-types en non supervisé incluent des techniques pour regrouper, réduire, détecter ou générer des données.
  • Les applications du RL couvrent des domaines variés comme les jeux, la robotique ou la gestion d'énergie.

💡 À retenir

Les principaux types d'apprentissage se distinguent par la présence ou l'absence d'étiquettes dans les données, chacun étant adapté à des tâches spécifiques telles que la classification, la segmentation, ou la découverte de structures cachées, avec le renforcement orienté vers la prise de décision dans un environnement.

📖 4. Algorithmes classiques

🔑 Notions clés & Définitions

  • Régression linéaire : Modèle qui cherche la droite ou l'hyperplan minimisant la somme des erreurs quadratiques (MSE) pour modéliser une variable dépendante continue en fonction de variables indépendantes.
  • Régression logistique : Adaptation de la régression pour la classification binaire, utilisant la fonction sigmoïde pour produire des probabilités.
  • Arbres de décision : Partitionne récursivement l'espace des caractéristiques par des questions binaires, chaque nœud représentant un test, chaque feuille une prédiction.
  • Forêts aléatoires : Ensemble d'arbres de décision entraînés sur des sous-ensembles aléatoires de données et de caractéristiques, la prédiction finale étant une majorité de votes ou une moyenne.
  • Gradient boosting : Construction séquentielle de modèles faibles, chaque nouveau modèle corrigeant les erreurs du précédent, avec des implémentations efficaces comme XGBoost ou LightGBM.
  • Machines à vecteurs de support (SVM) : Cherchent l'hyperplan séparateur qui maximise la marge entre deux classes, utilisant le « kernel trick » pour traiter des problèmes non linéaires.
  • Clustering : Technique non supervisée regroupant des exemples similaires, avec des algorithmes comme K-Means (minimise la variance intra-cluster), DBSCAN (densité), et le clustering hiérarchique (dendrogramme).
  • Réduction de dimension : Transforme les données en un espace où les axes capturent l’essentiel de la variance, par exemple ACP/PCA (linéaire), t-SNE ou UMAP (non linéaires).

📝 Points essentiels

  • Fonctionnement : Chaque algorithme possède un principe spécifique (ex : partitionnement, optimisation, séparation).
  • Caractéristiques : Interprétabilité (ex : arbres), capacité à réduire le sur-apprentissage (ex : forêts aléatoires, gradient boosting), efficacité sur données tabulaires.
  • Sur-apprentissage : Techniques pour le réduire incluent la régularisation (L1, L2), le dropout, l’early stopping, et la validation croisée.
  • Techniques de réduction de sur-apprentissage : La régularisation L1/L2 pénalise la complexité du modèle, le dropout désactive aléatoirement des neurones en Deep Learning, et l’early stopping arrête l’entraînement lorsque la performance sur validation se dégrade.

💡 À retenir

Les algorithmes classiques de ML reposent sur des principes variés (partition, optimisation, séparation), et leur maîtrise passe par la compréhension de leur fonctionnement, de leurs caractéristiques, et des techniques pour limiter le sur-apprentissage.

📖 5. Évaluation et validation

🔑 Notions clés & Définitions

  • Métriques de classification : mesures permettant d’évaluer la performance d’un modèle de classification.

    • Accuracy (Précision globale) : proportion d’exemples correctement classifiés.
    • Précision (Precision) : parmi les exemples prédits positifs, la proportion réellement positifs (TP / (TP + FP)).
    • Rappel (Recall / Sensibilité) : parmi les exemples réellement positifs, la proportion détectée (TP / (TP + FN)).
    • F1-score : moyenne harmonique de la précision et du rappel, équilibrant les deux.
    • Courbe ROC / AUC : représentation du compromis entre sensibilité et spécificité à différents seuils, avec l’aire sous la courbe (AUC) comme indicateur global.
    • Matrice de confusion : tableau récapitulatif des vrais/faux positifs et négatifs.
  • Métriques de régression : indicateurs d’évaluation pour modèles de prédiction de valeurs continues.

    • MAE (Mean Absolute Error) : moyenne des erreurs absolues, facile à interpréter.
    • MSE (Mean Squared Error) : moyenne des erreurs au carré, pénalise fortement les grandes erreurs.
    • RMSE (Root Mean Squared Error) : racine carrée du MSE, unité identique à la variable cible.
    • R² (Coefficient de détermination) : proportion de variance expliquée par le modèle, valeur allant jusqu’à 1 (parfait).
  • Validation croisée (k-fold) : technique où le jeu de données est divisé en k sous-ensembles. Chaque sous-ensemble sert une fois de jeu de test, les autres de formation. La performance finale est la moyenne des k scores, permettant une estimation robuste de la performance.

  • Règles pour la séparation des données : division en trois ensembles distincts :

    • Entraînement : pour apprendre le modèle.
    • Validation : pour ajuster les hyperparamètres.
    • Test : pour évaluer la performance finale.
      Le jeu de test ne doit jamais être utilisé pendant l’entraînement.
  • Techniques de régularisation : méthodes pour lutter contre le sur-apprentissage.

    • L1 (Lasso) : pénalise la somme des valeurs absolues des poids, favorise la sparsité.
    • L2 (Ridge) : pénalise la somme des carrés des poids, réduit leur magnitude sans les annuler.
    • Dropout : désactive aléatoirement des neurones lors de l’entraînement (spécifique au Deep Learning).
    • Early Stopping : arrête l’entraînement lorsque la performance sur la validation se dégrade.
    • Data Augmentation : augmente artificiellement la taille du dataset par transformations (rotation, flip, etc.).

📝 Points essentiels

  • La validation croisée k-fold offre une estimation plus fiable de la performance du modèle en utilisant tous les exemples pour l’entraînement et le test.
  • La séparation en ensembles d’entraînement, validation et test est une règle d’or pour éviter le sur-apprentissage et garantir une évaluation impartiale.
  • Les métriques de classification (accuracy, précision, rappel, F1-score, ROC/AUC, matrice de confusion) permettent d’évaluer la qualité des modèles de classification, en tenant compte des déséquilibres possibles.
  • Les métriques de régression (MAE, MSE, RMSE, R²) permettent d’apprécier la précision des modèles de prédiction continue.
  • La régularisation (L1, L2, Dropout, Early Stopping, Data Augmentation) est essentielle pour améliorer la généralisation et réduire le sur-apprentissage.

💡 À retenir

L’évaluation rigoureuse des modèles via des métriques adaptées, combinée à une séparation stricte des données et à des techniques de régularisation, est cruciale pour garantir leur performance et leur robustesse en situation réelle.

📖 6. Introduction au Deep Learning

🔑 Notions clés & Définitions

Deep Learning (DL) : Sous-domaine du Machine Learning utilisant des réseaux de neurones artificiels avec de nombreuses couches cachées, capables d'apprendre automatiquement des représentations hiérarchiques complexes à partir de données brutes, sans feature engineering manuel. La révolution du DL a été rendue possible par la disponibilité de grandes quantités de données, la puissance de calcul des GPU/TPU, et des avancées algorithmiques (source : "Deep Learning (voir section 6.1)").

Réseaux de neurones profonds : Réseaux de neurones artificiels comportant plusieurs couches cachées, permettant d'apprendre des représentations hiérarchiques complexes. Ces couches successives transforment les données brutes en abstractions de plus en plus sophistiquées (source : "Le Deep Learning (voir section 6.1)").

Facteurs clés du DL : La réussite du DL repose sur trois éléments principaux :

  • Données : Grande quantité de données étiquetées disponibles.
  • Puissance de calcul : Utilisation de GPU/TPU pour traiter efficacement de vastes modèles.
  • Avancées algorithmiques : Techniques telles que batch normalization, dropout, ReLU, et optimizers comme Adam (source : "Le Deep Learning (voir section 6.1)").

Neurone artificiel : Unité de calcul inspirée du neurone biologique, recevant plusieurs entrées (x₁, x₂, ..., xₙ), pondérées par des poids (w₁, w₂, ..., wₙ), auxquant s'ajoute un biais (b). La sortie est :
y=f(w1x1+w2x2+...+wnxn+b)y = f(w_1 x_1 + w_2 x_2 + ... + w_n x_n + b)
ff est une fonction d'activation (source : "Le Neurone Artificiel (voir section 6.2)").

Fonctions d'activation : Fonctions non linéaires appliquées à la sortie d’un neurone pour introduire de la non-linéarité dans le réseau. Notamment :

  • ReLU : f(x)=max(0,x)f(x) = \max(0, x)
  • Sigmoid : f(x)=11+exf(x) = \frac{1}{1 + e^{-x}}
  • Tanh : f(x)=exexex+exf(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}
  • Softmax : Convertit un vecteur en distribution de probabilité
  • Leaky ReLU : Variante de ReLU autorisant un petit gradient négatif
  • GELU : Approximations lissée de ReLU, utilisée dans les Transformers (source : "Fonctions d'activation (voir section 6.3)").

Rétropropagation (Backpropagation) : Algorithme permettant d’entraîner les réseaux de neurones en calculant le gradient de la fonction de perte par rapport à chaque paramètre via la règle de la chaîne. Ces gradients sont utilisés par un optimiseur pour ajuster les poids dans le sens de la descente de gradient (source : "La rétropropagation (voir section 6.4)").

Optimiseurs : Méthodes pour ajuster efficacement les poids lors de l’entraînement :

  • SGD : Mise à jour des poids après chaque mini-batch.
  • Momentum : Ajoute une mémoire du gradient précédent pour accélérer la convergence.
  • Adam : Combine Momentum et RMSProp, très utilisé.
  • AdaGrad / RMSProp : Adaptent le taux d’apprentissage pour chaque paramètre, améliorant la stabilité (source : "Optimiseurs (voir section 6.5)").

📖 7. Réseaux de neurones convolutifs

🔑 Notions clés & Définitions

  • Architecture CNN : Conçue pour traiter des données avec une structure spatiale, notamment les images, en exploitant la connexion locale, le partage de poids et la mise en commun (pooling).
  • Principe de convolution : Opération appliquée par un filtre (ou noyau) sur une région locale de l'entrée, permettant de détecter des patterns spécifiques (bords, textures, formes).
  • Traitement des données structurées : Les CNN exploitent la structure spatiale des images en utilisant des filtres partagés et des opérations locales pour extraire des caractéristiques invariantes aux translations.
  • Couches d'un CNN :
    • Convolution : Applique des filtres apprenables pour détecter des patterns.
    • Pooling : Réduit la dimension spatiale des feature maps, rendant le réseau robuste aux petites translations.
    • Entièrement connectée : Transforme les feature maps en vecteur pour la classification.
    • Batch Normalization : Normalise les activations pour accélérer l'entraînement.
    • Dropout : Désactive aléatoirement des neurones pour réduire le sur-apprentissage.

📝 Points essentiels

  • La connexion locale limite chaque neurone à une petite région de l'entrée, ce qui permet de capturer des patterns locaux.
  • Le partage de poids consiste à utiliser le même filtre pour toute l'image, ce qui réduit le nombre de paramètres et favorise la détection de motifs invariants.
  • Le pooling (max ou average) diminue la taille des feature maps, ce qui améliore la robustesse et réduit la complexité.
  • Les CNN sont à la base de nombreuses architectures célèbres : LeNet-5, AlexNet, VGG, ResNet, EfficientNet, et Vision Transformer (appliqué aux images).
  • Utilisation spécifique : classification d'images, détection d'objets, segmentation sémantique, reconnaissance faciale et d'actions, analyse d'images satellites et médicales.

💡 À retenir

Les CNN exploitent la structure spatiale des données pour extraire efficacement des caractéristiques invariantes, ce qui en fait la principale architecture pour le traitement d'images et autres données structurées spatiales.

📖 8. Réseaux de neurones récurrents

🔑 Notions clés & Définitions

  • Réseaux de Neurones Convolutifs (CNN) : Architecture conçue pour traiter des données ayant une structure spatiale, exploitant la connexion locale, le partage de poids et la mise en commun (pooling). (voir section 7)
  • Principes de convolution : Technique qui consiste à appliquer un filtre (ou kernel) apprenable sur une entrée pour détecter des patterns spécifiques, en réalisant une opération de convolution locale. (voir section 7)
  • Pooling : Opération qui réduit la dimension spatiale des feature maps en agrégeant les valeurs (max pooling, average pooling), rendant le réseau plus robuste aux petites translations. (voir section 7)
  • Architecture CNN : Composée de couches de convolution, pooling, normalisation, dropout, et éventuellement de couches entièrement connectées, permettant l'extraction hiérarchique de features pour la classification ou la détection. (voir section 7)

📝 Points essentiels

  • Les CNN exploitent la structure spatiale des données, notamment pour la reconnaissance d'images.
  • La convolution permet de détecter des patterns locaux (bords, textures, formes) via des filtres apprenables.
  • Le pooling réduit la taille des feature maps, augmente la robustesse aux translations, et diminue le coût computationnel.
  • Les architectures célèbres incluent LeNet-5, AlexNet, VGG, ResNet, EfficientNet, et Vision Transformer.
  • Les CNN sont utilisés pour la classification, détection, segmentation, reconnaissance faciale, et analyse d'images satellites ou médicales.

💡 À retenir

Les CNN s'appuient sur la convolution et le pooling pour extraire efficacement des caractéristiques hiérarchiques dans des données structurées, principalement pour la reconnaissance d'images et autres données spatiales.

📖 9. Architectures avancées

🔑 Notions clés & Définitions

Réseaux de neurones récurrents (RNN, LSTM) :
Les RNN sont conçus pour traiter des données séquentielles en intégrant des connexions récurrentes qui maintiennent une mémoire des états précédents, permettant ainsi de modéliser des dépendances dans la séquence (voir section 8).

Les LSTM (Long Short-Term Memory), proposés par Hochreiter et Schmidhuber en 1997, sont une variante avancée des RNN qui introduisent un mécanisme de portes (gates) pour contrôler le flux d'information. Ces portes (entrée, oubli, sortie) régulent la mémoire de la cellule, permettant de surmonter le problème du gradient qui disparaît dans les RNN classiques, et facilitent l'apprentissage de dépendances à long terme (voir section 8).

📝 Points essentiels

  • Les RNN traitent des séquences en recevant à chaque étape l'entrée actuelle et l'état caché précédent, ce qui leur confère une mémoire temporelle.
  • Le problème du gradient qui disparaît limite l'apprentissage sur de longues séquences avec un RNN simple.
  • Les LSTM introduisent des portes pour gérer la mémoire à long terme, permettant de mieux capturer les dépendances longues.
  • Les GRU sont une simplification des LSTM, avec deux portes, offrant une alternative plus légère.
  • Ces architectures sont principalement utilisées pour le traitement du langage naturel, la reconnaissance vocale, la génération de texte, et la prédiction de séries temporelles.
  • Depuis l'avènement des Transformers en 2017, l'utilisation des RNN/LSTM dans le NLP a diminué, car ces derniers gèrent moins efficacement les dépendances longues et sont moins parallélisables.

💡 À retenir

Les RNN, notamment les LSTM, sont des architectures conçues pour modéliser des données séquentielles en conservant une mémoire à long terme, mais leur usage tend à être remplacé par des modèles plus performants comme les Transformers dans de nombreuses applications.

📖 10. Applications pratiques

🔑 Notions clés & Définitions

  • Transformers : Introduits dans l'article « Attention Is All You Need » (Vaswani et al., 2017), ce mécanisme repose sur l'attention pour peser dynamiquement l'importance de chaque élément d'une séquence, permettant un traitement parallèle de toute la séquence. Ils ont révolutionné le traitement du langage naturel en remplaçant les RNN, en facilitant la modélisation de dépendances longues et en améliorant la parallélisation.

  • BERT (2018) : Modèle Transformer bidirectionnel pré-entraîné sur des tâches de masquage de mots, excellent pour la compréhension du texte.

  • GPT (2018-2024) : Modèle Transformer auto-régressif pré-entraîné sur de vastes corpus, capable de générer du texte de haute qualité. GPT-4 représente l'état de l'art dans cette famille.

  • Modèles de Langage Pré-entraînés : Ensemble de modèles comme BERT, GPT, T5, LLaMA, Mistral, qui utilisent le mécanisme d'attention pour apprendre des représentations riches du langage, facilitant diverses tâches NLP.

  • Réseaax de neurones génératifs (GAN) : Composés de deux réseaux en compétition, un générateur et un discriminateur, entraînés via un jeu minimax pour produire des données réalistes (ex : images, deepfakes, augmentation de données).

  • Autoencodeurs Variationnels (VAE) : Apprennent une représentation latente comprimée des données, permettant la génération de nouvelles données en échantillonnant dans cet espace.

  • Modèles de Diffusion : Apprennent à inverser un processus de dégradation par ajout progressif de bruit, utilisés pour la génération d'images (ex : DALL-E, Stable Diffusion).

📝 Points essentiels

  • Les architectures avancées telles que les Transformers ont permis des progrès majeurs dans le traitement du langage naturel, notamment grâce au mécanisme d'attention qui permet de traiter efficacement les dépendances longues et de paralléliser l'entraînement.

  • Les modèles pré-entraînés (BERT, GPT, T5, etc.) ont été conçus pour être fine-tunés sur diverses tâches, rendant leur utilisation très flexible dans des applications variées.

  • Les GAN ont révolutionné la génération d'images réalistes, avec des applications en synthèse d'images, super-résolution, et transfert de style.

  • Les VAE et modèles de diffusion offrent des alternatives pour la génération de données, avec des capacités de contrôle et de créativité accrues.

  • Ces innovations ont permis des applications concrètes dans la vision par ordinateur, le traitement du langage, la médecine, la génération de contenu, etc.

💡 À retenir

Les architectures avancées comme les Transformers, GPT et BERT ont transformé le domaine du Deep Learning en permettant une modélisation plus efficace et flexible des données séquentielles et non structurées, ouvrant la voie à des applications innovantes et performantes.

📖 11. Outils et frameworks

🔑 Notions clés & Définitions

  • Frameworks de Deep Learning : Environnements logiciels facilitant la conception, l'entraînement et le déploiement de modèles de DL (exemples : TensorFlow, PyTorch, JAX, Hugging Face). TensorFlow / Keras (Google) : API de haut niveau pour la production. PyTorch (Meta) : Populaire en recherche, flexible. JAX (Google) : Optimisé pour la performance. Hugging Face : Bibliothèque de modèles pré-entraînés pour le NLP (Transformers).
  • Infrastructure et MLOps : Outils pour la gestion, le suivi, et le déploiement des modèles ML/DL. Jupyter Notebook / Lab : Environnements interactifs. MLflow / Weights & Biases : Suivi des expériences, versioning. Docker / Kubernetes : Conteneurisation, déploiement scalable. Cloud ML : AWS SageMaker, Google Vertex AI, Azure ML pour entraînement à grande échelle. Orchestration : Airflow, Prefect pour automatiser pipelines.
  • Matériel spécialisé : GPU (NVIDIA A100, H100, RTX), TPU (Google), accélérateurs (Groq LPU, Apple M-Series) pour l'entraînement et l'inférence.

📝 Points essentiels

  • Bibliothèques Python fondamentales : NumPy pour calcul numérique, Pandas pour manipulation de données tabulaires, Matplotlib/Seaborn pour visualisation, scikit-learn pour ML classique.
  • Frameworks de DL : TensorFlow/Keras, PyTorch, JAX, Hugging Face. TensorFlow/Keras est utilisé en production, PyTorch en recherche, Hugging Face pour NLP avec modèles pré-entraînés.
  • Outils d'infrastructure et MLOps : Jupyter pour prototypage, MLflow/Weights & Biases pour suivi, Docker/Kubernetes pour déploiement, Cloud ML pour entraînement massif, orchestration avec Airflow/Prefect.
  • Matériel : GPU et TPU, essentiels pour l'entraînement de modèles complexes, accélérant considérablement le processus.

💡 À retenir

Les outils et frameworks modernes permettent de concevoir, entraîner, suivre et déployer efficacement des modèles ML et DL, facilitant leur application dans des secteurs variés comme la santé, la finance ou l'industrie.

📖 12. Défis et perspectives

🔑 Notions clés & Définitions

  • TensorFlow / Keras : Framework développé par Google, TensorFlow est une plateforme pour la création, l'entraînement et le déploiement de modèles de Deep Learning. Keras, intégré à TensorFlow, offre une API de haut niveau facilitant la conception de réseaux de neurones. Utilisé en production pour sa stabilité et son efficacité.

  • PyTorch : Framework développé par Meta, très populaire dans la recherche académique, reconnu pour sa flexibilité et sa nature pythonique. Permet une définition dynamique des modèles, facilitant le prototypage et l'expérimentation.

  • JAX : Framework Google orienté performance, spécialisé dans la différentiation automatique et le calcul haute performance. Utilisé pour entraîner de très grands modèles et expérimenter rapidement.

  • Hugging Face : Bibliothèque spécialisée dans les modèles Transformers, proposant des milliers de modèles pré-entraînés (BERT, GPT, etc.) accessibles pour des tâches NLP, vision, etc.

  • MLflow / Weights & Biases : Outils de MLOps pour le suivi des expériences, la gestion des versions de modèles et de datasets, facilitant la reproductibilité et la gestion des projets ML/DL.

  • Docker / Kubernetes : Technologies de conteneurisation et orchestration permettant le déploiement scalable et reproductible des modèles en environnement cloud ou local.

  • Cloud ML (AWS SageMaker, Google Vertex AI, Azure ML) : Plateformes cloud pour l'entraînement à grande échelle, le déploiement et la gestion de modèles ML/DL.

  • Matériel spécialisé (GPU, TPU) : Composants matériels optimisés pour l'entraînement et l'inférence des modèles profonds, permettant un traitement massif en parallèle.

📝 Points essentiels

  • Ces frameworks et outils sont essentiels pour la conception, l'entraînement, le déploiement et la gestion efficace des modèles de Machine Learning et Deep Learning.

  • TensorFlow/Keras et PyTorch sont les deux principales plateformes pour le développement de modèles, chacune ayant ses avantages : TensorFlow pour la production, PyTorch pour la recherche.

  • JAX se distingue par ses performances et sa capacité à gérer de très grands modèles, notamment pour la recherche avancée.

  • Hugging Face facilite l'accès à des modèles pré-entraînés, accélérant le développement d'applications NLP et multimodales.

  • Les outils de MLOps (MLflow, Weights & Biases) et les plateformes cloud (SageMaker, Vertex AI) permettent de gérer la complexité opérationnelle et la scalabilité des projets ML/DL.

  • Le matériel spécialisé (GPU, TPU) est indispensable pour réduire le temps d'entraînement et supporter des modèles de grande taille.

  • L'utilisation de ces outils doit être adaptée au contexte : recherche, développement, production, déploiement, en fonction des besoins spécifiques.

💡 À retenir

Les frameworks et outils comme TensorFlow, PyTorch, et Hugging Face, combinés aux solutions de MLOps et au matériel spécialisé, constituent l'écosystème clé pour le développement, la gestion et le déploiement efficaces des modèles de Machine Learning et Deep Learning.

📊 Tableaux de Synthèse

CritèreApprentissage SuperviséApprentissage Non SuperviséApprentissage par Renforcement
ObjectifPrédire une sortie à partir d'entréesDécouvrir la structure ou la segmentationApprendre une stratégie pour maximiser une récompense
DonnéesÉtiquetées (exemples avec labels)Non étiquetéesEnvironnement avec états, actions, récompenses
Tâches principalesClassification, régressionClustering, réduction de dimension, détection d'anomaliesDécision séquentielle, contrôle
Algorithmes courantsRégression linéaire, SVM, arbres, réseaux de neuronesK-Means, PCA, DBSCAN, GAN, VAEQ-Learning, Deep Q-Networks, Policy Gradient
Application typiqueReconnaissance faciale, prédiction de prixSegmentation de clients, détection d'anomaliesJeux, robotique, véhicules autonomes
CritèreApprentissage Semi-supervisé / Auto-supervisé
ObjectifUtiliser peu d'étiquettes ou générer des labels automatiquement
DonnéesPeu ou pas d'étiquettes, grandes quantités non étiquetées
Application typiqueAmélioration de modèles avec peu de labels, NLP, vision

⚠️ Pièges & Confusions Fréquentes

  1. Confondre apprentissage supervisé et non supervisé : le premier nécessite des étiquettes, le second non.
  2. Négliger l'importance de la qualité et de la représentativité des données pour le ML.
  3. Confusion entre sur-apprentissage (overfitting) et sous-apprentissage (underfitting) : mémorisation vs. incapacité à capturer la complexité.
  4. Oublier que la fonction de perte doit être adaptée à la tâche (ex : erreur quadratique pour régression, entropie croisée pour classification).
  5. Confondre le but du clustering (découvrir des groupes) avec la classification (prédire des labels).
  6. Confondre apprentissage par renforcement et apprentissage supervisé : le RL apprend par essais et récompenses, pas par exemples étiquetés.
  7. Sous-estimer l'importance de la généralisation : un modèle performant sur l'entraînement peut échouer en production.
  8. Confusion entre modèles génératifs (GAN, VAE) et modèles discriminatifs (régression, SVM).

✅ Checklist Examen

  1. Connaître la définition de l'Intelligence Artificielle selon l'introduction.
  2. Maîtriser la hiérarchie IA > Machine Learning > Deep Learning.
  3. Identifier les sous-domaines de l'IA : raisonnement, représentation, planification, ML, vision, NLP.
  4. Expliquer ce qu’est le Machine Learning, ses composants fondamentaux, et le rôle de la fonction de perte.
  5. Décrire le pipeline ML : collecte, analyse, ingénierie, entraînement, évaluation, déploiement.
  6. Comprendre la notion de généralisation et les risques de sous- et sur-apprentissage.
  7. Différencier apprentissage supervisé, non supervisé, par renforcement, semi-supervisé, auto-supervisé.
  8. Citer des algorithmes clés : régression linéaire, SVM, arbres, K-Means, PCA, GAN, Q-Learning.
  9. Connaître les principales tâches en apprentissage supervisé : classification et régression.
  10. Savoir ce qu’est le clustering, la réduction de dimension, la détection d’anomalies.
  11. Identifier les applications principales du RL : jeux, robotique, véhicules autonomes.
  12. Connaître les auteurs et concepts clés : branche de l’IA, modèle mathématique, pipeline ML, généralisation.

Pon a prueba tus conocimientos

Pon a prueba tus conocimientos sobre Introduction aux fondamentaux de l'Intelligence Artificielle con 12 preguntas de opción múltiple con correcciones detalladas.

1. Quelle cause a principalement permis la renaissance récente du Deep Learning et quels en ont été les effets immédiats ?

2. Qu'est-ce que le Machine Learning (ML) dans le contexte de l'Intelligence Artificielle ?

Realiza el cuestionario →

Repasa con tarjetas de memoria

Memoriza los conceptos clave de Introduction aux fondamentaux de l'Intelligence Artificielle con 24 tarjetas de memoria interactivas.

Intelligence Artificielle — définition ?

Ensemble de techniques simulant l'intelligence humaine.

Sous-domaines de l'IA — exemples ?

Raisonnement, représentation, planification, ML, vision, NLP.

Hivers de l'IA — caractéristique ?

Périodes de baisse d'intérêt et d'investissement.

Ver tarjetas de memoria →

Similar courses

Crea tus propias hojas de repaso

Importa tu curso y la IA genera hojas, cuestionarios y tarjetas de memoria en 30 segundos.

Generador de hojas