Hoja de repaso: Introduction aux Techniques de Machine Learning

📋 Plan du Cours

  1. Structure et organisation du cours de Machine Learning
  2. Applications courantes du Machine Learning dans divers domaines
  3. Les quatre tâches typiques du Machine Learning : supervisé, non supervisé, renforcement et génération
  4. Formulation du problème de prédiction en apprentissage supervisé
  5. Mesures de performance des prédicteurs : pertes locales, risque, prédicteur de Bayes et métriques globales pour données déséquilibrées
  6. Apprentissage non supervisé : clustering et réduction de dimension
  7. Régression linéaire et régression logistique : formulation, avantages et limites
  8. Régression logistique : formulation, optimisation et propriétés

📖 1. Structure et organisation du cours de Machine Learning

🔑 Notions clés & Définitions

  • Error : erreur qui résulte de la différence entre la prédiction d’un modèle et la valeur réelle, pouvant être décomposée en erreur d’estimation et erreur d’approximation.

📝 Points essentiels

  • Le cours comprend 10 conférences totalisant 15 heures, abordant divers thèmes liés au Machine Learning. La première introduction pose le cadre général, tandis que les conférences suivantes traitent des méthodes plug-in, de la sélection de modèle et de la pénalisation. La partie centrale est consacrée aux arbres de décision et aux forêts aléatoires. La progression pédagogique inclut également la minimisation du risque empirique, essentielle pour l’apprentissage supervisé. Enfin, le cours couvre des techniques avancées telles que boosting, réseaux de neurones, transformers, ainsi que des enjeux liés à l’intelligence artificielle générative et aux aspects éthiques, notamment la vie privée, l’équité et la sécurité.

💡 À retenir

Le cours est structuré pour faire progresser l’étudiant à travers une diversité de sujets, depuis les bases jusqu’aux techniques avancées, tout en intégrant des enjeux éthiques pour une compréhension complète du Machine Learning.

📖 2. Applications courantes du Machine Learning dans divers domaines

🔑 Notions clés & Définitions

  • **Machine Learning is everywhere

  • Image** : Champ de l'informatique qui permet aux systèmes d'apprendre et de s'améliorer automatiquement à partir de données, sans être explicitement programmés.

📝 Points essentiels

  • Le Machine Learning est utilisé dans la reconnaissance d'images, la recherche web, les recommandations, la publicité, le scoring, la segmentation de marché, la traduction, la reconnaissance vocale, les voitures autonomes, la santé et l'intelligence artificielle générative.
  • Ces applications montrent la transversalité et l'impact du Machine Learning dans la vie quotidienne et l'industrie.

💡 À retenir

Le Machine Learning est omniprésent, avec des applications concrètes qui démontrent son impact transversal dans de nombreux secteurs.

📖 3. Les quatre tâches typiques du Machine Learning : supervisé, non supervisé, renforcement et génération

🔑 Notions clés & Définitions

  • Supervisé : Apprentissage dans lequel les données d’entrée (Xi) sont associées à des étiquettes (Yi), permettant de prédire ces étiquettes pour de nouvelles données non vues.

  • Data : Ensemble de données comprenant des éléments Xi appartenant à un espace X, avec ou sans étiquettes Yi dans un espace Y.

  • Supervised Learning : Technique où l’objectif est de prédire une étiquette Yi à partir de données Xi étiquetées, en utilisant un modèle entraîné sur un jeu de données d’apprentissage.

  • **Learning

  • Data** : Processus d’apprentissage basé sur des données, avec distinction entre données étiquetées (supervisé) et non étiquetées (non supervisé).

📝 Points essentiels

  • L’apprentissage supervisé consiste à prédire des labels à partir de données étiquetées, telles que la classification de chiffres, la reconnaissance vocale ou la publicité ciblée. Les données Xi sont accompagnées de labels Yi, et l’objectif est de prévoir ces labels pour des données nouvelles ou non vues.

  • L’apprentissage non supervisé vise à découvrir des structures dans des données sans étiquettes, comme la segmentation en petits groupes (clustering) ou la réduction de dimensionnalité pour représenter un espace ambiant plus simple. Ici, les données Xi sont uniquement des vecteurs, sans labels associés.

  • L’apprentissage par renforcement implique une interaction avec un environnement, où chaque action effectuée influence les observations futures. Il s’agit d’un processus où l’agent apprend à optimiser ses actions en fonction des retours qu’il reçoit.

  • L’intelligence artificielle générative consiste à créer de nouvelles données qui ressemblent aux données d’origine, en utilisant un dataset d’entraînement. Elle peut produire des images, du texte ou d’autres types de contenu, en imitant la distribution des données initiales.

💡 À retenir

Les quatre grandes catégories de tâches en Machine Learning se différencient par la nature des données (étiquetées ou non) et par leurs objectifs (prédiction, découverte de structure, interaction ou création). Chacune répond à un besoin spécifique dans le traitement des données.

📖 4. Formulation du problème de prédiction en apprentissage supervisé

🔑 Notions clés & Définitions

  • Attributes/Features” space : espace de représentation des caractéristiques ou attributs d’une donnée, généralement noté X, qui appartient à un sous-ensemble de ℝ^d, où d désigne la dimension de cet espace.

  • label” space : espace des étiquettes ou résultats possibles, noté Y, qui peut être discret (classifieur) ou continu (régressseur).

  • space X ⊂ ℝ^d & ”label” space : indication que l’espace des attributs X est un sous-ensemble de ℝ^d et que l’espace des labels Y est défini en fonction du type de problème (discret ou continu).

📝 Points essentiels

  • Les données d'entrée sont des couples (Xi, Yi) i.i.d. issus d’une loi inconnue sur X × Y, ce qui signifie que chaque paire est indépendante et identiquement distribuée selon une loi conjointe P.

  • L’objectif est de prédire le label Yn+1 associé à une nouvelle donnée Xn+1, à partir du jeu d’entraînement Dn composé de couples (Xi, Yi).

  • Un prédicteur est une fonction f : X → Y, qui peut être un classifieur si Y est discret ou un régressseur si Y est continu, permettant d’estimer le label à partir des attributs.

💡 À retenir

La modélisation mathématique du problème de prédiction supervisée consiste à utiliser un jeu de données d’entraînement pour apprendre une fonction capable de prévoir le label d’une nouvelle donnée, en se basant sur la distribution inconnue des couples attributs-labels.

📖 5. Mesures de performance des prédicteurs : pertes locales, risque, prédicteur de Bayes et métriques globales pour données déséquilibrées

🔑 Notions clés & Définitions

  • Arg minf R(f) et R∗ : dans le contexte de la performance d’un prédicteur, le risque R(f) est une mesure de la performance basée sur une fonction de perte locale ℓ. Le prédicteur de Bayes est celui qui minimise ce risque, avec R∗ représentant le risque minimal atteignable. Le prédicteur optimal f∗ est défini comme celui qui minimise le risque attendu, et R∗ comme le risque associé à ce prédicteur.

  • Bayes predictor : prédicteur qui, pour chaque entrée X, choisit la sortie Y selon la règle qui minimise le risque attendu conditionnel, c’est-à-dire qu’il prédit la valeur qui minimise la perte locale ℓ en moyenne, compte tenu de la distribution conditionnelle P(Y|X).

📝 Points essentiels

  • La performance d’un prédicteur est évaluée par un risque attendu basé sur une fonction de perte locale adaptée au problème. Par exemple, la perte 0-1 est utilisée en classification, la perte quadratique en régression linéaire, et la log-loss en classification logistique. Ce risque R(f) correspond à l’espérance du coût de prédiction erronée ou approximative, calculée sur la distribution P(X, Y).

  • Le prédicteur de Bayes minimise ce risque, constituant ainsi la référence optimale en termes de performance. La règle de Bayes pour la classification consiste à prédire la classe dont la probabilité conditionnelle est la plus élevée, ce qui correspond à la minimisation du risque de classification.

  • Le risque R(f) ne peut pas être évalué directement dans la pratique, car la distribution P est inconnue. On utilise alors un jeu de test indépendant pour estimer la performance, en calculant une moyenne empirique de la perte sur cet ensemble, grâce à la loi des grands nombres.

  • Pour les données déséquilibrées, où une classe est surreprésentée, des métriques globales comme la précision, le rappel, le F1 score ou l’aire sous la courbe ROC sont privilégiées. Ces indicateurs permettent une évaluation plus fine de la performance en tenant compte des classes minoritaires ou des coûts différents liés aux erreurs.

💡 À retenir

Maîtriser la mesure du risque basé sur des pertes locales et comprendre le rôle du prédicteur de Bayes permettent d’évaluer la performance optimale d’un modèle. En pratique, l’utilisation de métriques globales adaptées aux déséquilibres des données est essentielle pour une évaluation fiable.

📖 6. Apprentissage non supervisé : clustering et réduction de dimension

🔑 Notions clés & Définitions

  • Clustering : méthode qui consiste à regrouper un ensemble de données dans un nombre fixe de groupes, appelés clusters, en maximisant la similarité à l’intérieur de chaque groupe et en minimisant la similarité entre groupes. La qualité du clustering dépend du choix du nombre de clusters, souvent noté k.

  • Dimension » représentation de Dn : projection ou transformation des données dans un espace de dimension inférieure, permettant de conserver la structure essentielle tout en simplifiant l’analyse. La réduction de dimension vise à réduire la complexité tout en préservant les relations pertinentes entre les points.

📝 Points essentiels

  • Le clustering regroupe les données en k groupes distincts, en cherchant à maximiser la cohérence interne à chaque cluster, souvent mesurée par une faible similarité intra-cluster, par exemple la distance moyenne entre points d’un même groupe. La séparation entre clusters est favorisée par une grande similarité inter-cluster, c’est-à-dire une distance moyenne élevée entre points de groupes différents.

  • La réduction de dimension projette les données dans un espace de dimension inférieure, notée d, en conservant la structure pertinente. Le choix de d est crucial : une dimension trop faible peut perdre des informations importantes, tandis qu’une dimension trop élevée ne simplifie pas suffisamment la représentation.

  • Le choix du nombre de clusters k et de la dimension réduite d est souvent guidé par des métriques spécifiques, permettant d’évaluer la qualité de la segmentation ou de la projection. Parmi ces métriques, on trouve la recherche d’une faible similarité intra-cluster et d’une grande distance inter-cluster.

  • Les données non étiquetées peuvent ne pas être indépendantes et identiquement distribuées (non i.i.d.), ce qui complique leur analyse et la détermination optimale du nombre de clusters ou de la dimension de projection.

💡 À retenir

L’objectif de ces méthodes est d’extraire des structures significatives et de simplifier la représentation des données sans supervision, en utilisant des techniques de regroupement ou de projection adaptées.

📖 7. Régression linéaire et régression logistique : formulation, avantages et limites

🔑 Notions clés & Définitions

  • Linear Regression : Une méthode de modélisation statistique qui établit une relation linéaire entre des variables explicatives et une variable continue, avec une solution analytique en forme fermée obtenue par minimisation de l'erreur quadratique.

📝 Points essentiels

  • La régression linéaire est simple, intuitive et efficace pour les variables continues mais non adaptée aux variables binaires.
  • La régression linéaire modélise une relation linéaire entre les variables explicatives et une variable continue avec une solution en forme fermée.

💡 À retenir

Les modèles linéaires se distinguent par leur formulation, leur utilité et leurs contraintes : la régression linéaire convient aux variables continues avec une solution analytique, tandis que la régression logistique est adaptée aux variables binaires et requiert une optimisation numérique.

📖 8. Régression logistique : formulation, optimisation et propriétés

🔑 Notions clés & Définitions

  • Fonction de log-vraisemblance : fonction qui, pour un ensemble de données, consiste en une somme de termes log(1 + exp(-yβ⊤x)), où y représente la variable cible et β le vecteur de paramètres. Elle est caractérisée par sa convexité et sa différentiabilité, ce qui facilite son optimisation numérique.

  • Gradient de la log-vraisemblance : vecteur de dérivées partielles de la fonction de log-vraisemblance par rapport à chaque composante de β. Il peut être estimé de manière non biaisée par échantillonnage stochastique, permettant une mise à jour efficace lors de l’optimisation.

  • Optimisation convexe : processus de recherche du minimum global d’une fonction convexe, ici la log-vraisemblance. La convexité assure que toute méthode numérique, comme la descente de gradient, converge vers une solution optimale sans se heurter à des minima locaux.

📝 Points essentiels

  • La fonction de log-vraisemblance en régression logistique est une somme de termes log(1 + exp(-yβ⊤x)), où y est transformé en ˜Y = 2Y - 1. Elle est convexe et différentiable, ce qui facilite son optimisation. Le gradient de cette fonction peut être estimé de manière non biaisée par échantillonnage stochastique, permettant d’adapter efficacement la mise à jour des paramètres lors de l’apprentissage. L’optimisation de cette fonction se réalise via des méthodes numériques, comme la descente de gradient, car aucune solution analytique fermée n’existe. La fonction de perte logistique, substitut convexe et lisse à la perte 0-1, facilite l’optimisation tout en offrant de bonnes performances pratiques.

💡 À retenir

La log-vraisemblance en régression logistique, convexe et différentiable, permet une optimisation efficace par des méthodes numériques, rendant cette approche à la fois robuste et pratique pour la classification binaire.

📊 Tableaux de Synthèse

Comparaison des tâches en Machine Learning

TypeObjectifDonnéesExemples
SuperviséPrédiction d’étiquettesDonnées étiquetéesClassification
Non superviséDécouverte de structuresDonnées non étiquetéesClustering
RenforcementOptimisation d’actionsInteraction avec environnementApprentissage par essais et erreurs
GénérationCréation de nouvelles donnéesDonnées d’entraînementGénération d’images, texte

⚠️ Pièges & Confusions Fréquentes

  1. Confusion entre erreur d’estimation et erreur d’approximation dans la définition de l’erreur.
  2. Mélanger les techniques de supervision et non supervision lors de l’interprétation des méthodes.
  3. Confusion entre risque empirique et risque vrai dans l’évaluation des modèles.
  4. Oublier la distinction entre métriques globales et locales pour l’évaluation.
  5. Confusion entre la modélisation mathématique et la pratique de l’optimisation.
  6. Sous-estimer l’impact des données déséquilibrées sur la performance.
  7. Confondre clustering et classification dans leur objectif et méthode.

✅ Checklist Examen

  1. Comprendre la différence entre apprentissage supervisé et non supervisé.
  2. Savoir formuler un problème de prédiction en apprentissage supervisé.
  3. Connaître les mesures de performance des prédicteurs.
  4. Maîtriser les techniques de clustering et réduction de dimension.
  5. Comprendre la formulation et l’optimisation de la régression logistique.
  6. Différencier risque, perte locale et métriques globales.
  7. Identifier les applications courantes du Machine Learning.
  8. Reconnaître les enjeux éthiques liés au Machine Learning.

Pon a prueba tus conocimientos

Pon a prueba tus conocimientos sobre Introduction aux Techniques de Machine Learning con 8 preguntas de opción múltiple con correcciones detalladas.

1. Quelle étape est essentielle pour l'apprentissage supervisé selon la structure du cours ?

2. Comment le Machine Learning peut-il être appliqué dans le domaine de la santé ?

Realiza el cuestionario →

Repasa con tarjetas de memoria

Memoriza los conceptos clave de Introduction aux Techniques de Machine Learning con 16 tarjetas de memoria interactivas.

Erreur — définition ?

Différence entre prédiction et valeur réelle.

Applications ML — exemples ?

Reconnaissance d'images, voitures autonomes, santé.

Tâche supervisée — rôle ?

Prédire étiquettes à partir de données étiquetées.

Ver tarjetas de memoria →

Similar courses

Crea tus propias hojas de repaso

Importa tu curso y la IA genera hojas, cuestionarios y tarjetas de memoria en 30 segundos.

Generador de hojas