Hoja de Repaso: Introduction aux Techniques de Machine Learning

Plan du Cours

Structure et organisation du cours de Machine Learning
Applications courantes du Machine Learning dans divers domaines
Les quatre tâches typiques du Machine Learning : supervisé, non supervisé, renforcement et génération
Formulation du problème de prédiction en apprentissage supervisé
Mesures de performance des prédicteurs : pertes locales, risque, prédicteur de Bayes et métriques globales pour données déséquilibrées
Apprentissage non supervisé : clustering et réduction de dimension
Régression linéaire et régression logistique : formulation, avantages et limites
Régression logistique : formulation, optimisation et propriétés

1. Structure et organisation du cours de Machine Learning

Notions clés & Définitions

Error : erreur qui résulte de la différence entre la prédiction d’un modèle et la valeur réelle, pouvant être décomposée en erreur d’estimation et erreur d’approximation.

Points essentiels

Le cours comprend 10 conférences totalisant 15 heures, abordant divers thèmes liés au Machine Learning. La première introduction pose le cadre général, tandis que les conférences suivantes traitent des méthodes plug-in, de la sélection de modèle et de la pénalisation. La partie centrale est consacrée aux arbres de décision et aux forêts aléatoires. La progression pédagogique inclut également la minimisation du risque empirique, essentielle pour l’apprentissage supervisé. Enfin, le cours couvre des techniques avancées telles que boosting, réseaux de neurones, transformers, ainsi que des enjeux liés à l’intelligence artificielle générative et aux aspects éthiques, notamment la vie privée, l’équité et la sécurité.

À retenir

Le cours est structuré pour faire progresser l’étudiant à travers une diversité de sujets, depuis les bases jusqu’aux techniques avancées, tout en intégrant des enjeux éthiques pour une compréhension complète du Machine Learning.

2. Applications courantes du Machine Learning dans divers domaines

Notions clés & Définitions

**Machine Learning is everywhere
Image** : Champ de l'informatique qui permet aux systèmes d'apprendre et de s'améliorer automatiquement à partir de données, sans être explicitement programmés.

Points essentiels

Le Machine Learning est utilisé dans la reconnaissance d'images, la recherche web, les recommandations, la publicité, le scoring, la segmentation de marché, la traduction, la reconnaissance vocale, les voitures autonomes, la santé et l'intelligence artificielle générative.
Ces applications montrent la transversalité et l'impact du Machine Learning dans la vie quotidienne et l'industrie.

À retenir

Le Machine Learning est omniprésent, avec des applications concrètes qui démontrent son impact transversal dans de nombreux secteurs.

3. Les quatre tâches typiques du Machine Learning : supervisé, non supervisé, renforcement et génération

Notions clés & Définitions

Supervisé : Apprentissage dans lequel les données d’entrée (Xi) sont associées à des étiquettes (Yi), permettant de prédire ces étiquettes pour de nouvelles données non vues.
Data : Ensemble de données comprenant des éléments Xi appartenant à un espace X, avec ou sans étiquettes Yi dans un espace Y.
Supervised Learning : Technique où l’objectif est de prédire une étiquette Yi à partir de données Xi étiquetées, en utilisant un modèle entraîné sur un jeu de données d’apprentissage.
**Learning
Data** : Processus d’apprentissage basé sur des données, avec distinction entre données étiquetées (supervisé) et non étiquetées (non supervisé).

Points essentiels

L’apprentissage supervisé consiste à prédire des labels à partir de données étiquetées, telles que la classification de chiffres, la reconnaissance vocale ou la publicité ciblée. Les données Xi sont accompagnées de labels Yi, et l’objectif est de prévoir ces labels pour des données nouvelles ou non vues.
L’apprentissage non supervisé vise à découvrir des structures dans des données sans étiquettes, comme la segmentation en petits groupes (clustering) ou la réduction de dimensionnalité pour représenter un espace ambiant plus simple. Ici, les données Xi sont uniquement des vecteurs, sans labels associés.
L’apprentissage par renforcement implique une interaction avec un environnement, où chaque action effectuée influence les observations futures. Il s’agit d’un processus où l’agent apprend à optimiser ses actions en fonction des retours qu’il reçoit.
L’intelligence artificielle générative consiste à créer de nouvelles données qui ressemblent aux données d’origine, en utilisant un dataset d’entraînement. Elle peut produire des images, du texte ou d’autres types de contenu, en imitant la distribution des données initiales.

À retenir

Les quatre grandes catégories de tâches en Machine Learning se différencient par la nature des données (étiquetées ou non) et par leurs objectifs (prédiction, découverte de structure, interaction ou création). Chacune répond à un besoin spécifique dans le traitement des données.

4. Formulation du problème de prédiction en apprentissage supervisé

Notions clés & Définitions

Attributes/Features” space : espace de représentation des caractéristiques ou attributs d’une donnée, généralement noté X, qui appartient à un sous-ensemble de ℝ^d, où d désigne la dimension de cet espace.
label” space : espace des étiquettes ou résultats possibles, noté Y, qui peut être discret (classifieur) ou continu (régressseur).
space X ⊂ ℝ^d & ”label” space : indication que l’espace des attributs X est un sous-ensemble de ℝ^d et que l’espace des labels Y est défini en fonction du type de problème (discret ou continu).

Points essentiels

Les données d'entrée sont des couples (Xi, Yi) i.i.d. issus d’une loi inconnue sur X × Y, ce qui signifie que chaque paire est indépendante et identiquement distribuée selon une loi conjointe P.
L’objectif est de prédire le label Yn+1 associé à une nouvelle donnée Xn+1, à partir du jeu d’entraînement Dn composé de couples (Xi, Yi).
Un prédicteur est une fonction f : X → Y, qui peut être un classifieur si Y est discret ou un régressseur si Y est continu, permettant d’estimer le label à partir des attributs.

À retenir

La modélisation mathématique du problème de prédiction supervisée consiste à utiliser un jeu de données d’entraînement pour apprendre une fonction capable de prévoir le label d’une nouvelle donnée, en se basant sur la distribution inconnue des couples attributs-labels.

5. Mesures de performance des prédicteurs : pertes locales, risque, prédicteur de Bayes et métriques globales pour données déséquilibrées

Notions clés & Définitions

Arg minf R(f) et R∗ : dans le contexte de la performance d’un prédicteur, le risque R(f) est une mesure de la performance basée sur une fonction de perte locale ℓ. Le prédicteur de Bayes est celui qui minimise ce risque, avec R∗ représentant le risque minimal atteignable. Le prédicteur optimal f∗ est défini comme celui qui minimise le risque attendu, et R∗ comme le risque associé à ce prédicteur.
Bayes predictor : prédicteur qui, pour chaque entrée X, choisit la sortie Y selon la règle qui minimise le risque attendu conditionnel, c’est-à-dire qu’il prédit la valeur qui minimise la perte locale ℓ en moyenne, compte tenu de la distribution conditionnelle P(Y|X).

Points essentiels

La performance d’un prédicteur est évaluée par un risque attendu basé sur une fonction de perte locale adaptée au problème. Par exemple, la perte 0-1 est utilisée en classification, la perte quadratique en régression linéaire, et la log-loss en classification logistique. Ce risque R(f) correspond à l’espérance du coût de prédiction erronée ou approximative, calculée sur la distribution P(X, Y).
Le prédicteur de Bayes minimise ce risque, constituant ainsi la référence optimale en termes de performance. La règle de Bayes pour la classification consiste à prédire la classe dont la probabilité conditionnelle est la plus élevée, ce qui correspond à la minimisation du risque de classification.
Le risque R(f) ne peut pas être évalué directement dans la pratique, car la distribution P est inconnue. On utilise alors un jeu de test indépendant pour estimer la performance, en calculant une moyenne empirique de la perte sur cet ensemble, grâce à la loi des grands nombres.
Pour les données déséquilibrées, où une classe est surreprésentée, des métriques globales comme la précision, le rappel, le F1 score ou l’aire sous la courbe ROC sont privilégiées. Ces indicateurs permettent une évaluation plus fine de la performance en tenant compte des classes minoritaires ou des coûts différents liés aux erreurs.

À retenir

Maîtriser la mesure du risque basé sur des pertes locales et comprendre le rôle du prédicteur de Bayes permettent d’évaluer la performance optimale d’un modèle. En pratique, l’utilisation de métriques globales adaptées aux déséquilibres des données est essentielle pour une évaluation fiable.

6. Apprentissage non supervisé : clustering et réduction de dimension

Notions clés & Définitions

Clustering : méthode qui consiste à regrouper un ensemble de données dans un nombre fixe de groupes, appelés clusters, en maximisant la similarité à l’intérieur de chaque groupe et en minimisant la similarité entre groupes. La qualité du clustering dépend du choix du nombre de clusters, souvent noté k.
Dimension » représentation de Dn : projection ou transformation des données dans un espace de dimension inférieure, permettant de conserver la structure essentielle tout en simplifiant l’analyse. La réduction de dimension vise à réduire la complexité tout en préservant les relations pertinentes entre les points.

Points essentiels

Le clustering regroupe les données en k groupes distincts, en cherchant à maximiser la cohérence interne à chaque cluster, souvent mesurée par une faible similarité intra-cluster, par exemple la distance moyenne entre points d’un même groupe. La séparation entre clusters est favorisée par une grande similarité inter-cluster, c’est-à-dire une distance moyenne élevée entre points de groupes différents.
La réduction de dimension projette les données dans un espace de dimension inférieure, notée d, en conservant la structure pertinente. Le choix de d est crucial : une dimension trop faible peut perdre des informations importantes, tandis qu’une dimension trop élevée ne simplifie pas suffisamment la représentation.
Le choix du nombre de clusters k et de la dimension réduite d est souvent guidé par des métriques spécifiques, permettant d’évaluer la qualité de la segmentation ou de la projection. Parmi ces métriques, on trouve la recherche d’une faible similarité intra-cluster et d’une grande distance inter-cluster.
Les données non étiquetées peuvent ne pas être indépendantes et identiquement distribuées (non i.i.d.), ce qui complique leur analyse et la détermination optimale du nombre de clusters ou de la dimension de projection.

À retenir

L’objectif de ces méthodes est d’extraire des structures significatives et de simplifier la représentation des données sans supervision, en utilisant des techniques de regroupement ou de projection adaptées.

7. Régression linéaire et régression logistique : formulation, avantages et limites

Notions clés & Définitions

Linear Regression : Une méthode de modélisation statistique qui établit une relation linéaire entre des variables explicatives et une variable continue, avec une solution analytique en forme fermée obtenue par minimisation de l'erreur quadratique.

Points essentiels

La régression linéaire est simple, intuitive et efficace pour les variables continues mais non adaptée aux variables binaires.
La régression linéaire modélise une relation linéaire entre les variables explicatives et une variable continue avec une solution en forme fermée.

À retenir

Les modèles linéaires se distinguent par leur formulation, leur utilité et leurs contraintes : la régression linéaire convient aux variables continues avec une solution analytique, tandis que la régression logistique est adaptée aux variables binaires et requiert une optimisation numérique.

8. Régression logistique : formulation, optimisation et propriétés

Notions clés & Définitions

Fonction de log-vraisemblance : fonction qui, pour un ensemble de données, consiste en une somme de termes log(1 + exp(-yβ⊤x)), où y représente la variable cible et β le vecteur de paramètres. Elle est caractérisée par sa convexité et sa différentiabilité, ce qui facilite son optimisation numérique.
Gradient de la log-vraisemblance : vecteur de dérivées partielles de la fonction de log-vraisemblance par rapport à chaque composante de β. Il peut être estimé de manière non biaisée par échantillonnage stochastique, permettant une mise à jour efficace lors de l’optimisation.
Optimisation convexe : processus de recherche du minimum global d’une fonction convexe, ici la log-vraisemblance. La convexité assure que toute méthode numérique, comme la descente de gradient, converge vers une solution optimale sans se heurter à des minima locaux.

Points essentiels

La fonction de log-vraisemblance en régression logistique est une somme de termes log(1 + exp(-yβ⊤x)), où y est transformé en ˜Y = 2Y - 1. Elle est convexe et différentiable, ce qui facilite son optimisation. Le gradient de cette fonction peut être estimé de manière non biaisée par échantillonnage stochastique, permettant d’adapter efficacement la mise à jour des paramètres lors de l’apprentissage. L’optimisation de cette fonction se réalise via des méthodes numériques, comme la descente de gradient, car aucune solution analytique fermée n’existe. La fonction de perte logistique, substitut convexe et lisse à la perte 0-1, facilite l’optimisation tout en offrant de bonnes performances pratiques.

À retenir

La log-vraisemblance en régression logistique, convexe et différentiable, permet une optimisation efficace par des méthodes numériques, rendant cette approche à la fois robuste et pratique pour la classification binaire.

Tableaux de Synthèse

Comparaison des tâches en Machine Learning

Type	Objectif	Données	Exemples
Supervisé	Prédiction d’étiquettes	Données étiquetées	Classification
Non supervisé	Découverte de structures	Données non étiquetées	Clustering
Renforcement	Optimisation d’actions	Interaction avec environnement	Apprentissage par essais et erreurs
Génération	Création de nouvelles données	Données d’entraînement	Génération d’images, texte

Pièges & Confusions Fréquentes

Confusion entre erreur d’estimation et erreur d’approximation dans la définition de l’erreur.
Mélanger les techniques de supervision et non supervision lors de l’interprétation des méthodes.
Confusion entre risque empirique et risque vrai dans l’évaluation des modèles.
Oublier la distinction entre métriques globales et locales pour l’évaluation.
Confusion entre la modélisation mathématique et la pratique de l’optimisation.
Sous-estimer l’impact des données déséquilibrées sur la performance.
Confondre clustering et classification dans leur objectif et méthode.

Checklist Examen

Comprendre la différence entre apprentissage supervisé et non supervisé.
Savoir formuler un problème de prédiction en apprentissage supervisé.
Connaître les mesures de performance des prédicteurs.
Maîtriser les techniques de clustering et réduction de dimension.
Comprendre la formulation et l’optimisation de la régression logistique.
Différencier risque, perte locale et métriques globales.
Identifier les applications courantes du Machine Learning.
Reconnaître les enjeux éthiques liés au Machine Learning.

📋 Plan du Cours

📖 1. Structure et organisation du cours de Machine Learning

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Applications courantes du Machine Learning dans divers domaines

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 3. Les quatre tâches typiques du Machine Learning : supervisé, non supervisé, renforcement et génération

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Formulation du problème de prédiction en apprentissage supervisé

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Mesures de performance des prédicteurs : pertes locales, risque, prédicteur de Bayes et métriques globales pour données déséquilibrées

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Apprentissage non supervisé : clustering et réduction de dimension

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Régression linéaire et régression logistique : formulation, avantages et limites

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Régression logistique : formulation, optimisation et propriétés

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📊 Tableaux de Synthèse

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Pon a prueba tus conocimientos

Repasa con tarjetas de memoria

Similar courses

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Crea tus propias hojas de repaso

Plan du Cours

1. Structure et organisation du cours de Machine Learning

Notions clés & Définitions

Points essentiels

À retenir

2. Applications courantes du Machine Learning dans divers domaines

Notions clés & Définitions

Points essentiels

À retenir

3. Les quatre tâches typiques du Machine Learning : supervisé, non supervisé, renforcement et génération

Notions clés & Définitions

Points essentiels

À retenir

4. Formulation du problème de prédiction en apprentissage supervisé

Notions clés & Définitions

Points essentiels

À retenir

5. Mesures de performance des prédicteurs : pertes locales, risque, prédicteur de Bayes et métriques globales pour données déséquilibrées

Notions clés & Définitions

Points essentiels

À retenir

6. Apprentissage non supervisé : clustering et réduction de dimension

Notions clés & Définitions

Points essentiels

À retenir

7. Régression linéaire et régression logistique : formulation, avantages et limites

Notions clés & Définitions

Points essentiels

À retenir

8. Régression logistique : formulation, optimisation et propriétés

Notions clés & Définitions

Points essentiels

À retenir

Tableaux de Synthèse

Pièges & Confusions Fréquentes

Checklist Examen