Le cours est structuré pour faire progresser l’étudiant à travers une diversité de sujets, depuis les bases jusqu’aux techniques avancées, tout en intégrant des enjeux éthiques pour une compréhension complète du Machine Learning.
**Machine Learning is everywhere
Image** : Champ de l'informatique qui permet aux systèmes d'apprendre et de s'améliorer automatiquement à partir de données, sans être explicitement programmés.
Le Machine Learning est omniprésent, avec des applications concrètes qui démontrent son impact transversal dans de nombreux secteurs.
Supervisé : Apprentissage dans lequel les données d’entrée (Xi) sont associées à des étiquettes (Yi), permettant de prédire ces étiquettes pour de nouvelles données non vues.
Data : Ensemble de données comprenant des éléments Xi appartenant à un espace X, avec ou sans étiquettes Yi dans un espace Y.
Supervised Learning : Technique où l’objectif est de prédire une étiquette Yi à partir de données Xi étiquetées, en utilisant un modèle entraîné sur un jeu de données d’apprentissage.
**Learning
Data** : Processus d’apprentissage basé sur des données, avec distinction entre données étiquetées (supervisé) et non étiquetées (non supervisé).
L’apprentissage supervisé consiste à prédire des labels à partir de données étiquetées, telles que la classification de chiffres, la reconnaissance vocale ou la publicité ciblée. Les données Xi sont accompagnées de labels Yi, et l’objectif est de prévoir ces labels pour des données nouvelles ou non vues.
L’apprentissage non supervisé vise à découvrir des structures dans des données sans étiquettes, comme la segmentation en petits groupes (clustering) ou la réduction de dimensionnalité pour représenter un espace ambiant plus simple. Ici, les données Xi sont uniquement des vecteurs, sans labels associés.
L’apprentissage par renforcement implique une interaction avec un environnement, où chaque action effectuée influence les observations futures. Il s’agit d’un processus où l’agent apprend à optimiser ses actions en fonction des retours qu’il reçoit.
L’intelligence artificielle générative consiste à créer de nouvelles données qui ressemblent aux données d’origine, en utilisant un dataset d’entraînement. Elle peut produire des images, du texte ou d’autres types de contenu, en imitant la distribution des données initiales.
Les quatre grandes catégories de tâches en Machine Learning se différencient par la nature des données (étiquetées ou non) et par leurs objectifs (prédiction, découverte de structure, interaction ou création). Chacune répond à un besoin spécifique dans le traitement des données.
Attributes/Features” space : espace de représentation des caractéristiques ou attributs d’une donnée, généralement noté X, qui appartient à un sous-ensemble de ℝ^d, où d désigne la dimension de cet espace.
label” space : espace des étiquettes ou résultats possibles, noté Y, qui peut être discret (classifieur) ou continu (régressseur).
space X ⊂ ℝ^d & ”label” space : indication que l’espace des attributs X est un sous-ensemble de ℝ^d et que l’espace des labels Y est défini en fonction du type de problème (discret ou continu).
Les données d'entrée sont des couples (Xi, Yi) i.i.d. issus d’une loi inconnue sur X × Y, ce qui signifie que chaque paire est indépendante et identiquement distribuée selon une loi conjointe P.
L’objectif est de prédire le label Yn+1 associé à une nouvelle donnée Xn+1, à partir du jeu d’entraînement Dn composé de couples (Xi, Yi).
Un prédicteur est une fonction f : X → Y, qui peut être un classifieur si Y est discret ou un régressseur si Y est continu, permettant d’estimer le label à partir des attributs.
La modélisation mathématique du problème de prédiction supervisée consiste à utiliser un jeu de données d’entraînement pour apprendre une fonction capable de prévoir le label d’une nouvelle donnée, en se basant sur la distribution inconnue des couples attributs-labels.
Arg minf R(f) et R∗ : dans le contexte de la performance d’un prédicteur, le risque R(f) est une mesure de la performance basée sur une fonction de perte locale ℓ. Le prédicteur de Bayes est celui qui minimise ce risque, avec R∗ représentant le risque minimal atteignable. Le prédicteur optimal f∗ est défini comme celui qui minimise le risque attendu, et R∗ comme le risque associé à ce prédicteur.
Bayes predictor : prédicteur qui, pour chaque entrée X, choisit la sortie Y selon la règle qui minimise le risque attendu conditionnel, c’est-à-dire qu’il prédit la valeur qui minimise la perte locale ℓ en moyenne, compte tenu de la distribution conditionnelle P(Y|X).
La performance d’un prédicteur est évaluée par un risque attendu basé sur une fonction de perte locale adaptée au problème. Par exemple, la perte 0-1 est utilisée en classification, la perte quadratique en régression linéaire, et la log-loss en classification logistique. Ce risque R(f) correspond à l’espérance du coût de prédiction erronée ou approximative, calculée sur la distribution P(X, Y).
Le prédicteur de Bayes minimise ce risque, constituant ainsi la référence optimale en termes de performance. La règle de Bayes pour la classification consiste à prédire la classe dont la probabilité conditionnelle est la plus élevée, ce qui correspond à la minimisation du risque de classification.
Le risque R(f) ne peut pas être évalué directement dans la pratique, car la distribution P est inconnue. On utilise alors un jeu de test indépendant pour estimer la performance, en calculant une moyenne empirique de la perte sur cet ensemble, grâce à la loi des grands nombres.
Pour les données déséquilibrées, où une classe est surreprésentée, des métriques globales comme la précision, le rappel, le F1 score ou l’aire sous la courbe ROC sont privilégiées. Ces indicateurs permettent une évaluation plus fine de la performance en tenant compte des classes minoritaires ou des coûts différents liés aux erreurs.
Maîtriser la mesure du risque basé sur des pertes locales et comprendre le rôle du prédicteur de Bayes permettent d’évaluer la performance optimale d’un modèle. En pratique, l’utilisation de métriques globales adaptées aux déséquilibres des données est essentielle pour une évaluation fiable.
Clustering : méthode qui consiste à regrouper un ensemble de données dans un nombre fixe de groupes, appelés clusters, en maximisant la similarité à l’intérieur de chaque groupe et en minimisant la similarité entre groupes. La qualité du clustering dépend du choix du nombre de clusters, souvent noté k.
Dimension » représentation de Dn : projection ou transformation des données dans un espace de dimension inférieure, permettant de conserver la structure essentielle tout en simplifiant l’analyse. La réduction de dimension vise à réduire la complexité tout en préservant les relations pertinentes entre les points.
Le clustering regroupe les données en k groupes distincts, en cherchant à maximiser la cohérence interne à chaque cluster, souvent mesurée par une faible similarité intra-cluster, par exemple la distance moyenne entre points d’un même groupe. La séparation entre clusters est favorisée par une grande similarité inter-cluster, c’est-à-dire une distance moyenne élevée entre points de groupes différents.
La réduction de dimension projette les données dans un espace de dimension inférieure, notée d, en conservant la structure pertinente. Le choix de d est crucial : une dimension trop faible peut perdre des informations importantes, tandis qu’une dimension trop élevée ne simplifie pas suffisamment la représentation.
Le choix du nombre de clusters k et de la dimension réduite d est souvent guidé par des métriques spécifiques, permettant d’évaluer la qualité de la segmentation ou de la projection. Parmi ces métriques, on trouve la recherche d’une faible similarité intra-cluster et d’une grande distance inter-cluster.
Les données non étiquetées peuvent ne pas être indépendantes et identiquement distribuées (non i.i.d.), ce qui complique leur analyse et la détermination optimale du nombre de clusters ou de la dimension de projection.
L’objectif de ces méthodes est d’extraire des structures significatives et de simplifier la représentation des données sans supervision, en utilisant des techniques de regroupement ou de projection adaptées.
Les modèles linéaires se distinguent par leur formulation, leur utilité et leurs contraintes : la régression linéaire convient aux variables continues avec une solution analytique, tandis que la régression logistique est adaptée aux variables binaires et requiert une optimisation numérique.
Fonction de log-vraisemblance : fonction qui, pour un ensemble de données, consiste en une somme de termes log(1 + exp(-yβ⊤x)), où y représente la variable cible et β le vecteur de paramètres. Elle est caractérisée par sa convexité et sa différentiabilité, ce qui facilite son optimisation numérique.
Gradient de la log-vraisemblance : vecteur de dérivées partielles de la fonction de log-vraisemblance par rapport à chaque composante de β. Il peut être estimé de manière non biaisée par échantillonnage stochastique, permettant une mise à jour efficace lors de l’optimisation.
Optimisation convexe : processus de recherche du minimum global d’une fonction convexe, ici la log-vraisemblance. La convexité assure que toute méthode numérique, comme la descente de gradient, converge vers une solution optimale sans se heurter à des minima locaux.
La log-vraisemblance en régression logistique, convexe et différentiable, permet une optimisation efficace par des méthodes numériques, rendant cette approche à la fois robuste et pratique pour la classification binaire.
Comparaison des tâches en Machine Learning
| Type | Objectif | Données | Exemples |
|---|---|---|---|
| Supervisé | Prédiction d’étiquettes | Données étiquetées | Classification |
| Non supervisé | Découverte de structures | Données non étiquetées | Clustering |
| Renforcement | Optimisation d’actions | Interaction avec environnement | Apprentissage par essais et erreurs |
| Génération | Création de nouvelles données | Données d’entraînement | Génération d’images, texte |
Тествайте знанията си по Introduction aux Techniques de Machine Learning с 8 въпроса с множество отговори с подробни корекции.
1. Quelle étape est essentielle pour l'apprentissage supervisé selon la structure du cours ?
2. Comment le Machine Learning peut-il être appliqué dans le domaine de la santé ?
Запомнете ключовите концепции на Introduction aux Techniques de Machine Learning с 16 интерактивни флашкарти.
Erreur — définition ?
Différence entre prédiction et valeur réelle.
Applications ML — exemples ?
Reconnaissance d'images, voitures autonomes, santé.
Tâche supervisée — rôle ?
Prédire étiquettes à partir de données étiquetées.
Intelligence Artificielle
Bases de données
Bases de données
Bases de données
Импортирайте курса си и AI генерира листове, тестове и флашкарти за 30 секунди.
Генератор на листове