Lernzettel: Introduction au Machine Learning et Types de Données

📋 Plan du Cours

  1. Données et information
  2. Types de données
  3. Machine Learning et apprentissage
  4. Apprentissage supervisé
  5. Classification et régression
  6. Régression linéaire
  7. Apprentissage non supervisé

📖 1. Données et information

🔑 Notions clés & Définitions

  • Donnée : Une donnée correspond à une observation brute, non analysée, utilisée comme matière première pour obtenir ensuite de l’information.
  • Information : Une information est le sens interprété d’observations, présenté comme un message compréhensible grâce à une mise en contexte.
  • Observation brute : Une observation brute désigne des valeurs telles quelles, sans organisation ni interprétation préalable pour guider l’analyse.

📝 Points essentiels

  • Les données sont présentées comme des observations brutes non organisées et non liées, puis servent après analyse à produire de l’information.
  • L’information est des données interprétées, perçues comme un message donnant un sens aux observations de départ.
  • Exemple de données : 15, 29, 30, 2000, 4000, 01/01/2000, qui ne formulent pas encore un message.
  • Exemple d’information : 20 ans, 21 ans, 4000 dh, avec la date de naissance 01/01/2000 indiquant un sens interprété.
  • Un jeu de données désigne un ensemble organisé de données liées entre elles, souvent stocké en format structuré ou non structuré.

💡 Astuce mémo

Données = briques brutes ; information = message assemblé.

📖 2. Types de données

🔑 Notions clés & Définitions

  • Données structurées : Les données structurées suivent un schéma prédéfini et sont organisées pour faciliter l’analyse quantitative et la recherche.
  • Données non structurées : Les données non structurées n’ont pas de format fixe ni schéma prédéfini, ce qui rend leur organisation et leur analyse plus complexes.
  • Données semi-structurées : Les données semi-structurées ne reposent pas sur un modèle tabulaire fixe, mais contiennent des éléments structurels comme des balises et des métadonnées.

📝 Points essentiels

  • Données structurées : les valeurs sont rangées en lignes et colonnes avec des relations prédéfinies entre entités.
  • Données structurées : le schéma fixe rend la recherche et l’analyse plus simples, et elles peuvent être exploitées via des requêtes SQL.
  • Exemples de données structurées : feuilles Excel, tables SQL et fichiers CSV.
  • Données non structurées : absence de format fixe et nécessité de techniques d’extraction pour obtenir des informations exploitables.
  • Données non structurées : les méthodes NLP sont souvent utilisées pour extraire du sens de données textuelles.
  • Données semi-structurées : des balises et métadonnées facilitent l’analyse, par exemple HTML, graphiques, e-mails, XML.

💡 Astuce mémo

Structurées = tableau ; non structurées = sans modèle ; semi-structurées = modèle incomplet avec balises.

📖 3. Machine Learning et apprentissage

🔑 Notions clés & Définitions

  • Machine Learning : Le machine learning est une branche de l’intelligence artificielle qui apprend automatiquement des régularités à partir de grands ensembles de données.
  • Algorithme de prédiction : Un algorithme de prédiction est un procédé qui utilise un modèle pour estimer des résultats à partir de données d’entrée.
  • Comportements récurrents : Les comportements récurrents sont des motifs répétitifs que le modèle cherche à repérer dans les données.

📝 Points essentiels

  • Le machine learning apprend à identifier des comportements récurrents dans des données comme des mots, chiffres, images ou sons.
  • Les algorithmes modélisent les données pour prédire des résultats ou améliorer les performances d’une tâche.
  • Grâce à des données existantes, le système effectue des estimations et des prédictions.
  • Le machine learning utilise des itérations d’apprentissage à partir d’erreurs mesurées et de corrections (loss/erreur).
  • Le cycle apprentissage comprend apprentissage sur données d’entraînement, calcul d’erreur, correction, optimisation, puis évaluation sur un test set.

💡 Astuce mémo

ML = apprendre des motifs pour prédire, en corrigeant l’erreur à chaque itération.

📖 4. Apprentissage supervisé

🔑 Notions clés & Définitions

  • Apprentissage supervisé : L’apprentissage supervisé entraîne des algorithmes à partir de données étiquetées pour classer ou prédire avec précision.
  • Données labellisées : Les données labellisées sont des exemples où la réponse attendue est fournie, servant de référence à l’entraînement.
  • Classification : La classification est un type de problème supervisé où la machine attribue une étiquette à une donnée qualitative.
  • Régression : La régression est un problème supervisé où la machine prédit une valeur quantitative continue.

📝 Points essentiels

  • L’apprentissage supervisé ajuste ses pondérations jusqu’à obtenir un modèle correctement ajusté aux exemples labellisés.
  • Une démarche type en supervisé comprend : importer le dataset, modéliser, calculer (statistiques/probabilités) et développer l’algorithme.
  • Exemple de classification supervisée : détection de spam (spam / non spam).
  • Dans la régression, la variable cible Y est quantitative et X peut être quantitative ou qualitative.
  • Exemples de régression : prix d’une maison selon la surface, salaire selon les années d’expérience, score selon le temps d’étude.
  • En supervisé, la machine “connaît” les réponses attendues grâce aux labels fournis par les données.

💡 Astuce mémo

Supervisé = on donne la réponse attendue (labels) ; Classification = étiquette ; Régression = nombre.

📖 5. Classification et régression

🔑 Notions clés & Définitions

  • Problème de classification : Un problème de classification consiste à attribuer un label à une observation à partir de caractéristiques issues des données.
  • Problème de régression : Un problème de régression consiste à prédire une valeur quantitative à partir d’une ou plusieurs variables explicatives.
  • Variable qualitative : Une variable qualitative décrit une catégorie (classe/étiquette) plutôt qu’une quantité numérique continue.
  • Variable quantitative : Une variable quantitative représente une grandeur mesurable sous forme numérique.

📝 Points essentiels

  • La classification utilise un algorithme pour classer des données qualitatives avec une étiquette attendue.
  • La classification reconnaît des entités et vise à déterminer comment elles doivent être étiquetées ou définies.
  • La régression prédit une variable quantitative et cherche une valeur estimée correspondant aux données d’entraînement.
  • Exemples de classification : cancer/non cancer et animaux.
  • Exemples de régression : évolution du climat, consommation électrique et estimation du prix en fonction d’un facteur.
  • Régression : la cible Y est quantitative tandis que X peut être quantitative ou qualitative.

💡 Astuce mémo

Catégories → classification ; Grandeurs numériques → régression.

📖 6. Régression linéaire

🔑 Notions clés & Définitions

  • Régression linéaire : La régression linéaire est un modèle qui cherche une relation linéaire entre une variable cible quantitative et des variables explicatives.
  • Variable cible Y : La variable cible Y est la valeur à prédire dans un modèle de régression linéaire, ici quantitative.
  • Training set : Le training set est l’ensemble de données d’entraînement utilisé pour ajuster le modèle de manière à coller aux points observés.

📝 Points essentiels

  • Un modèle de régression linéaire relie une cible quantitative Y à des variables X (quantitatives ou qualitatives).
  • La régression linéaire consiste à trouver une droite la plus proche possible des points du training set.
  • Exemple : prédire le prix d’une maison en fonction de sa surface.
  • Exemple : estimer le salaire en fonction des années d’expérience.
  • Exemple : prédire les ventes selon le budget marketing.
  • Exemple : anticiper le score d’un étudiant selon le nombre d’heures d’étude.

💡 Astuce mémo

Droite qui colle au nuage de points : la prédiction vient de la ligne.

📖 7. Apprentissage non supervisé

🔑 Notions clés & Définitions

  • Apprentissage non supervisé : L’apprentissage non supervisé regroupe des apprentissages où l’on ne dispose pas d’étiquettes pour apprendre des structures dans les données.
  • Données sans étiquettes : Les données sans étiquettes sont des exemples dépourvus de réponse attendue, utilisés pour révéler des régularités.
  • Apprentissage semi supervisé : L’apprentissage semi supervisé combine des données avec étiquettes et des données sans étiquettes pendant l’entraînement.
  • Apprentissage par renforcement : L’apprentissage par renforcement apprend à partir d’interactions, en cherchant une amélioration de performance au fil des essais.

📝 Points essentiels

  • Le machine learning existe sous plusieurs types : apprentissage supervisé, non supervisé, semi supervisé et par renforcement.
  • L’apprentissage supervisé est explicitement distinct des autres types car il s’appuie sur des données étiquetées.

📊 Tableaux de synthèse

Comparaison structurées vs non structurées

TypeSchémaExemples
StructuréesSchéma prédéfini avec lignes/colonnesExcel, SQL, CSV
Non structuréesPas de format préétablitexte brut, images, vidéos, audio, PDF
Semi-structuréesPas de schéma tabulaire fixe, balises/métadonnéesHTML, e-mails, XML

⚠️ Pièges & confusions fréquents

  1. Confondre donnée et information : une donnée est brute et interprétation comprise n’est pas encore faite.
  2. Penser que les données structurées n’ont pas de schéma : elles suivent au contraire un format prédéfini.
  3. Croire que les données non structurées se rangent facilement en bases relationnelles : elles ne suivent pas un modèle fixe.
  4. Inverser classification et régression : la classification prédit une étiquette, la régression prédit une valeur quantitative.
  5. Oublier que l’apprentissage supervisé suppose des données labellisées fournissant les réponses attendues.
  6. Croire que la régression linéaire ne concerne que des variables numériques pour X : X peut être quantitative ou qualitative.
  7. Penser que l’apprentissage non supervisé fait forcément partie de l’apprentissage supervisé : ce sont des types distincts du machine learning.

✅ Checklist Examen

  1. Expliquer la différence entre données et information à partir de l’idée d’interprétation.
  2. Définir une donnée et donner au moins un exemple typique de valeurs brutes.
  3. Définir un jeu de données comme un ensemble organisé de données liées.
  4. Distinguer données structurées, non structurées et semi-structurées par rapport au schéma.
  5. Donner au moins deux exemples de données structurées cités (Excel, SQL, CSV).
  6. Donner au moins deux exemples de données non structurées cités (texte brut, images, vidéos, audio, PDF).
  7. Donner au moins un exemple de données semi-structurées cité (HTML, e-mails, XML).
  8. Définir le machine learning et préciser ce qu’il cherche à apprendre dans les données.
  9. Lister les types de machine learning cités : supervisé, non supervisé, semi supervisé, renforcement.
  10. Définir l’apprentissage supervisé et expliquer le rôle des données labellisées.
  11. Distinguer classification et régression en précisant le type de variable cible Y.
  12. Donner un exemple de classification supervisée et un exemple de régression supervisée cités.
  13. Définir la régression linéaire comme une recherche d’une droite proche des points du training set.
  14. Expliquer la procédure en 4 étapes de l’apprentissage supervisé : importer, modéliser, calculer, développer l’algorithme.

Teste dein Wissen

Teste dein Wissen zu Introduction au Machine Learning et Types de Données mit 14 Multiple-Choice-Fragen mit detaillierten Korrekturen.

1. En apprentissage supervisé, sur quoi repose l’entraînement des algorithmes ?

2. Qu’est-ce qui caractérise l’apprentissage non supervisé ?

Quiz machen →

Mit Karteikarten lernen

Merke dir die Schlüsselkonzepte von Introduction au Machine Learning et Types de Données mit 14 interaktiven Karteikarten.

Données — définition ?

Observations brutes non analysées.

Information — définition ?

Sens interprété d’observations.

Observation brute — rôle ?

Fournir des valeurs sans organisation.

Karteikarten ansehen →

Similar courses

Erstelle deine eigenen Lernzettel

Importiere deinen Kurs und die KI erstellt in 30 Sekunden Lernzettel, Quizze und Karteikarten.

Lernzettel-Generator