Lernzettel: Introduction aux Méthodes d'Intelligence Artificielle

📋 Plan du Cours

  1. Méthodes d'apprentissage supervisé
  2. Algorithmes classiques IA
  3. KNN et KMeans
  4. Régression linéaire et polynomiale
  5. Arbres de décision et forêts
  6. SVM et plongements
  7. Classifieurs bayésiens
  8. Choix de méthode IA
  9. Évaluation des modèles
  10. Ensemble learning

📖 1. Méthodes d'apprentissage supervisé

🔑 Notions clés & Définitions

  • KNN (K plus proches voisins) : Méthode de classification ou de régression où la prédiction d’un point se fait en fonction de ses k voisins les plus proches dans l’espace des données. La classification se base sur un vote majoritaire, tandis que la régression utilise la moyenne des valeurs des voisins. (source : intro à l’IA)

  • Régression par moyenne (KNN) : Variante de KNN pour la régression, où la valeur prédite est la moyenne des valeurs des k voisins les plus proches. Elle permet d’estimer une variable continue en se basant sur la proximité dans l’espace des données. (source : intro à l’IA)

  • Principe des k plus proches voisins : Approche non paramétrique qui consiste à classer ou prédire une donnée en fonction de ses k voisins les plus proches, selon une métrique de distance. La méthode repose sur la proximité dans l’espace des caractéristiques. (source : intro à l’IA)

📝 Points essentiels

  • La méthode KNN est simple, efficace pour des données peu bruitées, et ne nécessite pas d’entraînement préalable, mais elle peut être coûteuse en calcul lors de la testation, surtout avec de grands ensembles de données.

  • La classification par vote majoritaire (KNN) consiste à attribuer la classe la plus fréquente parmi les k voisins, ce qui la rend robuste face à des données bruitées.

  • La régression par moyenne (KNN) prédit une valeur continue en faisant la moyenne des k voisins, ce qui permet une modélisation flexible pour des relations non linéaires.

  • La sélection du nombre de voisins k est cruciale : un k trop petit peut rendre le modèle sensible au bruit, un k trop grand peut lisser excessivement la prédiction.

  • La distance utilisée (Euclidienne, Manhattan, etc.) influence fortement la performance de la méthode, en fonction de la nature des données.

  • La méthode est souvent utilisée comme baseline ou pour des problèmes où la relation entre variables n’est pas connue a priori.

💡 À retenir

Le principe des k plus proches voisins repose sur la proximité dans l’espace des données pour classifier ou prédire, en utilisant la majorité ou la moyenne des voisins, sans phase d’entraînement, ce qui en fait une méthode simple mais sensible à la sélection du paramètre k et à la métrique de distance.

📖 2. Algorithmes classiques IA

🔑 Notions clés & Définitions

  • Réseaux Neurones : Modèles computationnels inspirés du fonctionnement du cerveau humain, composés de neurones artificiels interconnectés capables d'apprendre des représentations complexes à partir de données. AUTEUR (date) : concept fondamental en IA pour la modélisation de tâches non linéaires.

  • Analyse de données préalable : Étape d'exploration et de préparation des données avant l'apprentissage, permettant d'identifier les relations, la distribution et la qualité des données pour optimiser la modélisation.

  • Coefficient de corrélation (Pearson) : Mesure statistique de la force et de la direction d'une relation linéaire entre deux variables numériques, variant entre -1 et +1. AUTEUR (date) : utilisé pour l’analyse de dépendance linéaire en régression et séparation linéaire.

📝 Points essentiels

  • La sélection d’un algorithme dépend du problème, de la nature et du volume des données, ainsi que de leurs propriétés (TM : "Il n’y pas de méthode miracle !"). Le transfert learning permet d’orienter vers les modèles les plus adaptés pour certaines classes de données.

  • La méthode des k plus proches voisins (KNN) est une technique simple : pour la classification, elle vote pour la classe majoritaire parmi les k voisins ; pour la régression, elle calcule la moyenne des valeurs voisines.

  • La régression linéaire nécessite une analyse préalable des données et l’utilisation du coefficient de corrélation (Pearson) pour vérifier la linéarité. Elle peut être généralisée à plusieurs dimensions via un hyperplan.

  • La régression polynomiale permet de modéliser des dépendances non linéaires, mais elle entraîne une explosion du nombre de variables en dimension n, ce qui complique la modélisation.

  • La séparation linéaire, notamment par les SVM, utilise des séparateurs à marges maximales pour distinguer les classes, en utilisant souvent des plongements en dimension supérieure pour traiter des données non linéaires.

  • Les modèles ensemblistes, comme la forêt aléatoire (Random Forest), combinent plusieurs arbres de décision appris sur des échantillons aléatoires pour améliorer la stabilité et la précision, en utilisant le principe du Bagging.

  • Le boosting est une méthode séquentielle qui affine la classification en se concentrant sur les erreurs des modèles précédents, permettant d’obtenir une meilleure performance globale.

  • La bibliothèque Scikit-learn offre une implémentation standard de ces algorithmes, facilitant leur application pratique.

💡 À retenir

Les algorithmes classiques de l’IA, tels que KNN, la régression linéaire, les arbres de décision, SVM et forêts aléatoires, constituent des outils puissants pour traiter une grande variété de problèmes, leur choix dépendant des caractéristiques spécifiques des données et du problème à résoudre.

📖 3. KNN et KMeans

🔑 Notions clés & Définitions

  • KMeans : Algorithme de clustering non supervisé qui partitionne un ensemble de données en K groupes en minimisant la variance intra-cluster. Chaque cluster est représenté par son centroïde, qui est la moyenne des points qui le composent. AUTEUR (date) : méthode permettant de regrouper des données sans étiquettes, souvent utilisée pour la segmentation.

  • KNN (K-Plus Proches Voisins) : Méthode supervisée de classification ou de régression qui prédit la catégorie ou la valeur d’un point en se basant sur ses K voisins les plus proches dans l’espace des caractéristiques. La décision est prise par vote majoritaire (classification) ou moyenne (régression). AUTEUR (date) : principe simple basé sur la proximité pour prédire la sortie d’un nouvel exemple.

  • Distance Euclidienne : Critère de proximité utilisé dans KNN et KMeans pour mesurer la similarité entre deux points dans un espace multidimensionnel. Formule : √∑(x_i - y_i)². AUTEUR (date) : mesure la distance "à vol d’oiseau" entre deux points.

  • Centroïde : Point représentant la moyenne de toutes les données d’un cluster dans KMeans, utilisé pour définir la position du cluster lors de l’itération de l’algorithme.

  • Méthode non supervisée : Type d’apprentissage où l’algorithme identifie des structures ou regroupements dans des données non étiquetées, comme dans KMeans.

  • Méthode supervisée : Apprentissage basé sur des données étiquetées, comme dans KNN, où la sortie est connue pour entraîner le modèle.

📝 Points essentiels

  • KMeans est un algorithme de clustering itératif qui commence par initialiser K centroïdes, puis assigne chaque point au centroïde le plus proche, recalculant ensuite la position des centroïdes par la moyenne des points assignés. Ce processus se répète jusqu’à convergence (stabilité des centroïdes). Il est sensible à l’initialisation et peut converger vers un minimum local. La sélection du nombre K est cruciale et souvent déterminée par la méthode du coude.

  • KNN est une méthode simple mais efficace pour la classification et la régression, qui ne nécessite pas d’apprentissage explicite. La performance dépend du choix de K, de la métrique de distance, et de la normalisation des données. Plus K est petit, plus la sensibilité au bruit est grande ; plus K est grand, plus la décision est lissée.

  • La distance Euclidienne est la métrique la plus couramment utilisée dans ces méthodes, mais d’autres distances (Manhattan, Minkowski) peuvent être employées selon la nature des données.

  • KMeans et KNN sont souvent combinés dans des pipelines d’analyse de données pour segmenter (clustering) ou classer (classification) des ensembles complexes.

  • La performance de KNN diminue avec la dimensionnalité croissante (malédiction de la dimension), tandis que KMeans peut être inefficace si les clusters ont des formes non sphériques ou de tailles très différentes.

💡 À retenir

KMeans est un algorithme de clustering basé sur la minimisation de la variance intra-cluster, tandis que KNN est une méthode supervisée de classification ou de régression utilisant la proximité dans l’espace des caractéristiques. Tous deux reposent sur la notion de distance pour regrouper ou prédire, mais s’appliquent dans des contextes différents (non supervisé vs supervisé).

📖 4. Régression linéaire et polynomiale

🔑 Notions clés & Définitions

  • Régression linéaire : Méthode statistique visant à modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes en supposant une relation linéaire. Elle permet de prédire la valeur de la variable dépendante à partir des variables explicatives. (source : intro à l’IA)

  • Généralisation à dimension n (hyperplan) : Extension de la régression linéaire à plusieurs variables explicatives, où la relation est modélisée par un hyperplan dans un espace de dimension n. La prédiction se fait par une combinaison linéaire des variables. (source : intro à l’IA)

  • Régression polynomiale : Technique qui consiste à ajuster un modèle polynomial à une relation non linéaire entre la variable dépendante et les variables indépendantes. Elle permet de modéliser des dépendances complexes en utilisant des termes polynomiaux. (source : intro à l’IA)

  • Explosion du nombre de variables en régression polynomiale : Lorsqu’on augmente le degré du polynôme ou le nombre de variables, le nombre de termes (variables explicatives) croît exponentiellement, ce qui peut entraîner un surapprentissage et une complexité computationnelle accrue. (source : intro à l’IA)

📝 Points essentiels

  • La régression linéaire est une méthode simple, efficace pour modéliser des relations linéaires, et peut être généralisée à plusieurs dimensions via un hyperplan dans l’espace n-dimensionnel. Elle nécessite une analyse préalable des données et l’utilisation du coefficient de corrélation (Pearson) pour évaluer la force de la relation.
  • La régression polynomiale est adaptée pour modéliser des dépendances non linéaires, en ajoutant des termes de degré supérieur. Cependant, cette approche peut rapidement conduire à une explosion du nombre de variables, rendant le modèle plus complexe et susceptible de surajuster.
  • La généralisation à dimension n permet de représenter la relation par un hyperplan, ce qui est une extension naturelle de la régression linéaire simple.
  • La sélection du degré du polynôme doit être prudente pour éviter le surapprentissage, notamment en utilisant des techniques de validation croisée.
  • La régression linéaire et polynomiale peuvent être implémentées facilement avec des outils comme scikit-learn (ex : LinearRegression, PolynomialFeatures).

💡 À retenir

La régression linéaire modélise une relation simple et interprétable, tandis que la régression polynomiale étend cette capacité à des relations non linéaires, mais au prix d’une complexité accrue due à l’explosion du nombre de variables.

📖 5. Arbres de décision et forêts

🔑 Notions clés & Définitions

  • Arbre de décision : Modèle prédictif qui utilise une structure arborescente pour effectuer des classifications ou des régressions, en divisant récursivement les données selon des variables de test. La prise de décision repose sur des valeurs limites ou conditions sur ces variables. AUTEUR (date) : permet une séparation non linéaire des données.

  • Séparation non linéaire des données par arbre : Capacité des arbres de décision à modéliser des frontières de décision non linéaires en combinant plusieurs divisions successives selon différentes variables.

  • Variables de test et ordre d'apprentissage : Les variables de test sont choisies et ordonnées lors de l'apprentissage de l'arbre en fonction de leur capacité à séparer efficacement les données, en utilisant des critères comme l'indice de Gini ou l'entropie.

  • Forêt aléatoire (Random Forest) : Ensemble d'arbres de décision construits à partir d’échantillons aléatoires de données et de variables, dont la prédiction finale est obtenue par vote (classification) ou moyenne (régression). AUTEUR (date) : principe de la sagesse des foules, utilisant le Bagging pour améliorer la robustesse.

  • Principe de la sagesse des foules : Idée selon laquelle la combinaison de plusieurs modèles faibles ou diversifiés permet d’obtenir une meilleure performance globale, en réduisant le risque de surapprentissage.

  • Bagging (apprentissage ensembliste parallèle) : Technique consistant à entraîner plusieurs modèles indépendants sur des échantillons aléatoires de données, puis à agréger leurs résultats par vote ou moyenne pour améliorer la stabilité et la précision.

📝 Points essentiels

  • Les arbres de décision permettent une séparation non linéaire des données en utilisant des divisions successives selon des variables de test, ce qui leur confère une grande flexibilité pour modéliser des frontières complexes.

  • La sélection des variables de test et leur ordre d’apprentissage sont appris à partir des données, optimisant la capacité de séparation de l’arbre (critères comme Gini ou entropie).

  • La forêt aléatoire repose sur le principe de la sagesse des foules, en construisant une multitude d’arbres à partir d’échantillons aléatoires de données et de variables, puis en combinant leurs prédictions pour obtenir une meilleure performance.

  • Le Bagging, utilisé dans les forêts aléatoires, consiste à entraîner plusieurs modèles indépendants sur des sous-échantillons, ce qui réduit la variance et évite le surapprentissage.

  • La méthode du Boosting, en revanche, construit des modèles séquentiellement en se concentrant sur les erreurs des modèles précédents, mais n’est pas directement associée aux forêts aléatoires.

  • La sélection des modèles et leur combinaison dans l’ensemble (Bagging, Stacking, Boosting) permet d’améliorer la robustesse et la précision des prédictions.

💡 À retenir

Les arbres de décision offrent une modélisation flexible grâce à leur capacité de séparation non linéaire, et leur performance est renforcée par les forêts aléatoires, qui exploitent la sagesse des foules via le Bagging pour réduire la variance et augmenter la stabilité.

📖 6. SVM et plongements

🔑 Notions clés & Définitions

  • Support Vector Machines (SVM) : Méthode de classification et de régression qui cherche à maximiser la marge entre différentes classes en trouvant un hyperplan séparateur optimal dans un espace de dimension potentiellement élevée. AUTEUR (1995) : introduit le concept de SVM comme un classifieur basé sur la marge maximale.

  • Séparateurs à vastes marges : Hyperplans qui séparent les classes avec la plus grande distance possible entre eux, minimisant ainsi le risque de mauvaise classification. La marge est la distance entre l'hyperplan et les vecteurs de support. AUTEUR (1995) : principe central des SVM pour garantir une meilleure généralisation.

  • Plongements en dimension supérieure : Technique consistant à transformer les données initiales dans un espace de dimension plus élevée via une fonction de noyau, afin de rendre linéairement séparables des données non linéaires dans leur espace d'origine. AUTEUR (1995) : utilisation du noyau pour effectuer ces plongements sans calculer explicitement la transformation.

📝 Points essentiels

  • Les SVM cherchent à optimiser un hyperplan séparateur en maximisant la marge, ce qui favorise une meilleure généralisation sur de nouvelles données (AUTEUR (1995)).
  • La notion de marges vastes est cruciale : plus la marge est grande, plus le modèle est robuste face au bruit et aux variations des données.
  • Lorsqu’un problème n’est pas linéairement séparables dans l’espace d’origine, on utilise la technique de plongement en dimension supérieure via des fonctions de noyau (kernel), permettant de transformer le problème en un espace où une séparation linéaire est possible.
  • La méthode des noyaux (kernel trick) permet de calculer efficacement les produits scalaires dans l’espace plongé sans effectuer explicitement la transformation, ce qui évite la complexité computationnelle.
  • La sélection du noyau (linéaire, polynomial, RBF, sigmoïde) influence la capacité du SVM à modéliser différentes formes de frontières de décision.
  • La position des vecteurs de support, qui définissent l’hyperplan, est essentielle : ce sont eux qui déterminent la marge et la décision finale.

💡 À retenir

Les SVM maximisent la marge entre classes en utilisant des séparateurs à vastes marges, et grâce aux plongements en dimension supérieure via des noyaux, ils peuvent traiter efficacement des données non linéairement séparables.

📖 7. Classifieurs bayésiens

🔑 Notions clés & Définitions

  • Classification bayésienne : Approche probabiliste de classification basée sur le théorème de Bayes, qui calcule la probabilité qu'une donnée appartienne à une classe donnée en utilisant les probabilités conditionnelles. Elle permet d’intégrer des connaissances a priori et d’obtenir une probabilité de classification plutôt qu’une décision déterministe.

  • Classifieurs bayésiens : Ensemble d’algorithmes utilisant la règle de Bayes pour effectuer la classification. Ils évaluent la probabilité qu’un exemple appartient à chaque classe et choisissent la classe avec la probabilité la plus élevée.

  • BernoulliNB : Variante de classifieur bayésien naïf (Naive Bayes) où chaque caractéristique est modélisée comme une variable de Bernoulli (binaire). Il suppose l’indépendance conditionnelle entre les caractéristiques, ce qui simplifie le calcul des probabilités et accélère l’apprentissage.

📝 Points essentiels

  • La classification bayésienne repose sur le théorème de Bayes :
    P(Ckx)=P(xCk)P(Ck)P(x)P(C_k | x) = \frac{P(x | C_k) P(C_k)}{P(x)}
    P(Ckx)P(C_k | x) est la probabilité a posteriori qu’un exemple xx appartienne à la classe CkC_k.

  • Les classifieurs bayésiens sont appréciés pour leur simplicité, leur rapidité d’apprentissage, et leur capacité à gérer efficacement des grands ensembles de données, même avec peu d’échantillons.

  • Le Naive Bayes suppose l’indépendance conditionnelle entre caractéristiques, ce qui n’est souvent pas vrai dans la réalité, mais cette hypothèse simplifie considérablement le calcul des probabilités.

  • BernoulliNB est particulièrement adapté pour la classification de textes ou de données binaires, où chaque caractéristique indique la présence ou l’absence d’un mot ou d’un attribut.

  • La performance des classifieurs bayésiens dépend de la qualité de l’estimation des probabilités conditionnelles et de la validité de l’hypothèse d’indépendance.

  • La classification bayésienne peut être combinée avec d’autres méthodes (transfert learning, etc.) pour améliorer la précision dans certains contextes.

💡 À retenir

Les classifieurs bayésiens, notamment BernoulliNB, exploitent le théorème de Bayes pour effectuer une classification probabiliste efficace, particulièrement adaptée aux données binaires ou textuelles, en supposant l’indépendance conditionnelle entre caractéristiques.

📖 8. Choix de méthode IA

🔑 Notions clés & Définitions

  • Choix d’une méthode selon problème : La sélection de la technique d’apprentissage doit être adaptée à la nature du problème (classification, régression, séparation non linéaire), en tenant compte des caractéristiques des données et des objectifs visés. Il n’existe pas de méthode universelle, d’où l’importance d’évaluer la compatibilité entre méthode et contexte (voir "Pas de méthode miracle").

  • Nature et nombre de données : La nature (linéaire ou non, dimensionnelle, bruitée) et la quantité de données influencent le choix de la méthode. Par exemple, la régression linéaire fonctionne bien pour des relations linéaires avec peu de bruit, tandis que les forêts aléatoires sont adaptées aux données complexes et volumineuses.

  • Transfert Learning : Technique permettant d’utiliser un modèle pré-entraîné sur une tâche ou un domaine pour une nouvelle tâche ou domaine, facilitant ainsi l’apprentissage lorsque les données sont limitées ou coûteuses à obtenir. Elle repose sur la réutilisation de connaissances acquises (voir "Transfert Learning").

  • Pas de méthode miracle : Aucune technique n’est universellement supérieure ; le choix dépend du problème, des données, et des contraintes. La performance optimale résulte souvent d’un compromis et d’une adaptation spécifique.

📝 Points essentiels

  • La sélection de la méthode doit s’appuyer sur une analyse préalable des données (ex : corrélation de Pearson pour la régression ou la séparation linéaire). La régression linéaire, par exemple, est adaptée pour des relations linéaires et peut être généralisée à l’espace n-dimensionnel via un hyperplan.

  • La régression polynomiale permet de modéliser des dépendances non linéaires, mais elle peut entraîner une explosion du nombre de variables, rendant le modèle plus complexe et moins interprétable.

  • La séparation des données peut être linéaire ou non, avec des méthodes comme SVM (Support Vector Machines) qui utilisent des séparateurs à marges maximales, souvent en plongements dans des dimensions supérieures pour traiter la non-linéarité.

  • Les modèles ensemblistes tels que la forêt aléatoire (Random Forest) combinent plusieurs arbres de décision par vote ou moyenne, exploitant le principe de la sagesse des foules. Le boosting, quant à lui, construit séquentiellement des modèles en se concentrant sur les erreurs précédentes, améliorant la performance globale.

  • Le transfert learning est particulièrement utile dans des contextes où les données sont rares ou coûteuses, en réutilisant des modèles entraînés sur des tâches similaires, comme le montre l’introduction à l’IA.

💡 À retenir

Le choix de la méthode d’IA doit être guidé par la nature du problème, des données, et des contraintes, en évitant la recherche d’une solution universelle, car il n’existe pas de méthode miracle. La clé réside dans une analyse adaptée et un ajustement précis aux spécificités du contexte.

📖 9. Évaluation des modèles

🔑 Notions clés & Définitions

  • Évaluation des modèles : Processus permettant de mesurer la performance d’un modèle d’apprentissage automatique, en utilisant des métriques ou des techniques spécifiques pour juger de sa capacité à généraliser sur de nouvelles données (voir source).

  • Coefficient de corrélation (Pearson) : Mesure statistique de la force et de la direction d’une relation linéaire entre deux variables continues. Il varie entre -1 et +1, où +1 indique une corrélation positive parfaite, -1 une négative parfaite, et 0 aucune corrélation (voir source).

  • Validation croisée : Technique d’évaluation qui consiste à diviser le jeu de données en plusieurs sous-ensembles pour entraîner et tester le modèle de manière répétée, afin d’obtenir une estimation fiable de sa performance (implicite dans l’évaluation des modèles).

📝 Points essentiels

  • L’évaluation des modèles est essentielle pour éviter le surapprentissage et assurer leur capacité à généraliser. Elle repose sur des techniques comme la validation croisée, qui permet de tester la stabilité et la robustesse du modèle.

  • Le coefficient de corrélation de Pearson est souvent utilisé pour analyser la relation linéaire entre les prédictions du modèle et les valeurs réelles, permettant d’évaluer la précision de la modélisation (voir source).

  • La sélection du modèle optimal dépend du problème, de la nature et du volume des données, ainsi que des propriétés spécifiques de chaque méthode. Il n’existe pas de méthode miracle, comme le souligne la nécessité de choisir en fonction du contexte (voir source).

  • La performance peut être mesurée par des métriques spécifiques telles que la précision, le rappel, la F-mesure pour la classification, ou l’erreur quadratique moyenne pour la régression.

  • Les techniques d’ensemble, comme le bagging, boosting ou stacking, améliorent la performance en combinant plusieurs modèles pour réduire la variance ou le biais, et ainsi optimiser l’évaluation globale.

💡 À retenir

L’évaluation des modèles repose sur des techniques robustes comme la validation croisée et des métriques adaptées, permettant de choisir le modèle le plus performant selon le contexte spécifique du problème.

📖 10. Ensemble learning

🔑 Notions clés & Définitions

  • Ensemble learning : Technique consistant à combiner plusieurs modèles pour améliorer la performance globale, en exploitant leur diversité. Selon AUTEUR (date), cette approche permet de réduire le risque d’erreur en agrégeant les prédictions de plusieurs modèles.

  • Bagging (Bootstrap Aggregating) : Méthode où plusieurs modèles sont entraînés indépendamment sur des sous-échantillons bootstrap des données, puis leurs résultats sont combinés par vote (classification) ou moyenne (régression). AUTEUR (date) souligne que cette technique repose sur la diversité des modèles pour réduire la variance.

  • Boosting : Approche séquentielle où chaque nouveau modèle est entraîné en se concentrant sur les erreurs du modèle précédent, afin d’améliorer la performance globale. AUTEUR (date) précise que cette méthode affine la classification à chaque étape en mettant l’accent sur les données mal classifiées.

  • Stacking : Technique où plusieurs modèles de base sont combinés par un méta-modèle, qui décide en fonction des résultats individuels. AUTEUR (date) indique que le stacking optimise la combinaison des modèles pour maximiser la performance.

  • Coopération entre modèles : Concept général regroupant différentes stratégies d’association de modèles, notamment le Bagging, le Boosting et le Stacking, pour exploiter leur complémentarité. Selon AUTEUR (date), cette coopération vise à tirer parti de la diversité pour améliorer la robustesse et la précision.

📝 Points essentiels

  • L’ensemble learning repose sur la diversité des modèles pour réduire l’erreur globale, en exploitant des méthodes parallèles (Bagging) ou séquentielles (Boosting).
  • Le Bagging, illustré par la forêt aléatoire (Random Forest), utilise des échantillons bootstrap pour entraîner plusieurs arbres de décision, puis agrége par vote ou moyenne.
  • Le Boosting, exemplifié par AdaBoost ou Gradient Boosting, construit des modèles successifs en se concentrant sur les erreurs du précédent, ce qui permet d’affiner la classification.
  • Le Stacking combine plusieurs modèles via un méta-modèle, souvent un classifieur ou régressif, pour optimiser la prédiction finale.
  • La coopération entre modèles permet d’exploiter la complémentarité des méthodes, en utilisant des techniques comme le Bagging, Boosting ou Stacking pour améliorer la stabilité et la précision.
  • Ces techniques sont souvent implémentées dans des bibliothèques comme scikit-learn, avec des classes telles que RandomForestClassifier, AdaBoostClassifier ou StackingClassifier.

💡 À retenir

L’ensemble learning exploite la diversité des modèles pour améliorer la performance, en combinant leurs forces via des stratégies parallèles ou séquentielles, telles que le Bagging, le Boosting et le Stacking.

📊 Tableaux de Synthèse

Méthode / AlgorithmeTypeObjectifParamètres clésAvantagesInconvénientsAuteur / Référence
KNN (K plus proches voisins)SuperviséClassification / RégressionK (nombre de voisins), métrique de distanceSimple, efficace pour données peu bruitéesCoûteux en calcul, sensible à K et métriqueIntro à l’IA
Régression linéaireSuperviséPrédiction variable continueCoefficient de corrélation (Pearson), normalisationInterprétable, efficace pour relations linéairesLimité aux relations linéairesAuteur inconnu, classique en stats
Régression polynomialeSuperviséModélisation non linéaireDegré du polynôme, nombre de variablesCapte non linéaritésExplosion du nombre de paramètres, surapprentissageAuteur inconnu
Arbres de décisionSuperviséClassification / RégressionProfondeur, critère de splitInterprétable, peu de pré-traitementSurapprentissage, sensibilité bruitQuinlan (1986)
Forêts aléatoiresSuperviséClassification / RégressionNombre d’arbres, échantillonnage aléatoireStabilité, précision, réduction de surapprentissageMoins interprétablesBreiman (2001)
SVM (Support Vector Machine)SuperviséClassification linéaire/non linéaireMarges maximales, noyaux (RBF, polynomial)Bonne généralisation, efficace en haute dimensionCoût computationnel, choix noyau critiqueCortes & Vapnik (1995)
KMeansNon superviséClusteringK (nombre de clusters), initialisationSimple, rapideSensible à l’initialisation, K à choisirMacQueen (1967)

⚠️ Pièges & Confusions Fréquentes

  1. Confondre KNN pour classification et régression : la majorité des votes pour la classification, la moyenne pour la régression.
  2. Choisir un K trop petit rend le modèle sensible au bruit ; un K trop grand lisse excessivement la prédiction.
  3. Utiliser la distance Euclidienne sans normaliser les données peut fausser les résultats, surtout si les variables ont des échelles différentes.
  4. Croire que la régression linéaire fonctionne sans vérifier la linéarité avec le coefficient de Pearson.
  5. Confondre KMeans (clustering non supervisé) et KNN (classification supervisée).
  6. Penser que les arbres de décision sont toujours optimaux : ils peuvent surajuster si mal paramétrés.
  7. Négliger l’impact de l’initialisation dans KMeans, qui peut conduire à des résultats locaux non optimaux.

✅ Checklist Examen

  1. Connaître la définition de PERROUX sur la croissance et ses implications en économie.
  2. Expliquer le principe du K plus proches voisins (KNN) et ses applications.
  3. Savoir différencier la régression linéaire et la régression polynomiale, et leurs usages respectifs.
  4. Identifier les avantages et inconvénients des arbres de décision et des forêts aléatoires.
  5. Comprendre le fonctionnement d’un SVM, notamment la notion de marges maximales et l’utilisation des noyaux.
  6. Connaître la méthode KMeans, ses étapes, et la méthode du coude pour choisir K.
  7. Maîtriser les notions de distance Euclidienne, Manhattan, et leur impact sur KNN et KMeans.
  8. Savoir quand utiliser une méthode supervisée versus non supervisée.
  9. Connaître l’importance de la normalisation des données dans les méthodes basées sur la distance.
  10. Être capable d’évaluer la performance d’un modèle à l’aide de métriques adaptées (accuracy, RMSE, etc.).
  11. Comprendre le principe de l’ensemble learning, notamment le bagging et le boosting.
  12. Connaître la référence clé : Breiman (2001) pour les forêts aléatoires.

Teste dein Wissen

Teste dein Wissen zu Introduction aux Méthodes d'Intelligence Artificielle mit 10 Multiple-Choice-Fragen mit detaillierten Korrekturen.

1. Quel est le rôle principal de KNN dans l'apprentissage automatique ?

2. Qu'est-ce que l'ensemble learning en apprentissage automatique ?

Quiz machen →

Mit Karteikarten lernen

Merke dir die Schlüsselkonzepte von Introduction aux Méthodes d'Intelligence Artificielle mit 19 interaktiven Karteikarten.

KNN — principe ?

Prédire selon les k voisins proches

KMeans — objectif ?

Former k groupes par minimisation de variance

Régression linéaire — relation ?

Modèle une relation linéaire entre variables

Karteikarten ansehen →

Similar courses

Erstelle deine eigenen Lernzettel

Importiere deinen Kurs und die KI erstellt in 30 Sekunden Lernzettel, Quizze und Karteikarten.

Lernzettel-Generator