Lernzettel: Introduction aux réseaux convolutifs en vision par ordinateur

Plan du Cours

Rôle et applications des réseaux convolutifs en vision par ordinateur
Principe mathématique de la convolution et produit de Hadamard en traitement d’images
Limites des réseaux de neurones denses pour l’analyse d’images haute résolution
Fonctionnement des couches de convolution avec apprentissage des noyaux (kernels)
Hyperparamètres des couches de convolution : taille du kernel, padding et stride
Compression des images par pooling et alternance avec les couches de convolution
Architecture générale des CNN et passage à un réseau de neurones classique pour classification
Historique des CNN et introduction aux bibliothèques TensorFlow et Keras pour leur implémentation

1. Rôle et applications des réseaux convolutifs en vision par ordinateur

Notions clés & Définitions

Vision par ordinateur : Domaine de l'informatique qui concerne la compréhension automatique d'images ou de vidéos.
Classification d’images : Processus d'attribution d'une catégorie à une image en fonction de ses caractéristiques visuelles.

Points essentiels

Les réseaux convolutifs sont des réseaux de neurones particuliers qui ont permis des avancées majeures dans la reconnaissance ou la classification d’images et vidéos.
Les CNN sont largement utilisés dans la reconnaissance de caractères, la reconnaissance faciale et la classification d’images.
Les CNN permettent de détecter des motifs locaux dans les images grâce à leurs couches spécifiques.

À retenir

Les réseaux convolutifs sont des réseaux de neurones particuliers qui ont permis des avancées majeures dans la reconnaissance ou la classification d’images et vidéos.

2. Principe mathématique de la convolution et produit de Hadamard en traitement d’images

Notions clés & Définitions

Convolution : Opération mathématique consistant à appliquer un produit terme à terme entre une sous-matrice d’une matrice image et un kernel de même dimension.
Produit de Hadamard : Opération consistant en un produit terme à terme entre deux matrices de même dimension.
Traitement d’images : Noyaux K particuliers permettant de concentrer l’information sur différentes parties de l’image, notamment les contours.

Points essentiels

La convolution est une opération matricielle appelée produit de Hadamard appliquée entre une matrice image et un kernel.
Le produit de convolution est effectué terme à terme entre une sous-matrice de l’image et le kernel de même dimension.
En traitement d’images, des noyaux spécifiques permettent de concentrer l’information sur certaines caractéristiques comme les contours.
Thierry Montaut 2023 4 / 17 Convolution (produit de Hadamard) Etant donnée une matrice a et une matrice de poids K (appelée kernel), on peut effectuer un produit de convolution (ou terme à terme) avec une sous-matrice de A de même dimensions.
Ces opérations étaient déjà connues et largement utilisées en traitement d’images où elles permettent de définir des filtres et de se concentrer sur certaines caractéristiques d’une image tout en réduisant la taille de l’image.

À retenir

La convolution est une opération matricielle appelée produit de Hadamard appliquée entre une matrice image et un kernel.

3. Limites des réseaux de neurones denses pour l’analyse d’images haute résolution

Notions clés & Définitions

Thierry : Nom de l'auteur des transparents d’introduction mentionnés, Thierry Montaut, qui a produit le contenu en 2023.

Points essentiels

Un réseau dense analysant une image de 64 pixels (8x8) avec 10 couches nécessite environ 40 000 paramètres à apprendre.
L’utilisation d’un réseau dense pour analyser une image haute résolution nécessite l’apprentissage de plusieurs milliards de paramètres, ce qui est impraticable.
Les réseaux denses ne conviennent pas à l’analyse directe d’images haute résolution en raison du nombre très élevé de paramètres et du coût computationnel associé.

À retenir

Les réseaux denses sont inefficaces pour traiter des images haute résolution à cause de l’explosion du nombre de paramètres à apprendre, rendant leur utilisation impraticable.

4. Fonctionnement des couches de convolution avec apprentissage des noyaux (kernels)

Notions clés & Définitions

Couche de convolution : Structure d’un réseau de neurones en machine learning où les matrices de poids, appelées kernels, ont leurs coefficients appris à partir des données durant la phase d’apprentissage.

Points essentiels

Les matrices de poids (kernels) dans une couche de convolution ne sont pas fixées mais apprises à partir des données lors de l’apprentissage.
Chaque couche de convolution se concentre sur des motifs locaux spécifiques de l’image.
L’apprentissage des coefficients des kernels permet d’adapter les filtres aux données spécifiques du problème.

À retenir

Les couches de convolution apprennent automatiquement les filtres pertinents pour extraire des caractéristiques d’image.

5. Hyperparamètres des couches de convolution : taille du kernel, padding et stride

Notions clés & Définitions

Rembourrage (padding : Une technique consistant à ajouter des lignes et des colonnes supplémentaires autour de la matrice d'entrée afin de préserver la taille spatiale de l'image après application de la convolution.
Stride : Le nombre de pixels de déplacement entre deux applications successives du kernel, influençant la réduction de la dimension spatiale de la sortie.

Points essentiels

La taille du kernel détermine la dimension locale sur laquelle la convolution est appliquée.
Le padding consiste à ajouter des lignes et colonnes autour de l’image pour conserver sa taille après convolution.
Le stride correspond au nombre de pixels de déplacement entre deux applications successives du kernel, influençant la taille de la sortie.
Le choix du padding et du stride permet de contrôler la dimension spatiale de la sortie de la couche de convolution.

À retenir

Maîtriser comment les hyperparamètres influencent la taille et la résolution des cartes de caractéristiques produites par la convolution.

6. Compression des images par pooling et alternance avec les couches de convolution

Notions clés & Définitions

Pooling : Une opération de compression dans un réseau convolutif qui réduit la taille des images entre les couches de convolution en calculant le maximum ou la moyenne sur un bloc de pixels.

Points essentiels

L’alternance de couches de convolution et de pooling permet de réduire la dimension tout en conservant les caractéristiques importantes.
Cette compression limite la taille des données à traiter et améliore l’efficacité du réseau.

À retenir

Le pooling compresse les images en réduisant leur taille tout en conservant les éléments essentiels, ce qui diminue la complexité du traitement dans les réseaux convolutifs.

7. Architecture générale des CNN et passage à un réseau de neurones classique pour classification

Notions clés & Définitions

Réseau de neurones classique : Type de réseau de neurones utilisé après extraction de caractéristiques dans un CNN pour effectuer la classification.
Thierry Montaut 2023 : Auteur de la source qui décrit l'architecture des CNN et leur passage à un réseau classique pour classification.

Points essentiels

L’architecture CNN alterne couches de convolution et couches de pooling pour extraire et compresser les caractéristiques.
La sortie finale des couches convolutives est mise à plat pour former un vecteur d’entrée.
Ce vecteur est utilisé comme entrée d’un réseau de neurones classique pour effectuer la classification.

À retenir

Comprendre la structure globale d’un CNN et comment il se connecte à un réseau classique pour la décision finale.

8. Historique des CNN et introduction aux bibliothèques TensorFlow et Keras pour leur implémentation

Notions clés & Définitions

TensorFlow : Bibliothèque libre d’apprentissage profond permettant d’implémenter facilement des réseaux de neurones convolutifs.
Keras : Bibliothèque libre d’apprentissage profond développée par François Chollet qui facilite la construction de modèles de réseaux de neurones convolutifs.

Points essentiels

Les CNN ont été inventés en 1990 par le français Yann LeCun pour la reconnaissance et classification d’images.
Les CNN sont adaptés à la classification d’images grâce à leur capacité à détecter des motifs locaux.
Scikit-learn ne permet pas la mise en œuvre de CNN.
TensorFlow et Keras sont des bibliothèques libres d’apprentissage profond permettant d’implémenter facilement des CNN.
Keras a été développé par François Chollet, un autre français, et facilite la construction de modèles CNN.
Ils sont particulièrement adaptés à la classification des images par leur capacité à détecter des motifs locaux grâce à leurs couches de convolution, héritées des techniques de traitement et de compression d’images.

À retenir

Connaître l’origine des CNN et les outils modernes pour leur implémentation pratique en deep learning.

Tableaux de Synthèse

Comparaison des types de réseaux

Type	Caractéristiques	Utilisation
Réseaux denses	Nombre élevé de paramètres, coûteux pour haute résolution	Analyse d’images haute résolution
CNN	Extraction locale de motifs, apprentissage automatique des filtres	Reconnaissance d’images, classification

Hyperparamètres des couches de convolution

Hyperparamètre	Effet	Influence
Taille du kernel	Détermine la zone locale analysée	Plus grand
Padding	Conserve la taille de l’image	Ajout de lignes/colonnes autour
Stride	Définit le déplacement du kernel	Plus grand

Pièges & Confusions Fréquentes

Confusion entre convolution et produit de Hadamard.
Sous-estimer la complexité du nombre de paramètres dans les réseaux denses.
Confondre padding et stride dans leur rôle.
Croire que les CNN ne nécessitent pas d’apprentissage des filtres.
Oublier l’impact de la taille du kernel sur la résolution spatiale.
Confondre pooling et convolution.
Supposer que les CNN sont toujours plus performants que les réseaux classiques.

Checklist Examen

Comprendre le principe de convolution et son application en traitement d’images.
Savoir pourquoi les réseaux denses sont inefficaces pour haute résolution.
Maîtriser l’apprentissage des kernels dans les couches de convolution.
Connaître l’impact des hyperparamètres sur la sortie.
Savoir comment le pooling réduit la taille des images.
Comprendre l’architecture d’un CNN et son passage à un réseau classique.
Connaître l’historique des CNN et les outils modernes comme TensorFlow et Keras.
Différencier convolution, pooling, padding et stride.
Identifier les limites des réseaux denses pour l’analyse d’images haute résolution.
Savoir utiliser les bibliothèques TensorFlow et Keras pour implémenter un CNN.

📋 Plan du Cours

📖 1. Rôle et applications des réseaux convolutifs en vision par ordinateur

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Principe mathématique de la convolution et produit de Hadamard en traitement d’images

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 3. Limites des réseaux de neurones denses pour l’analyse d’images haute résolution

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Fonctionnement des couches de convolution avec apprentissage des noyaux (kernels)

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Hyperparamètres des couches de convolution : taille du kernel, padding et stride

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Compression des images par pooling et alternance avec les couches de convolution

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Architecture générale des CNN et passage à un réseau de neurones classique pour classification

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Historique des CNN et introduction aux bibliothèques TensorFlow et Keras pour leur implémentation

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📊 Tableaux de Synthèse

Comparaison des types de réseaux

Hyperparamètres des couches de convolution

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Teste dein Wissen

Mit Karteikarten lernen

Similar courses

Types construits en Python

P-uplets nommés et dictionnaires

Modèle relationnel et normalisation

Réseaux distribués et cloud

Merise et modélisation des données

Programming Language Paradigms

Erstelle deine eigenen Lernzettel

Plan du Cours

1. Rôle et applications des réseaux convolutifs en vision par ordinateur

Notions clés & Définitions

Points essentiels

À retenir

2. Principe mathématique de la convolution et produit de Hadamard en traitement d’images

Notions clés & Définitions

Points essentiels

À retenir

3. Limites des réseaux de neurones denses pour l’analyse d’images haute résolution

Notions clés & Définitions

Points essentiels

À retenir

4. Fonctionnement des couches de convolution avec apprentissage des noyaux (kernels)

Notions clés & Définitions

Points essentiels

À retenir

5. Hyperparamètres des couches de convolution : taille du kernel, padding et stride

Notions clés & Définitions

Points essentiels

À retenir

6. Compression des images par pooling et alternance avec les couches de convolution

Notions clés & Définitions

Points essentiels

À retenir

7. Architecture générale des CNN et passage à un réseau de neurones classique pour classification

Notions clés & Définitions

Points essentiels

À retenir

8. Historique des CNN et introduction aux bibliothèques TensorFlow et Keras pour leur implémentation

Notions clés & Définitions

Points essentiels

À retenir

Tableaux de Synthèse

Pièges & Confusions Fréquentes

Checklist Examen