Лист за преговор: Introduction aux bases NoSQL et architectures distribuées

📋 Plan du Cours

Bases NoSQL & caractéristiques
Architectures distribuées & réseau
Théorème CAP & cohérence
Performance NoSQL & indicateurs
Observabilité & signaux clés
Outils d’observabilité & déploiement
Haute disponibilité & résilience
Sécurité & gouvernance

📖 1. Bases NoSQL & caractéristiques

🔑 Notions clés & Définitions

NoSQL (Not Only SQL) : Famille de bases de données non relationnelles, conçues pour gérer de grands volumes de données, avec une architecture distribuée, flexible et performante.
Schéma flexible : Absence ou souplesse dans la définition du modèle de données, permettant une évolution rapide sans modification structurelle majeure.
Typologies NoSQL : Catégories principales comprenant clé-valeur, document, colonne, et graphe, adaptées à différents cas d’usage.
Système distribué : Ensemble de composants autonomes interconnectés, coopérant pour fournir un service unique, avec gestion des données réparties sur plusieurs nœuds.
Théorème CAP : Principe indiquant qu’un système distribué ne peut garantir simultanément que deux propriétés parmi la cohérence, la disponibilité et la tolérance au partitionnement.
Observabilité distribuée : Approche de surveillance qui utilise métriques, logs et traces pour comprendre le comportement interne d’un système distribué, au-delà de la simple supervision.

📝 Points essentiels

Les bases NoSQL ont émergé pour répondre aux limites des SGBDR face aux besoins modernes : volume, diversité, rapidité.
Elles privilégient la flexibilité du schéma, la scalabilité horizontale et la performance opérationnelle.
La distribution des données implique des mécanismes complexes comme sharding, réplication, consensus, impactant la cohérence et la performance.
La gestion du réseau est cruciale : latence, bande passante, tolérance aux pannes influencent directement la fiabilité et la disponibilité des bases NoSQL.
Le théorème CAP impose un compromis : il est impossible de garantir simultanément cohérence, disponibilité et tolérance au partitionnement dans un environnement distribué.
L’observabilité distribuée, via métriques, logs et traces, devient essentielle pour diagnostiquer, anticiper et gérer les incidents dans ces environnements complexes.

💡 À retenir

Les bases NoSQL, par leur nature distribuée, nécessitent une nouvelle approche d’administration centrée sur l’observabilité, la résilience et la gestion fine des compromis CAP pour assurer performance, fiabilité et sécurité dans les environnements cloud-native.

📖 2. Architectures distribuées & réseau

🔑 Notions clés & Définitions

Système distribué : Ensemble de composants autonomes interconnectés par un réseau, coopérant pour fournir un service unique, avec une apparence d’unicité logique.
Architecture NoSQL distribuée : Organisation où les données et traitements sont répartis sur plusieurs nœuds pour améliorer scalabilité, disponibilité et performance.
Communication inter-nœuds : Échanges de données, métadonnées et synchronisations nécessaires pour maintenir la cohérence et la cohésion du système distribué.
Partition réseau / Panne partitionnante : Situation où une partie du réseau devient isolée, affectant la communication entre nœuds, pouvant impacter la cohérence et la disponibilité.
Latence réseau : Délai de transmission des données entre nœuds, influant directement sur la performance et la réactivité du système distribué.
Réseau structurant : Infrastructures et protocoles assurant la communication, la synchronisation et la coordination entre nœuds dans une architecture distribuée.

📝 Points essentiels

La distribution des données dans NoSQL repose sur des mécanismes comme sharding, réplication, et partitionnement, qui nécessitent une gestion fine du réseau.
La performance des bases NoSQL dépend fortement de la qualité du réseau : latence, bande passante et stabilité influencent directement la cohérence, la disponibilité et la résilience.
La tolérance aux pannes dans un système distribué repose sur la redondance et la capacité à distinguer une panne matérielle d’un problème de connectivité réseau.
La gestion des flux réseau doit être organisée pour séparer les trafics internes et externes, afin d’optimiser la sécurité et la performance.
La communication entre nœuds est essentielle pour la synchronisation des données, la propagation des mises à jour et la coordination, mais elle peut devenir un goulot d’étranglement.

💡 À retenir

L’efficacité d’une architecture NoSQL distribuée dépend en grande partie de la qualité de son infrastructure réseau, qui doit être soigneusement conçue pour garantir la cohérence, la disponibilité et la résilience face aux défaillances et aux contraintes de performance.

📖 3. Théorème CAP & cohérence

🔑 Notions clés & Définitions

Théorème CAP : Principe en informatique distribué affirmant qu’un système ne peut garantir simultanément que deux des trois propriétés suivantes : Cohérence, Disponibilité, Tolérance au partitionnement.
Cohérence (C) : Tous les nœuds voient la même donnée au même instant.
Disponibilité (A) : Chaque requête reçoit une réponse, réussie ou échouée, dans un délai raisonnable.
Partitionnement (P) : Séparation du réseau empêchant la communication entre certains nœuds, pouvant entraîner une défaillance partielle.
Modèles de cohérence :
- Cohérence forte : Toutes les lectures renvoient la valeur la plus récente.
- Cohérence éventuelle : Les données finissent par se synchroniser, mais pas immédiatement.
- Cohérence causale : Les opérations liées par causalité sont vues dans le même ordre par tous.

📝 Points essentiels

Le théorème CAP indique qu’en présence d’une partition réseau, un système doit faire un choix entre assurer la cohérence ou la disponibilité.
La cohérence forte garantit une uniformité immédiate des données, mais peut réduire la disponibilité en cas de partition.
La cohérence éventuelle privilégie la disponibilité, acceptant des divergences temporaires entre nœuds.
La tolérance au partitionnement est essentielle dans les architectures distribuées modernes, notamment dans le cloud.
La sélection du modèle de cohérence doit être adaptée aux besoins métier, en équilibrant performance, fiabilité et tolérance aux pannes.
La visualisation du CAP montre qu’on ne peut pas garantir simultanément les trois propriétés en cas de partition réseau : on doit faire un compromis (ex : CA, CP, ou AP).

💡 À retenir

Le théorème CAP impose un compromis stratégique dans la conception des bases NoSQL distribuées : il faut choisir entre cohérence, disponibilité ou tolérance au partitionnement selon les contraintes opérationnelles et les exigences métier.

📖 4. Performance NoSQL & indicateurs

🔑 Notions clés & Définitions

Performance NoSQL : Capacité d’une base NoSQL à traiter efficacement les opérations de lecture et d’écriture, mesurée par des indicateurs tels que latence, débit et throughput.
Latence : Temps écoulé entre l’envoi d’une requête et la réception de la réponse, essentiel pour l’expérience utilisateur.
Débit (Throughput) : Nombre d’opérations traitées par unité de temps, indicateur de la capacité de traitement de la base.
Goulots d’étranglement : Points de congestion limitant la performance globale, souvent liés au réseau, au stockage ou à la CPU.
Performance distribuée : Performance d’un système réparti sur plusieurs nœuds, dépendant de la coordination, du réseau et de la gestion des ressources.
Indicateurs de performance (KPIs) : Métriques clés permettant de surveiller, diagnostiquer et optimiser le fonctionnement de la base NoSQL.

📝 Points essentiels

La performance d’une base NoSQL dépend de plusieurs facteurs : latence réseau, capacité de traitement des nœuds, configuration de la réplication et du sharding.
La latence et le débit sont interconnectés : une latence élevée impacte négativement le débit et la réactivité.
La dégradation de performance peut provenir de problèmes réseau, de surcharge système ou de mauvais paramétrages.
La surveillance doit inclure des métriques système (CPU, RAM, disque), réseau (latence, erreurs, bande passante) et spécifiques à la base (opérations par seconde, temps de réponse).
La gestion proactive des goulots d’étranglement permet d’éviter des dégradations majeures et d’assurer une haute disponibilité.
La performance doit être évaluée en conditions réelles, en simulant des charges variables et en identifiant les points faibles.

💡 À retenir

La performance d’une base NoSQL en environnement distribué repose sur une surveillance fine des indicateurs clés, permettant d’anticiper et de corriger rapidement les dégradations pour garantir la disponibilité et la fiabilité des données.

📖 5. Observabilité & signaux clés

🔑 Notions clés & Définitions

Observabilité : Capacité à comprendre l’état interne d’un système distribué à partir des signaux qu’il produit, tels que métriques, logs et traces. Elle permet d’anticiper, diagnostiquer et résoudre efficacement les incidents.
Signaux : Données collectées pour surveiller un système, comprenant principalement trois types : métriques (indicateurs quantitatifs), logs (journaux d’événements) et traces (suivi des requêtes à travers le système).
Métriques : Indicateurs numériques en temps réel qui reflètent la performance ou l’état d’un composant (ex : CPU, RAM, latence réseau).
Logs : Enregistrements détaillés des événements ou opérations effectuées dans le système, permettant une analyse post-incident.
Traces : Représentations chronologiques du parcours d’une requête ou transaction à travers différents composants, essentielles pour la traçabilité distribuée.
Supervision vs Observabilité : La supervision classique se limite à la surveillance des ressources, tandis que l’observabilité vise une compréhension approfondie du comportement interne du système.

📝 Points essentiels

L’observabilité se déploie pour répondre aux défis des environnements distribués, notamment en environnement cloud-native, où la complexité et la volumétrie de données augmentent.
La collecte et l’analyse conjointe de métriques, logs et traces permettent d’identifier rapidement la source d’un incident, même dans un système complexe.
La mise en place d’indicateurs critiques (ex : latence, erreurs réseau, taux de réplication) est essentielle pour la détection précoce des dégradations de performance.
La corrélation entre différents signaux permet d’obtenir une vision holistique du comportement du système et d’anticiper les défaillances.
La transition d’une supervision classique vers une observabilité distribuée requiert l’adoption d’outils modernes (Prometheus, Grafana, Elastic Stack, OpenTelemetry).

💡 À retenir

L’observabilité, en intégrant métriques, logs et traces, transforme la gestion des systèmes distribués en permettant une compréhension proactive et fine de leur comportement, essentielle pour garantir leur résilience, performance et sécurité.

📖 6. Outils d’observabilité & déploiement

🔑 Notions clés & Définitions

Observabilité : Capacité à comprendre le comportement interne d’un système complexe à partir de ses signaux (métriques, logs, traces). Elle dépasse la simple supervision en permettant une analyse approfondie des interactions internes.
Supervision : Surveillance traditionnelle des ressources (CPU, mémoire, réseau) pour assurer le bon fonctionnement d’un système. Elle se limite souvent à des indicateurs statiques.
Métriques : Données quantitatives collectées en temps réel sur les performances du système (ex. CPU, latence, débit). Utilisées pour détecter des anomalies.
Logs : Enregistrements chronologiques des événements et opérations du système. Ils facilitent le diagnostic des incidents.
Traces : Représentations détaillées du parcours d’une requête à travers différents composants distribués, permettant d’identifier les points de défaillance ou de latence.
Stack d’observabilité : Ensemble d’outils intégrés pour collecter, stocker, visualiser et analyser métriques, logs et traces (ex. Prometheus, Grafana, Elastic Stack, OpenTelemetry).

📝 Points essentiels

L’observabilité permet d’anticiper et de diagnostiquer efficacement les incidents dans des environnements distribués, notamment NoSQL.
La supervision classique est insuffisante pour comprendre le comportement global d’un système distribué ; elle doit être complétée par une observabilité distribuée.
La collecte de métriques, logs et traces doit être cohérente et intégrée pour fournir une vision complète du système.
La corrélation des indicateurs (ex. latence + erreurs réseau + charge CPU) permet d’identifier rapidement les causes racines des dégradations de performance.
La visualisation via des dashboards (ex. Grafana) facilite la prise de décision opérationnelle.

💡 À retenir

L’observabilité, en intégrant métriques, logs et traces, est essentielle pour garantir la résilience, la performance et la sécurité des bases NoSQL distribuées dans un contexte cloud-native. Elle transforme la gestion opérationnelle en une démarche proactive d’analyse et d’optimisation.

📖 7. Haute disponibilité & résilience

🔑 Notions clés & Définitions

Haute disponibilité (HA) : Capacité d’un système à assurer un service continu sans interruption, même en cas de défaillance de composants. Elle repose sur la redondance, la tolérance aux pannes et la reprise rapide.
Résilience : Capacité d’un système à résister aux perturbations, à se rétablir rapidement et à continuer à fonctionner malgré des incidents ou défaillances.
Tolérance aux pannes : Mécanisme permettant à un système de continuer à fonctionner en cas de défaillance partielle ou totale de certains composants, via la réplication ou la redondance.
Failover : Processus automatique de basculement vers un système de secours en cas de défaillance d’un composant principal.
Reprise après incident (Recovery) : Ensemble des actions pour restaurer un système à son état normal après une panne ou une attaque.
Systèmes distribués : Architectures où les composants sont répartis sur plusieurs nœuds, nécessitant des mécanismes spécifiques pour assurer la disponibilité et la cohérence.

📝 Points essentiels

La haute disponibilité repose sur la redondance (réplication, clustering) pour éviter les points de défaillance unique.
La résilience implique la capacité à détecter, isoler et corriger rapidement les incidents, notamment via la surveillance, la sauvegarde et la restauration.
La tolérance aux pannes dans les architectures distribuées repose sur des mécanismes de réplication, de partitionnement et de consensus (ex : quorum).
La mise en œuvre du failover automatique et des stratégies de reprise est essentielle pour garantir la continuité de service.
La supervision et l’observabilité (métriques, logs, traces) sont cruciales pour anticiper, diagnostiquer et résoudre efficacement les incidents.
La gestion du réseau, la latence et la bande passante influencent directement la disponibilité et la résilience des bases NoSQL distribuées.

💡 À retenir

La haute disponibilité et la résilience sont indispensables pour assurer un service fiable en environnement distribué, en combinant redondance, mécanismes automatiques de basculement, et une surveillance proactive pour anticiper et gérer efficacement les incidents.

📖 8. Sécurité & gouvernance

🔑 Notions clés & Définitions

Gouvernance des données : Ensemble des règles, politiques et processus assurant la gestion, la conformité, la sécurité et la traçabilité des données dans une organisation.
Sécurité des bases NoSQL : Ensemble des mécanismes visant à protéger les données contre les accès non autorisés, la perte ou la corruption, notamment via l’authentification, l’autorisation, le chiffrement et la journalisation.
Authentification : Processus permettant de vérifier l’identité d’un utilisateur ou d’un service accédant à la base de données.
Autorisation : Définition des droits et permissions d’un utilisateur ou d’un service sur les données ou fonctionnalités d’une base NoSQL.
Chiffrement des données : Technique de cryptographie visant à rendre les données illisibles sans clé d’accès, assurant leur confidentialité en transit ou au repos.
Traçabilité et audit : Capacité à enregistrer et à suivre toutes les opérations effectuées sur les données, permettant la conformité réglementaire et la détection d’incidents.

📝 Points essentiels

La gouvernance inclut la définition de politiques de sécurité, la gestion des accès, la conformité réglementaire (ex : RGPD) et la traçabilité des opérations.
La sécurité des bases NoSQL doit couvrir à la fois la sécurité réseau (firewalls, VPN), la sécurité applicative (authentification forte, contrôle d’accès) et la sécurité des données (chiffrement, sauvegardes).
La journalisation et l’audit sont indispensables pour la traçabilité, la détection d’incidents et la conformité réglementaire.
La gestion des accès doit être fine, avec des mécanismes d’authentification multi-facteurs et des politiques de moindre privilège.
La sécurité doit être intégrée dès la conception (security by design) et faire l’objet de contrôles réguliers (tests de vulnérabilité, audits).
La gouvernance s’appuie aussi sur la documentation, la formation des équipes et la sensibilisation à la sécurité.

💡 À retenir

La sécurité et la gouvernance des bases NoSQL sont essentielles pour garantir la confidentialité, l’intégrité et la disponibilité des données, tout en assurant la conformité réglementaire et la traçabilité des opérations dans un environnement distribué et cloud-native.

📊 Tableaux de Synthèse

Critère	Bases NoSQL	SGBDR traditionnels
Schéma	Flexible, évolutif	Rigide, structuré
Architecture	Distribuée, horizontale	Centralisée, verticale
Modèles de données	Clé-valeur, document, colonne, graphe	Relationnel
Scalabilité	Horizontale (sharding, réplication)	Verticale (montée en puissance)
Cohérence (CAP)	Variable selon le modèle choisi (eventuelle, forte)	Forte par défaut
Performance	Haute performance en lecture/écriture	Bonne cohérence, moins scalable

Notions clés	Définition
Théorème CAP	Impossibilité de garantir simultanément C, A, P dans un système distribué
Cohérence forte	Données synchronisées immédiatement
Cohérence éventuelle	Données finissent par se synchroniser après un délai
Partition réseau (P)	Séparation du réseau empêchant la communication
Observabilité distribuée	Surveillance via métriques, logs, traces

⚠️ Pièges & Confusions Fréquentes

Confondre cohérence forte et cohérence éventuelle, surtout dans le contexte CAP.
Supposer que NoSQL est toujours plus performant que SQL, sans considérer la charge et la configuration.
Ignorer l’impact du réseau sur la performance et la cohérence dans une architecture distribuée.
Confondre disponibilité et tolérance au partitionnement : elles ne sont pas toujours compatibles.
Sous-estimer l’importance de l’observabilité pour diagnostiquer les problèmes distribués.
Penser que la réplication garantit la cohérence sans configuration supplémentaire.
Négliger la gestion des compromis CAP lors de la conception ou de la migration.

✅ Checklist Examen

Définir ce qu’est une base NoSQL et ses principales caractéristiques.
Expliquer le concept de schéma flexible et ses avantages.
Citer et décrire les principales typologies NoSQL.
Définir un système distribué et ses enjeux.
Expliquer le théorème CAP et ses implications.
Différencier cohérence forte, cohérence éventuelle et cohérence causale.
Décrire comment la latence réseau influence la performance d’une base NoSQL.
Identifier les indicateurs clés de performance (latence, débit, throughput).
Expliquer la notion d’observabilité distribuée et ses composants.
Définir la haute disponibilité et la résilience dans un contexte NoSQL.
Présenter les enjeux de sécurité et de gouvernance dans ces environnements.
Analyser l’impact du partitionnement réseau sur la cohérence et la disponibilité.
Comparer architectures centralisées vs distribuées en termes de scalabilité.
Décrire les mécanismes de sharding et réplication.
Identifier les principaux outils d’observabilité (logs, métriques, traces).
Expliquer comment assurer la résilience face aux défaillances réseau.
Vérifier la conformité aux règles de sécurité et de gouvernance lors du déploiement.
Évaluer la performance à partir des indicateurs clés.
Comprendre l’importance de l’observabilité pour la maintenance.
Connaître les stratégies de déploiement pour garantir la haute disponibilité.
Dernier item : Vérifier la maîtrise des compromis CAP selon les cas d’usage.

📋 Plan du Cours

📖 1. Bases NoSQL & caractéristiques

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Architectures distribuées & réseau

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 3. Théorème CAP & cohérence

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Performance NoSQL & indicateurs

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Observabilité & signaux clés

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Outils d’observabilité & déploiement

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Haute disponibilité & résilience

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Sécurité & gouvernance

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📊 Tableaux de Synthèse

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Тествайте знанията си

Прегледайте с флашкарти

Similar courses

Introduction à l'Intelligence Artificielle Symbolique

Introduction aux documents et sécurité en construction

Introduction à l'Informatique et IA

Introduction aux marchés publics et réglementations du bâtiment

Gestion des imprimantes Windows et PDF

Introduction aux bases de données relationnelles

Създайте свои собствени листове за преговор