Hadoop — définition ?
Framework Big Data pour calculs distribués open source.
Scalabilité — horizontale ?
Ajout de nœuds pour augmenter la performance.
Parallélisme — principe ?
Exécution simultanée de traitements sur différentes données.
Hadoop — langages compatibles ?
Java, R, Python, Scala via librairies.
Haute disponibilité — mécanisme ?
Réplication HDFS et gestion automatique des erreurs.
HDFS — composant principal ?
Stockage distribué avec Namenode et Datanodes.
MapReduce — étape clé ?
Traitement distribué en phases de mapping et réduction.
YARN — rôle ?
Gestionnaire de ressources et orchestration dans Hadoop.
Cluster on-premise — avantage ?
Contrôle total, sécurité, personnalisation.
Cluster cloud — avantage ?
Flexibilité, scalabilité, gestion externalisée.
Cluster hybride — définition ?
Combinaison on-premise et cloud pour flexibilité.
DataFrame — structure ?
Tableau structuré, API SQL, optimisé pour analyses.
RDD — structure ?
Collection immuable, flexible, tolérante aux pannes.
Traitements Spark — modes ?
Batch, streaming, mini-batch.
Spark — composant central ?
Spark Core, gérant exécution et mémoire.
Métiers Big Data — principaux ?
Data Engineer construit, Data Analyst exploite.
Architecture Lakehouse — objectif ?
Unifier Data Lake et Data Warehouse.
Différence DataFrame/RDD ?
DataFrame pour structuré, RDD flexible, non structuré.
YARN — gestion ?
Allocation dynamique, planification, tolérance panne.
Types de cluster — exemples ?
On-premise, cloud, hybride.
Pon a prueba tus conocimientos con 10 preguntas sobre Framework Big Data et Traitements Distribués.
1. Qu'est-ce que le Framework Hadoop ?
2. En quelle année YARN a-t-il été introduit comme gestionnaire de ressources dans Hadoop ?
Revisa el curso completo en la hoja de repaso para Framework Big Data et Traitements Distribués.
Ver hoja de repaso →Intelligence Artificielle
Bases de données
Bases de données
Bases de données
Importa tu curso y la IA genera tarjetas de memoria en 30 segundos.
Generador de tarjetas de memoria