📋 Plan du Cours
- Données structurées
- Fichiers de données
- Stockage numérique
- Unités de stockage
- Données ouvertes
- Cloud et datacenters
- Big Data et métadonnées
- Normes d'encodage
📖 1. Données structurées
🔑 Notions clés & Définitions
- Donnée : Élément (texte, nombre, photo…) se référant à un objet (individu, livre, ville, musique…) (source : contenu source).
- Donnée personnelle : Donnée concernant un individu, comme le nom, l’email, la photo ou l’historique de navigation (source : contenu source).
- Données structurées : Données organisées de façon à faciliter leur manipulation et leur stockage par des systèmes informatiques, notamment sous forme de tableau (source : contenu source).
- Format tableau : Organisation des données structurées avec des colonnes et des descripteurs en première ligne, permettant une visualisation claire et une manipulation aisée (source : contenu source).
- Tableur : Logiciel permettant de manipuler des données sous forme de tableaux, comme Excel, Calc ou Google Sheets (source : contenu source).
- Normes d'encodage : Tables de correspondance entre caractères et représentation binaire, telles que ASCII (1960) et UTF-8, permettant de représenter les caractères en binaire (source : contenu source).
📝 Points essentiels
- Une donnée est un élément se référant à un objet, qu’il s’agisse d’un texte, d’un nombre ou d’une photo, et peut être personnelle si elle concerne un individu (ex : nom, email, historique).
- Les données structurées sont organisées pour faciliter leur manipulation et leur stockage, notamment dans des logiciels comme les tableurs (Excel, Calc, Google Sheets).
- Le format tableau est le plus simple pour visualiser des données structurées : chaque type de donnée occupe une colonne, avec des descripteurs en première ligne. Tous les objets partagent ces mêmes descripteurs.
- Les fichiers .xls, .ods, ainsi que d’autres formats comme .csv, .json, .xml, permettent de stocker des données structurées, avec ou sans formules ou mise en page.
- La norme ASCII (1960) encode chaque caractère sur 7 bits, tandis que UTF-8, la norme la plus utilisée, encode chaque caractère sur 1 octet (8 bits), permettant une représentation efficace des caractères.
- La capacité de stockage évolue avec le temps : de la disquette de 1971 (20x20 cm, 3,7 Mo) aux disques durs, clés USB, SD, DVD, Blu-ray, jusqu’aux téraoctets et pétaoctets dans les datacenters.
- Les données ouvertes (Open Data) sont diffusées avec une licence garantissant leur libre accès et réutilisation, contribuant à la transparence démocratique et au fonctionnement des services publics.
- Le cloud est un système de stockage à distance dans des datacenters, avec une duplication des données pour assurer leur sécurité et leur disponibilité sur plusieurs appareils.
- Le Big Data désigne l’ensemble massif de données collectées par les acteurs numériques, utilisées notamment pour la publicité ciblée et la génération de revenus pour les géants du web.
- Les métadonnées sont des données décrivant une ressource, comme l’auteur, la date de création ou la localisation GPS d’une photo, permettant d’enrichir la gestion et la recherche des données.
💡 À retenir
Les données structurées sont des ensembles organisés d’informations, facilitant leur manipulation, leur stockage et leur utilisation dans divers formats et logiciels, essentiels pour la gestion efficace de l’information numérique.
📖 2. Fichiers de données
🔑 Notions clés & Définitions
- Fichier .xls et .ods : fichiers tableur contenant des données organisées en tableaux, incluant des formules de calcul, des mises en page (couleurs, polices, tailles). Ces formats sont utilisés par des logiciels comme Excel (Microsoft Office), Calc (LibreOffice) ou Google Sheets.
- Fichier CSV : fichier texte brut où chaque donnée est séparée par un délimiteur (virgule ou point-virgule). Il est léger et simple, utilisé pour échanger des données structurées sans mise en page ni formules.
- Fichier JSON : format de données en paires clé-valeur, utilisé principalement par JavaScript. Il permet de représenter des objets complexes de façon structurée, similaire à un dictionnaire.
- Fichier XML : format de données basé sur des balises ouvrantes et fermantes qui délimitent les éléments. Il sert à structurer des données hiérarchiques, facilitant leur échange entre systèmes.
- Norme ASCII (1960) : norme d'encodage sur 7 bits où chaque caractère est représenté par une séquence binaire, permettant de coder 128 caractères.
- Norme UTF-8 : norme d'encodage utilisant 1 octet (8 bits) par caractère, compatible avec ASCII, permettant de représenter tous les caractères Unicode.
📝 Points essentiels
- Les fichiers .xls et .ods sont des fichiers de tableur qui stockent non seulement des données, mais aussi des formules, des mises en page et des styles, facilitant la manipulation et la présentation des données structurées.
- Le format CSV est un fichier texte brut, très léger, où chaque donnée est séparée par un délimiteur (virgule ou point-virgule). Il ne contient pas de mise en page ni de formules, ce qui le rend idéal pour l’échange de données simples entre applications.
- JSON, utilisé par JavaScript, stocke les données sous forme de paires clé-valeur, ce qui facilite leur traitement dans des applications web.
- XML utilise des balises pour délimiter les éléments, permettant de structurer des données hiérarchiques et d’assurer leur compatibilité entre différents systèmes.
- La norme ASCII, apparue en 1960, encode chaque caractère sur 7 bits, limitant le nombre de caractères (128). La norme UTF-8, la plus utilisée aujourd’hui, encode chaque caractère sur 1 octet (8 bits), permettant de représenter tous les caractères Unicode.
- La capacité de stockage évolue avec le temps : 1 octet (1 o) pour un caractère, puis kilooctet (ko), mégaoctet (Mo), gigaoctet (Go), téraoctet (To), pétaoctet (Po), supportant des fichiers de plus en plus volumineux.
💡 À retenir
Les fichiers de données structurés comme .xls, .ods, CSV, JSON et XML permettent d’organiser, d’échanger et de manipuler efficacement des informations numériques, chaque format étant adapté à des usages spécifiques selon la complexité et la nature des données.
📖 3. Stockage numérique
🔑 Notions clés & Définitions
- Stockage numérique : Conservation des données sous forme électronique sur supports informatiques, permettant leur sauvegarde, leur accès et leur manipulation.
- Serveurs : Ordinateurs spécialisés dédiés au stockage, à la gestion et à la diffusion des données dans le cloud.
- Datacenter : Structure immense regroupant plusieurs serveurs, conçue pour héberger, sécuriser et gérer de grandes quantités de données.
- Duplication des données : Processus de création de copies multiples d’une donnée pour assurer la sécurité, la fiabilité et la disponibilité en cas de défaillance (voir aussi la notion de cloud).
- AUTEUR (date) : La norme ASCII (1960) est une table d'encodage sur 7 bits permettant de représenter les caractères.
- AUTEUR (date) : La norme UTF-8, la plus utilisée, encode chaque caractère sur 1 octet (8 bits), permettant une compatibilité avec ASCII tout en supportant tous les caractères Unicode.
📝 Points essentiels
- Le stockage numérique consiste à sauvegarder des données sur supports informatiques, tels que disquettes, disques durs, clés USB, CD, DVD, Blu-ray, SSD, etc., avec des capacités croissantes (exemples : 3,7 Mo en 1956 avec le premier disque dur IBM, jusqu’à plusieurs To avec les datacenters modernes).
- Les données peuvent être structurées (organisées en tableaux, fichiers JSON, XML, CSV) ou non structurées. Les formats comme .xls, .ods, .csv, .json, .xml facilitent leur manipulation.
- La capacité de stockage évolue rapidement : 1 octet (1 o) pour un caractère, kilooctet (1 ko), mégaoctet (1 Mo), gigaoctet (1 Go), téraoctet (1 To), pétaoctet (1 Po).
- La norme ASCII (1960) utilise 7 bits pour coder les caractères, tandis que UTF-8, la norme la plus courante aujourd’hui, utilise 8 bits par caractère, permettant de représenter tous les caractères Unicode.
- Le stockage dans le cloud repose sur des serveurs dans des datacenters, où les données sont dupliquées pour garantir leur sécurité et leur disponibilité.
- Les datacenters consomment beaucoup d’énergie, produisent de la chaleur, et leur utilisation soulève des enjeux écologiques et géopolitiques, notamment liés aux GAFAM.
- Le Big Data désigne l’ensemble massif de données collectées, souvent utilisées pour la publicité ciblée ou la recherche, tandis que les métadonnées décrivent ces données (auteur, date, localisation, etc.).
💡 À retenir
Le stockage numérique permet de conserver et d’accéder à des données variées grâce à des supports et infrastructures en constante évolution, tout en soulevant des enjeux de sécurité, d’énergie et d’éthique.
📖 4. Unités de stockage
🔑 Notions clés & Définitions
- Bit : unité binaire pouvant prendre 2 valeurs (0 ou 1). AUTEUR (source) : chiffre binaire représentant une information élémentaire.
- Octet (1 o) : unité de stockage composée de 8 bits, permettant de représenter un caractère ou une petite quantité d'information.
- Ordres de grandeur des unités de stockage : échelles permettant d’évaluer la capacité de stockage, allant de l’octet à l’exa-octet, comme le kilo-octet, méga-octet, giga-octet, téra-octet, péta-octet.
📝 Points essentiels
- Un bit est la plus petite unité de stockage, capable de représenter 2 valeurs (0 ou 1). Sur 8 bits (1 octet), on peut représenter 256 valeurs différentes.
- Un octet (1 o) correspond à 8 bits, suffisant pour coder un caractère (ex : une lettre, un chiffre).
- La norme ASCII (1960) utilise 7 bits pour coder chaque caractère, tandis que UTF-8 (norme la plus utilisée) encode chaque caractère sur 1 octet (8 bits).
- La capacité de stockage évolue selon les ordres de grandeur :
- 1 o (octet) : un caractère ou une petite donnée.
- 1 ko (kilooctet) = 1 000 o : texte brut ou petite image.
- 1 Mo (mégaoctet) = 1 000 000 o : fichier audio, image de haute qualité.
- 1 Go (gigaoctet) = 1 000 000 000 o : vidéo, applications.
- 1 To (téraoctet) = 1 000 000 000 000 o : grandes bases de données, stockage cloud.
- 1 Po (pétaoctet) = 1 000 000 000 000 000 o : datacenters, stockage massif.
- Supports de stockage selon capacité : disquette, disque dur, clé USB, CD, DVD, Blu-ray, SSD.
- Dates importantes :
- 1956 : premier disque dur (IBM, 3,7 Mo).
- 1982 : CD (700 Mo).
- 1995 : DVD (4 Go).
- 2000 : clé USB (8 Mo).
- 2006 : Blu-ray (25 Go).
- 2007 : SSD (plus rapide, plus cher).
💡 À retenir
Les unités de stockage évoluent selon des ordres de grandeur croissants, permettant de mesurer la capacité de supports variés, du simple octet pour un caractère à l'exa-octet pour de vastes bases de données. La norme UTF-8 est aujourd'hui la plus utilisée pour l'encodage des caractères.
📖 5. Données ouvertes
🔑 Notions clés & Définitions
- Données ouvertes (Open Data) : Données diffusées avec une licence "ouverte" qui garantit leur libre accès et leur réutilisation par tous, sans restriction juridique ou financière. Elles permettent une transparence accrue et un meilleur fonctionnement des services publics.
- Exemples de données ouvertes : Données publiques, politiques, de services publics comme les horaires de transports, ou encore celles utilisées par des sites comme Waze ou Allociné pour fournir des informations en temps réel.
- Licence ouverte : Contrat ou condition d’utilisation qui autorise la libre diffusion, modification et réutilisation des données, favorisant la transparence et la participation citoyenne.
- Utilisation des données ouvertes : Elles servent à renforcer la transparence démocratique, à améliorer les services publics, ou à développer des applications comme Waze ou Allociné, qui exploitent ces données pour fournir des services en temps réel.
- Les données dans le Cloud et datacenters : Les données ouvertes peuvent être stockées dans des serveurs dédiés, regroupés dans des centres de données (datacenters), permettant leur accès à distance et leur partage facilité.
📝 Points essentiels
- Les données ouvertes sont diffusées sous une licence garantissant leur libre accès et leur réutilisation, ce qui favorise la transparence démocratique et l’innovation.
- Elles incluent des données publiques, politiques, ou relatives aux services publics, comme les horaires de transports ou les activités parlementaires, accessibles via des plateformes ou des API.
- La mise à disposition de ces données permet de développer des applications telles que Waze ou Allociné, qui exploitent ces informations pour offrir des services en temps réel.
- Les données sont stockées dans des serveurs, regroupés dans des datacenters, où elles sont dupliquées pour assurer leur sécurité et leur disponibilité.
- L’utilisation des données ouvertes contribue à une meilleure gouvernance, mais soulève aussi des enjeux liés à la vie privée, à la sécurité et à l’impact écologique du stockage numérique.
💡 À retenir
Les données ouvertes, diffusées sous licence libre, favorisent la transparence et l’innovation en permettant à tous d’accéder et de réutiliser librement des informations publiques, tout en posant des enjeux de sécurité et d’écologie.
📖 6. Cloud et datacenters
🔑 Notions clés & Définitions
- Cloud : système de stockage à distance accessible via internet, permettant de sauvegarder, gérer et partager des données sans utiliser de support physique local. Les données sont stockées dans des serveurs situés dans des datacenters.
- Synchronisation des données dans le cloud : processus permettant d’accéder à la dernière version d’un fichier sur plusieurs appareils, grâce à la duplication et à la mise à jour automatique des données dans le cloud.
- Avantages du cloud : disponibilité des données sur plusieurs appareils, partage facilité, sécurité renforcée par duplication des données (copie sur plusieurs serveurs).
- Inconvénients du cloud : consommation énergétique importante, production de chaleur, contrôle par des GAFAM (Google, Apple, Facebook, Amazon, Microsoft) qui peut impacter la vie privée et la souveraineté numérique, impact écologique dû à l’extraction de métaux rares et à la consommation de ressources.
- Utilisation de la chaleur des datacenters pour chauffage urbain : démarche écologique visant à valoriser la chaleur produite par les serveurs pour chauffer des bâtiments ou des réseaux de chauffage urbain, réduisant ainsi l’impact environnemental.
📝 Points essentiels
- Le cloud désigne un système de stockage dématérialisé, où les données sont hébergées dans des datacenters composés de nombreux serveurs.
- La synchronisation permet d’accéder à la version la plus récente d’un fichier depuis plusieurs appareils, grâce à la duplication des données sur plusieurs serveurs pour garantir leur sécurité (voir Duplication des données).
- Les avantages majeurs du cloud sont la disponibilité (accès à tout moment et depuis n’importe où), le partage facilité et la sécurité accrue par la duplication.
- Cependant, le cloud présente des inconvénients importants : une forte consommation énergétique et de chaleur, un contrôle accru par les GAFAM, et un impact écologique lié à l’extraction de métaux rares nécessaires à la fabrication des équipements.
- Certains datacenters cherchent à réduire leur impact écologique en utilisant la chaleur générée par les serveurs pour le chauffage urbain, une solution innovante pour valoriser cette chaleur et limiter la pollution.
- La croissance du Big Data et la collecte massive de données, notamment par les géants du web, soulignent l’importance stratégique et économique du cloud (voir Big Data et Données ouvertes).
💡 À retenir
Le cloud, en centralisant le stockage dans des datacenters, offre une grande flexibilité et sécurité, mais soulève des enjeux environnementaux et de souveraineté qu’il est crucial de prendre en compte. La valorisation de la chaleur des datacenters constitue une innovation écologique majeure.
📖 7. Big Data et métadonnées
🔑 Notions clés & Définitions
-
Big Data : Ensemble massif de données collectées par acteurs numériques, dont le volume, la vitesse de traitement et la variété dépassent les capacités des outils traditionnels de gestion de données. Ces données proviennent de diverses sources telles que réseaux sociaux, capteurs, transactions en ligne, etc. (Source : cours)
-
Utilisation du Big Data : Exploitation des données massives pour diverses finalités, notamment la publicité ciblée, la personnalisation de services, ou la génération de revenus pour les géants du web. La collecte et l’analyse permettent d’identifier des comportements ou préférences. (Source : cours)
-
Métadonnée : Donnée décrivant une autre donnée, permettant d’en préciser le contexte, la provenance ou les caractéristiques. Elle est structurée pour faciliter la gestion, la recherche ou l’exploitation de la ressource. (Source : cours)
-
Exemples de métadonnées :
- Pour un fichier texte : auteur, date de création, date de modification.
- Pour une musique : artiste, durée, album.
- Pour une photo : appareil utilisé, coordonnées GPS, date et heure de prise de vue. (Source : cours)
📝 Points essentiels
-
Le Big Data désigne un volume colossal de données collectées par acteurs numériques, souvent à des fins commerciales ou de services. La gestion de ces données nécessite des outils spécifiques en raison de leur volume et de leur complexité. La collecte de Big Data est une source majeure de revenus pour les géants du web, notamment via la publicité ciblée, qui exploite ces données pour personnaliser les annonces.
-
La notion de métadonnée est essentielle dans la gestion des données, car elle permet d’ajouter des informations descriptives à une donnée principale, facilitant ainsi son organisation, sa recherche et son exploitation. Par exemple, pour une photo, la métadonnée peut indiquer la localisation GPS ou la date de prise de vue, ce qui enrichit la compréhension de l’image.
-
La collecte et l’utilisation des métadonnées soulèvent des enjeux de vie privée et de sécurité, notamment avec la multiplication des données personnelles (nom, email, historique de navigation). La légitimité de leur usage est souvent questionnée, en lien avec la notion de légitimité (voir section 3).
-
La norme UTF-8 est la plus utilisée pour l’encodage des caractères dans le stockage des données, permettant une compatibilité internationale et une gestion efficace des métadonnées multilingues.
💡 À retenir
Le Big Data désigne un volume massif de données collectées par acteurs numériques, dont l’exploitation via les métadonnées permet de générer des revenus et d’améliorer les services, tout en soulevant des enjeux liés à la vie privée.
📖 8. Normes d'encodage
🔑 Notions clés & Définitions
- Tables de correspondance : Ensemble qui associe chaque caractère à une représentation binaire spécifique, permettant la traduction entre texte et code binaire.
- Norme ASCII (American Standard Code for Information Interchange) (1960) : standard d'encodage utilisant 7 bits pour représenter chaque caractère, principalement les lettres, chiffres et symboles de base.
- Norme UTF-8 : norme d'encodage utilisant 1 octet (8 bits) par caractère, compatible avec ASCII, et capable de représenter tous les caractères Unicode. Elle est la norme la plus utilisée aujourd'hui.
- Un octet (1o) : unité de stockage composée de 8 bits, permettant de représenter 256 valeurs différentes.
📝 Points essentiels
- Les tables de correspondance sont essentielles pour convertir des caractères en code binaire et vice versa, facilitant la manipulation et la stockage des données textuelles.
- La norme ASCII, apparue en 1960, encode chaque caractère sur 7 bits, ce qui limite le nombre de caractères à 128, mais reste encore utilisée pour des textes simples.
- La norme UTF-8, devenue la plus répandue, encode chaque caractère sur 1 octet (8 bits), mais peut utiliser plusieurs octets pour représenter des caractères complexes (ex : caractères spéciaux, symboles, caractères non latins).
- La capacité de stockage d’un octet permet de représenter jusqu’à 256 valeurs différentes, ce qui est suffisant pour coder la majorité des caractères courants en utilisant des normes comme ASCII ou UTF-8.
💡 À retenir
Les normes d'encodage, telles que ASCII et UTF-8, assurent une traduction fiable entre caractères et code binaire, permettant l’échange et le stockage universel des données textuelles. UTF-8, étant compatible avec ASCII, est la norme la plus utilisée aujourd’hui pour sa flexibilité et sa compatibilité.
📊 Tableaux de Synthèse
| Thème | Notions clés | Formats / Concepts | Auteurs / Normes | Points importants |
|---|
| Données structurées | Donnée, Donnée personnelle, Format tableau, Normes d'encodage | Excel, Calc, Google Sheets, CSV, JSON, XML | - | Organisation en colonnes, facilité de manipulation, formats variés |
| Fichiers de données | Fichier .xls/.ods, CSV, JSON, XML | Forme, utilisation, caractéristiques | ASCII (1960), UTF-8 | Encodages, formats adaptés à la complexité des données |
| Stockage numérique | Supports (disque dur, clé USB, datacenter), Duplication | Capacité, évolutions (Mo à Po) | ASCII, UTF-8 | Capacité croissante, sécurité par duplication, supports variés |
⚠️ Pièges & Confusions Fréquentes
- Confondre ASCII (7 bits) et UTF-8 (8 bits) en termes de capacité d'encodage.
- Penser que tous les fichiers CSV peuvent contenir des formules ou mise en page (non, c’est un fichier texte brut).
- Confusion entre données structurées (tableaux, JSON, XML) et données non structurées.
- Croire que la capacité de stockage n’a pas évolué depuis les disquettes (elle a considérablement augmenté).
- Confondre fichiers JSON (paires clé-valeur) et XML (balises hiérarchiques).
- Oublier que la norme ASCII ne couvre que 128 caractères, alors que UTF-8 en couvre tous les caractères Unicode.
- Confondre datacenter (structure physique) et cloud (service de stockage à distance).
✅ Checklist Examen
- Connaître la définition de Perroux sur la croissance économique.
- Savoir distinguer données structurées, semi-structurées et non structurées.
- Maîtriser les formats de fichiers de données : .xls, .ods, .csv, .json, .xml.
- Identifier les caractéristiques et usages des fichiers CSV, JSON, XML.
- Connaître les normes d'encodage ASCII (1960) et UTF-8, et leurs différences.
- Expliquer le rôle des supports de stockage : disques durs, clés USB, DVD, Blu-ray, SSD.
- Comprendre le fonctionnement et l’intérêt des datacenters et du cloud.
- Savoir ce qu’est la duplication des données et son importance pour la sécurité.
- Définir les métadonnées et leur utilité dans la gestion de données.
- Connaître la notion de Big Data et ses usages principaux.
- Savoir ce que sont les données ouvertes et leur contribution à la transparence.
- Être capable d’identifier les formats adaptés pour l’échange et la manipulation de données.
- Vérifier la maîtrise du vocabulaire : donnée, fichier, stockage, métadonnées, norme d’encodage.
Crea tus propias hojas de repaso
Importa tu curso y la IA genera hojas, cuestionarios y tarjetas de memoria en 30 segundos.
Generador de hojas