Revision Sheet: Introduction au Big Data et à l'Intelligence Artificielle

Plan du Cours

Notion de donnée numérique et traitement automatisé
Définition et caractéristiques des Big Data
Sources d’alimentation du Big Data : web visible, deep web, social data et Internet des objets
Exécutée dans un cluster (=grappe de serveurs au moins 2, appelés aussi nœuds
Technologies de stockage et interrogation des données : Datawarehouse, Datamart, Datalake et bases NoSQL
Cloud computing et infrastructures pour le traitement du Big Data
Accélération des puissances de traitement : CPU, GPU, ASIC et puces neuromorphiques
Méthodes de traitement des données Big Data : traitements batch et en temps réel
Datamining et intelligence artificielle : concepts généraux et démarche
Machine learning : apprentissage supervisé, non supervisé et par renforcement
Deep learning et réseaux de neurones artificiels : fonctionnement et avantages
Questions éthiques et sociales posées par le Big Data et l’IA : neutralité algorithmique, impact sur l’emploi et données personnelles

1. Notion de donnée numérique et traitement automatisé

Notions clés & Définitions

Exemple : Informations générées en permanence par les utilisateurs via des services comme la géolocalisation, les réseaux sociaux, les applications de fitness ou d'achat.
Donnée : Description élémentaire codée d'une réalité (chose, événement, mesure, transaction, etc.) destinée à être collectée, enregistrée, traitée, manipulée, transformée, conservée, échangée, diffusée ou communiquée.
Equipements mobiles : Applications, pour les militaires, mais aussi pour tous les équipements mobiles : smartphones aux robots.

Points essentiels

Le traitement automatisé permet de manipuler et analyser ces données numériques de manière rapide et efficace.
Page 3 sur 26 INTRODUCTION Les utilisateurs accèdent à des données numériques sur leurs équipements mobiles au moins 150 fois par jour en moyenne et génèrent donc des données en permanence (géolocalisation, réseaux sociaux, applications de fitness ou d'achat, etc.) Un utilisateur moyen consomme des contenus digitaux pendant plus de 3 heures par jour sur son mobile selon Kleiner Perkins, soit une multiplication par quatre du temps passé en cinq ans.
B) = gage de cohérence du contenu de la base de données, car une fois les contraintes déclarées, aucune violation de ces règles ne sera permise pas le SGBDR ;
Utilisation du langage SQL, qui exécute rapidement des requêtes complexes sur des volumes de données raisonnables. Structured Query Language est un langage informatique normalisé servant à effectuer des opérations sur des bases de données et qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données dans les bases de données. Le NoSQL, pour "not only SQL", désigne les systèmes de gestion de bases de données qui ne sont pas fondées sur l'architecture classique des bases de données Les principales problématiques qui ont conduit à utilisation NoSQL : 1. Une même base de données sur un site Web, doit être utilisée en même temps dans le monde entier par des millions d’utilisateurs ; Amazon etc … 2. Le langage de requêtes doit être simple mais très performant, 3. L’architecture de la base de données doit être la plus simple possible, 4. Le stockage de la base de données doit pouvoir évoluer en fonction des besoins (montée en charge) Une base NoSQL est une base de données distribuée pour répartir la charge de calcul et de données dynamiquement 1. Non relationnelle, =une seule table gigantesque plutôt que de nombreuses tables interdépendantes donc plus facile à modifier. 2. Exécutée dans un cluster (=grappe de

À retenir

Le traitement automatisé permet de manipuler et analyser ces données numériques de manière rapide et efficace.

2. Définition et caractéristiques des Big Data

Notions clés & Définitions

Points essentiels

Le Big Data se définit par des ensembles de données trop volumineux, variés et rapides pour être traités par des méthodes traditionnelles.
Les caractéristiques principales du Big Data sont le volume, la variété et la vélocité des données.
Page 17 sur 26 l'IA a végété plusieurs années à plusieurs reprises notamment dans les années 1970 et 1990 ; car elle a été longtemps limitée par les coûts et performances des machines (vitesse, capacité mémoire, capacité de stockage), engendrant recul des investissements par les industriels. Secteur en effervescence depuis 2012 car accélération recherches sur les équipements (plus performants et moindres coût) et mise à disposition d’énormes quantités de données (Big data) Mais L’exploitation de la donnée constitue un investissement important : : - Coût de l’acquisition de données. - Coût matériel et logiciel. - Coût humain (recrutement, montée en compétences). IA faible et IA forte
Intelligence artificielle faible, l’IA faible se concentre sur une tâche précise, de manière autonome. Tous les systèmes existants sont considérés comme des IA faibles
Intelligence artificielle forte ou IA générale doit produire un comportement intelligent, La capacité de ces machines à être aussi intelligente que l'être humain serait limitée par sa force de calcul. Certains ajoutent capacité à éprouver des émotions Approches principales de l’IA Depuis les débuts de l’intelligence artificielle dans les années 1950, deux approches ont été employées : Dans la première approche, années 1980 programmation de règles et résolution de problèmes à travers une série d’étapes avec le développement des

À retenir

Le Big Data se distingue des données classiques par ses caractéristiques spécifiques de volume, variété et vélocité, qui posent des défis particuliers en termes de traitement et d’analyse.

Notions clés & Définitions

Description : Représentation élémentaire d’une information sous forme codée, permettant sa collecte, son traitement et son stockage dans le cadre du Big Data.

Points essentiels

Le Big Data est alimenté par plusieurs sources : le web visible, le deep web, les données sociales (social data) et l’Internet des objets.
L’Internet des objets regroupe les objets connectés générant des données en continu.

À retenir

Les différentes origines des données massives du Big Data incluent le web visible, le deep web, les données sociales et l’Internet des objets, chacune ayant ses caractéristiques spécifiques.

4. Exécutée dans un cluster (=grappe de serveurs au moins 2, appelés aussi nœuds

Notions clés & Définitions

Points essentiels

En cas de panne d’un serveur dans le cluster, les autres serveurs prennent le relais pour assurer la continuité du traitement.
Le cluster permet la répartition dynamique de la charge de calcul et de données.
Exécutée dans un cluster (=grappe de serveurs au moins 2, appelés aussi nœuds) 3.

À retenir

Les clusters de serveurs sont essentiels pour assurer la robustesse et la scalabilité des traitements Big Data, en garantissant la continuité du traitement en cas de panne et en répartissant efficacement la charge de calcul et de données.

5. Technologies de stockage et interrogation des données : Datawarehouse, Datamart, Datalake et bases NoSQL

Notions clés & Définitions

Donnée : => lisible par une machine donc se confond avec la notion de « donnée numérique ».

Points essentiels

Le Datawarehouse est une base de données centralisée conçue pour stocker des données structurées à des fins d’analyse.
Le Datamart est une sous-partie du Datawarehouse dédiée à un domaine spécifique, répondant aux besoins précis d’un groupe d’utilisateurs.
Le Datalake stocke des données brutes, structurées ou non, à grande échelle, offrant une flexibilité dans leur traitement.
Les bases NoSQL sont non relationnelles, exécutées dans des clusters, adaptées aux données massives et variées.
Page 4 sur 26
Les données non structurées textuelles sont générées par les courriels, les présentations PowerPoint, les documents Word, messages de messagerie instantanée…
Les données non structurées non textuelles : générées par images JPEG, les fichiers audio MP3, ou vidéo Flash etc. Les serveurs, appareils, compteurs et robots génèrent tous des journaux de données qui enregistrent chaque action On ajoute souvent des métadonnées aux données non structurées Une métadonnée = une donnée sur une donnée. Plus précisément, c'est un ensemble structuré d'informations décrivant une ressource et permettant d'identifier, de traiter, de stocker et de localiser les données. Les métadonnées sont historiquement à la base de l'archivage (bibliothèques : classement Dewey) et devenues essentielles pour les réseaux sociaux, netflix etc car La donnée n'a de valeur que dans un contexte bien précis et une bonne méthode de gestion des métadonnées facilite l'intégration, le partage et la collecte de ces données (Métadonnées descriptives). - classiquement constituées de mots-clés ou de texte libre. les plus courantes= la date de sauvegarde, la taille et l'auteur du fichier... - Les métadonnées sont particulièrement importantes pour les ressources visuelles qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver. Les utilisateurs dépendent en effet des informations

À retenir

Il est essentiel de distinguer les différentes technologies de stockage et d’interrogation, telles que Datawarehouse, Datamart, Datalake et bases NoSQL, pour répondre aux besoins variés du Big Data.

6. Cloud computing et infrastructures pour le traitement du Big Data

Notions clés & Définitions

Cloud computing : Utilisation de serveurs répartis mondialement pour fournir des capacités de calcul et de stockage à la demande, permettant une flexibilité et une facturation à l’usage.
Cloud public : Infrastructures cloud accessibles à tous, hébergées par des fournisseurs tiers, offrant des ressources partagées et évolutives.
Cloud privé : Infrastructures cloud réservées à une seule organisation, souvent hébergées en interne ou dans un centre de données dédié, pour plus de contrôle et de sécurité.

Points essentiels

Le cloud computing utilise des serveurs répartis mondialement pour fournir des capacités de calcul et de stockage à la demande.
Le cloud hybride combine des infrastructures internes (privées) et externes (publiques) pour plus de flexibilité.
Le cloud permet une facturation à l’usage, rendant les technologies Big Data accessibles à toutes tailles d’entreprises.

À retenir

Le cloud computing révolutionne l’accès aux infrastructures nécessaires au Big Data en permettant une utilisation flexible, évolutive et à la demande.

7. Accélération des puissances de traitement : CPU, GPU, ASIC et puces neuromorphiques

Notions clés & Définitions

Deep Web : La partie du web non indexée par les moteurs de recherche classiques, incluant des contenus protégés par mot de passe, des pages générées dynamiquement, ou des ressources non accessibles via les protocoles HTTP/HTTPS.
Web invisible : Représente plus de 70% du Web = bien au-delà du web indexé plus de 500 fois plus gros que le web indexé o Les ressources inaccessibles aux robots, notamment les pages administratives ou payantes (banques en ligne ou, le service payant de streaming Netflix cont
Puces neuromorphiques : Des circuits intégrés électroniques construits pour imiter le fonctionnement du cerveau.

Points essentiels

Le CPU est le processeur généraliste traditionnel pour le traitement des données.
Le GPU est optimisé pour le traitement parallèle, accélérant les calculs massifs du Big Data.
Les ASIC sont des puces spécialisées conçues pour des tâches spécifiques, offrant une grande efficacité énergétique.
Les puces neuromorphiques imitent le fonctionnement du cerveau pour des traitements plus rapides et efficaces.

À retenir

Les puces neuromorphiques imitent le fonctionnement du cerveau pour des traitements plus rapides et efficaces.

8. Méthodes de traitement des données Big Data : traitements batch et en temps réel

Notions clés & Définitions

Donnée : Description élémentaire d’une information, constituant un élément brut non interprété, lisible par une machine et pouvant être collectée, enregistrée, traitée, stockée, échangée ou diffusée, avec la capacité de faire l’objet d’un traitement automatisé.

Points essentiels

Le traitement batch consiste à traiter de grands volumes de données en lots à intervalles réguliers, avec des résultats disponibles après achèvement.
Le traitement en temps réel analyse les données au fur et à mesure de leur arrivée pour fournir des réponses immédiates.
Le choix entre batch et temps réel dépend des besoins d’analyse, de réactivité et de la nature des données.

À retenir

Les méthodes fondamentales de traitement des données Big Data sont le traitement batch, qui opère par lots à intervalles réguliers, et le traitement en temps réel, qui permet une analyse immédiate selon les exigences de réactivité.

9. Datamining et intelligence artificielle : concepts généraux et démarche

Notions clés & Définitions

Points essentiels

L’intelligence artificielle englobe les techniques permettant aux machines d’imiter l’intelligence humaine.
La démarche du datamining inclut la collecte, le nettoyage, l’analyse et l’interprétation des données.
Sinon fausses conclusions
Analyse des données : qui relie l'informatique et mathématiques
Interprétation les données Types d’exploration de données On dénombre cinq variétés du Data Mining : - Association – chercher des patterns (modèle, une structure, un motif, un type) au sein desquelles un événement est lié à un autre événement.

À retenir

Le datamining et l’intelligence artificielle collaborent en combinant des techniques d’analyse et d’apprentissage automatique pour extraire et exploiter la valeur des données.

10. Machine learning : apprentissage supervisé, non supervisé et par renforcement

Notions clés & Définitions

Points essentiels

L’apprentissage supervisé utilise des données étiquetées pour entraîner un modèle à prédire des résultats.
Le machine learning permet aux ordinateurs d’apprendre sans être explicitement programmés.
Page 19 sur 26 contraire les données considérées comme différentes se retrouvent dans d'autres groupes distincts. On recherche la structure des données on classe, on segmente C L’apprentissage par renforcement : à la fin de chaque décision du modèle, vous lui donnez simplement une « note ». Prenons l’exemple de DeepMind, qui a entraîné un modèle sur des vieux jeux Atari : dans ce cas-là, la note était le score des parties, et le modèle a peu à peu appris à maximiser ces scores. Démarche
On approvisionne les algorithmes de ML d’exemples dont les résultats sont connus
Algorithmes analyse les données, et apprentissage,
Réalisation d’une prévision
Note la différence entre ses prévisions et les résultats corrects,
Affiner la précision de ses prédictions jusqu’à ce qu’elles soient optimisées en utilisant des pondérations La caractéristique des algorithmes en machine learning, est que la qualité de leurs prédictions s’améliore avec l’expérience. Plus nous leurs fournissons de données (jusqu’à un certain point), meilleurs sont les moteurs de prédiction Exemples d’utilisation : - Les préférences dans les réseaux sociaux (manifestées en particulier, par les « likes » accessibles publiquement dans les pages Facebook) permettent ainsi, à elles seules, non seulement de remonter au sexe (homme ou femme) des individus avec un taux de succès dépassant les 90%, mais aussi à leur
LE MACHINE LEARNING ET DEEP LEARNING .................................................

À retenir

Les différents types d’apprentissage automatique — supervisé, non supervisé et par renforcement — jouent un rôle clé dans l’évolution des modèles prédictifs en permettant aux ordinateurs d’apprendre à partir de données variées et d’expériences.

11. Deep learning et réseaux de neurones artificiels : fonctionnement et avantages

Notions clés & Définitions

DeepFace : =technologie en mesure d’envoyer une notification à un utilisateur lorsqu’un autre utilisateur met une photo en ligne et qu’il est présent dessus.
Avantages : Capacité à transférer les données entre le Cloud public et privé selon les besoins, la demande et les coûts, ce qui est idéal pour le traitement du Big Data, notamment en utilisant un stockage Cloud hybride pour stocker et analyser les données.
Démarche : Approche consistant à utiliser des architectures de réseaux de neurones profonds empilés pour reconnaître des motifs complexes dans de grandes quantités de données, en s'inspirant des interconnexions entre neurones du cerveau humain.
Réseaux de neurones artificiels : Structures informatiques composées de couches de neurones interconnectés avec des connexions et des directions de propagation de données, qui traitent l'information en simulant certains aspects du fonctionnement du cerveau humain.

Points essentiels

Le deep learning utilise des réseaux de neurones profonds pour reconnaître des motifs complexes dans les données.
Les réseaux de neurones artificiels imitent le fonctionnement du cerveau humain pour traiter l’information.
Le deep learning a surpassé les méthodes traditionnelles dans des tâches comme la reconnaissance d’images depuis 2012.
Ils peuvent s'utiliser pour extraire des modèles et détecter des tendances reposant sur des fonctions mathématiques compliquées Avantages
Le niveau de connaissance dont l'utilisateur a besoin pour réussir à appliquer des réseaux de neurones est nettement inférieur à celui qu'il doit posséder pour la plupart des techniques et outils traditionnels,
Les réseaux de neurones savent prévoir avec précision au-delà des données faisant partie des données d'apprentissage, un processus connu sous le nom de généralisation.

À retenir

Le deep learning utilise des réseaux de neurones profonds pour reconnaître des motifs complexes dans les données.

12. Questions éthiques et sociales posées par le Big Data et l’IA : neutralité algorithmique, impact sur l’emploi et données personnelles

Notions clés & Définitions

L’ensemble : = "graphe social", permet une étude très fine du comportement des individus.
Données personnelles : Informations permettant d’identifier directement ou indirectement une personne physique, dont la collecte et le traitement sont encadrés par des réglementations visant à garantir leur confidentialité et leur protection.
Données sont : Informations brutes, hétérogènes et dynamiques produites par les individus ou générées par des objets connectés, utilisées dans le traitement automatisé et l’analyse de masse.

Points essentiels

Les algorithmes ne sont pas toujours neutres et peuvent reproduire ou amplifier des biais.
Le développement du Big Data et de l’IA soulève des questions sur la transformation et la disparition de certains emplois.
La collecte massive de données personnelles pose des enjeux majeurs de confidentialité et de protection.

À retenir

L’usage croissant du Big Data et de l’intelligence artificielle soulève des enjeux éthiques et sociaux importants, notamment en matière de neutralité algorithmique, d’impact sur l’emploi et de protection des données personnelles.

🧩 Compléments de couverture

Détail source à réviser : : BIG DATA ET IA 2022 M1 – DROIT NISRINE CHDAK TICE _ THEME 1_ BIG DATA ET IA - Cours N.CHDAK Page 1 sur 26 TABLE DES MATIERES INTRODUCTION ................................................................................ (Source: ": BIG DATA ET IA 2022 M1 – DROIT NISRINE CHDAK TICE _ THEME 1 BIG DATA ET IA - Cours N.CHDAK Page 1 sur 26 TABLE DES MATIERES INTRODUCTION ..................................................................................................... 3 PARTIE 1.DONNEES ET BIG DATA ........................................................................... 3")_
Détail source à réviser : LES ELECTIONS .................................................................... 10 3.3 - BIG DATA ET CRIMINALITE ........................................................................... 10 PARTIE 4.LES TECHNOLOGIES (Source: "LES ELECTIONS .................................................................... 10 3.3 - BIG DATA ET CRIMINALITE ........................................................................... 10 PARTIE 4.LES TECHNOLOGIES SUPPORTS DE L’ANALYSE DU BIG DATA ................. 11 4.1 DATAWAREHOUSE, DATAMART ET DATALAKE")
Détail source à réviser : 22 6.2 L’ABSENCE DE NEUTRALITE DES ALGORITHMES .............................................. 23 6.3 LES DIFFERENTES FAÇONS D’ENVISAGER LA PENSEE DES MACHINES ................ 23 6.3 L’IMPACT SUR LES EMPLOIS ............ (Source: "22 6.2 L’ABSENCE DE NEUTRALITE DES ALGORITHMES .............................................. 23 6.3 LES DIFFERENTES FAÇONS D’ENVISAGER LA PENSEE DES MACHINES ................ 23 6.3 L’IMPACT SUR LES EMPLOIS ........................................................................... 24 6.4.LES DONNEES PERSONNELLES")
Détail source à réviser : Donnée => lisible par une machine donc se confond avec la notion de « donnée numérique ». Une donnée numérique est la description élémentaire de nature numérique, représentée sous forme codée, d’une réalité (chose, évène (Source: "Donnée => lisible par une machine donc se confond avec la notion de « donnée numérique ». Une donnée numérique est la description élémentaire de nature numérique, représentée sous forme codée, d’une réalité (chose, évènement, mesure, transaction, etc.) en vue d’être ensuite : > collectée, enregistrée, > traitée, manipulée, transformée > conservée,")
Détail source à réviser : plus de 25 Pétabytes de données, ce qui équivaut à 510 milliards de pages ! Fin 2016, la BNF conservait 29 milliards de fichiers, pour un volume de 668 Téraoctets d’archives web avec un accroissement de 120 Téraoctets ch (Source: "plus de 25 Pétabytes de données, ce qui équivaut à 510 milliards de pages ! Fin 2016, la BNF conservait 29 milliards de fichiers, pour un volume de 668 Téraoctets d’archives web avec un accroissement de 120 Téraoctets chaque année. Vélocité =rapidité de production création, collecte, transformation et partage des données Par les utilisateurs")
Détail source à réviser : stratégiques de création de valeur pour les clients et pour l’entreprise ; dans tous les domaines d’activité : commerce, industrie, services Selon une étude de l’Institut Montaigne, les objets connectées et le Big Data p (Source: "stratégiques de création de valeur pour les clients et pour l’entreprise ; dans tous les domaines d’activité : commerce, industrie, services Selon une étude de l’Institut Montaigne, les objets connectées et le Big Data pourraient générer jusqu’à 74 milliards d’euros d’ici 2020, soit 3,6% du PIB national. Un chiffre qui pourrait même atteindre les 7%")
Détail source à réviser : (modalités d’accès) : souvent le réseau Tor fournissant des « services cachés » accessibles uniquement via des adresses .onion – qui garantit l’anonymat total de ses utilisateurs via une technologie de relais en couches (Source: "(modalités d’accès) : souvent le réseau Tor fournissant des « services cachés » accessibles uniquement via des adresses .onion – qui garantit l’anonymat total de ses utilisateurs via une technologie de relais en couches d’oignons (d’où le nom). • Web invisible : représente plus de 70% du Web = bien au-delà du web indexé plus de 500 fois plus")
Détail source à réviser : ✓ Développement des GAFA (Google, Apple, Facebook, Amazon), utilisés par des milliards d’individus dans le monde, et fondés sur un double modèle : un service gratuit simple à utiliser + une collecte massive de données (m (Source: "✓ Développement des GAFA (Google, Apple, Facebook, Amazon), utilisés par des milliards d’individus dans le monde, et fondés sur un double modèle : un service gratuit simple à utiliser + une collecte massive de données (modèle économique fondé sur revenus publicitaires). ✓ Montée en puissance de l’utilisation des réseaux sociaux qui agrègent des quantités")
Détail source à réviser : utilisés… Recherches en cours : 1. Analyser de façon nuancée la sémantique utilisée sur les réseaux sociaux : Recherche de ce qui est explicite et implicite pour interprétation création de Dictionnaires d’analyse de cont (Source: "utilisés… Recherches en cours : 1. Analyser de façon nuancée la sémantique utilisée sur les réseaux sociaux : Recherche de ce qui est explicite et implicite pour interprétation création de Dictionnaires d’analyse de contenu avec , Fréquence des mots clés et des expressions, distribution spatiale de sujets, mots clés et hashtag Problème spécifique autour de")
Détail source à réviser : C’est en tout cas ce qu’affirmait Facebook… ✓ 20 dec 2018 : Facebook collecte des données à partir d’applications comme Tinder, Grindr ou Pregnancy+. Il peut récupérer vos données lorsque vous créez un compte sur une nou (Source: "C’est en tout cas ce qu’affirmait Facebook… ✓ 20 dec 2018 : Facebook collecte des données à partir d’applications comme Tinder, Grindr ou Pregnancy+. Il peut récupérer vos données lorsque vous créez un compte sur une nouvelle application et que vous cliquez sur "se connecter avec Facebook" Les informations collectées peuvent inclure les adresses IP,")
Détail source à réviser : « Smartgrid » (Linky, Gazpar). Santé Suivi médical pour cardiaques, prévention par analyse de données en continu, maintien à domicile de personnes âgées, pillulier connecté, montre connectée. Transports Occupation des ra (Source: "« Smartgrid » (Linky, Gazpar). Santé Suivi médical pour cardiaques, prévention par analyse de données en continu, maintien à domicile de personnes âgées, pillulier connecté, montre connectée. Transports Occupation des rames. Maintenance de réseaux. Smart city Télésurveillance, éclairage urbain, gestion des immeubles, de l’eau, du chauffage, des transports,")
Détail source à réviser : de passer par le Cloud public. o Un processus de traitement de l’information : Exemple vérifier si la température lue est comprise dans une fourchette acceptable ou complexe identifier un objet particulier au travers d’u (Source: "de passer par le Cloud public. o Un processus de traitement de l’information : Exemple vérifier si la température lue est comprise dans une fourchette acceptable ou complexe identifier un objet particulier au travers d’une vidéo afin d’identifier des intrus dans une maison. + IA Ils permettent de collecter les données qui seront par la suite analysées par")
Détail source à réviser : étendues grâce à un spectre de fréquences plus large, des débits de 100 Mbits/s (soit 10 fois plus que la 4G), une latence radio abaissée à 1 milliseconde et une grande résilience, « indispensable pour des communications (Source: "étendues grâce à un spectre de fréquences plus large, des débits de 100 Mbits/s (soit 10 fois plus que la 4G), une latence radio abaissée à 1 milliseconde et une grande résilience, « indispensable pour des communications critiques entre machines, une capacité à connecter 10 à 100 fois plus d’objets par km2 ». o Élargissement de la couverture des")
Détail source à réviser : fuite de secrets • Absence de signatures authentifiées : altération possible du micrologiciel Attaques et piratages Piratage : Détournement des robots de services (caméras, micros) Interception des conversations sur les (Source: "fuite de secrets • Absence de signatures authentifiées : altération possible du micrologiciel Attaques et piratages Piratage : Détournement des robots de services (caméras, micros) Interception des conversations sur les lieux d’accueils, salles de réunions, etc. Prise de contrôle par Internet mobile des systèmes embarqués de la voiture autonome Compteurs")
Détail source à réviser : ventes et de marketing, afin d’améliorer son image de marque • Renforcer la rétention des clients Connaissance des clients ou des prospects sur les portails d’e-commerce permet d’étudier les parcours effectués et les tau (Source: "ventes et de marketing, afin d’améliorer son image de marque • Renforcer la rétention des clients Connaissance des clients ou des prospects sur les portails d’e-commerce permet d’étudier les parcours effectués et les taux de conversion qui s’ensuivent. Les marketeurs ont longtemps travaillé avec des moyennes et sur des segments soient des sous-groupes")
Détail source à réviser : 2008, les logiciels destinés à améliorer la gestion des campagnes électorales se sont multipliés. Le mouvement « En Marche » d’Emmanuel Macron a fait le choix du logiciel 50+1 • Contenu : o Pour plus de 60 000 quartiers, (Source: "2008, les logiciels destinés à améliorer la gestion des campagnes électorales se sont multipliés. Le mouvement « En Marche » d’Emmanuel Macron a fait le choix du logiciel 50+1 • Contenu : o Pour plus de 60 000 quartiers, l’ensemble de tous les résultats électoraux passés ainsi que l’abstention depuis 2007. o Plus d’une centaine de variables")
Détail source à réviser : Page 11 sur 26 Traditionnellement, les technologies et les outils utilisés pour prévenir les attaques informatiques ont été plus réactifs que proactifs. +pas la bande passante requise pour prendre en charge les grands vo (Source: "Page 11 sur 26 Traditionnellement, les technologies et les outils utilisés pour prévenir les attaques informatiques ont été plus réactifs que proactifs. +pas la bande passante requise pour prendre en charge les grands volumes de données. Conséquence : nombreuses fausses alertes. = distraction vis-à-vis des véritables menaces. Les outils analytiques du Big")
Détail source à réviser : Informations transmises aux gendarmes sur le terrain pour qu’ils augmentent l’intensité des patrouilles à certains endroits En GB Une police prédictive préventive dans la région de Birmingham, le projet, appelé National (Source: "Informations transmises aux gendarmes sur le terrain pour qu’ils augmentent l’intensité des patrouilles à certains endroits En GB Une police prédictive préventive dans la région de Birmingham, le projet, appelé National data Analytics Solution (NDAS) a pour objectifs en particulier : - déterminer les personnes susceptibles de commettre des attaques - celles")
Détail source à réviser : immédiatement l’information ayant de la valeur par le biais d’indicateurs de mesure = rôle des solutions Big Data. L’exploitation du Big data s’est accompagnée de la montée en puissance de nouvelles technologies de stock (Source: "immédiatement l’information ayant de la valeur par le biais d’indicateurs de mesure = rôle des solutions Big Data. L’exploitation du Big data s’est accompagnée de la montée en puissance de nouvelles technologies de stockage et de traitement performantes. L’exploitation de la donnée est tout d’abord une dette : - Coût de l’acquisition de données. - Coût")
Détail source à réviser : rendre exploitable par un corps de métier de l’entreprise. A chaque métier son Datamart. C’est donc un sous-ensemble du data Warehouse. Sa fiabilité dépend de la qualité du data Warehouse. Un salarié appartenant aux RH, (Source: "rendre exploitable par un corps de métier de l’entreprise. A chaque métier son Datamart. C’est donc un sous-ensemble du data Warehouse. Sa fiabilité dépend de la qualité du data Warehouse. Un salarié appartenant aux RH, ne voit que les données issues du datamart qui correspondent au métier RH. Un Data Lake est un répertoire où sont stockées de nombreuses")
Détail source à réviser : les données sur une plateforme dans un état quasiment brut, et de les modifier rapidement pour les utiliser est un avantage indéniable 4.2 L’INTERROGATION DE DONNEES GRACE AU LANGAGE NOSQL Demandes de plus en plus import (Source: "les données sur une plateforme dans un état quasiment brut, et de les modifier rapidement pour les utiliser est un avantage indéniable 4.2 L’INTERROGATION DE DONNEES GRACE AU LANGAGE NOSQL Demandes de plus en plus importantes de traitements lourds de données issues de sites Web tels que ceux d’Amazon, Facebook ou Linkedin, Rappel : Solutions traditionnelles")
Détail source à réviser : comme ce que proposent les réseaux sociaux. TICE _ THEME 1_ BIG DATA ET IA - Cours N.CHDAK Page 14 sur 26 4.3 LE CLOUD (CLOUD COMPUTING) Lorsqu’une entreprise souhaite utiliser des technologies Big Data, il lui faut des (Source: "comme ce que proposent les réseaux sociaux. TICE _ THEME 1 BIG DATA ET IA - Cours N.CHDAK Page 14 sur 26 4.3 LE CLOUD (CLOUD COMPUTING) Lorsqu’une entreprise souhaite utiliser des technologies Big Data, il lui faut des serveurs très puissants pour traiter les données. Les infrastructures déjà présentes dans l’entreprise ne sont généralement pas")_
Détail source à réviser : • Idéal pour le traitement de Big Data. Il est par exemple possible pour une entreprise d’utiliser le stockage Cloud hybride pour stocker ses données et d’effectuer des requêtes analytiques sur le Cloud public 4.4 L’ACCE (Source: "• Idéal pour le traitement de Big Data. Il est par exemple possible pour une entreprise d’utiliser le stockage Cloud hybride pour stocker ses données et d’effectuer des requêtes analytiques sur le Cloud public 4.4 L’ACCELERATION DES PUISSANCES DE TRAITEMENT Le Big Data est d’abord une affaire de traitement de la donnée plutôt que de volume. Les")
Détail source à réviser : Photos où il peut traiter plus de 100 millions de photos par jour. 4. Les puces neuromorphiques sont des circuits intégrés électroniques construits pour imiter le fonctionnement du cerveau. Elles présentent l’avantage d’ (Source: "Photos où il peut traiter plus de 100 millions de photos par jour. 4. Les puces neuromorphiques sont des circuits intégrés électroniques construits pour imiter le fonctionnement du cerveau. Elles présentent l’avantage d’être beaucoup plus rapides que les processeurs traditionnels tout en consommant beaucoup moins de courant électrique. Recherches actuelles")
Détail source à réviser : Les données du Big Data pas adaptées à ce traitement classique donc deux types de traitement : Les traitements de type batch Ils permettent de traiter les données jusqu’à leur épuisement à l’entrée du système. Les traite (Source: "Les données du Big Data pas adaptées à ce traitement classique donc deux types de traitement : Les traitements de type batch Ils permettent de traiter les données jusqu’à leur épuisement à l’entrée du système. Les traitements sont continus et incrémentaux c’est-à-dire que l’architecture va à chaque fois prendre en compte les nouvelles données sans avoir à")
Détail source à réviser : (Siri, Google assistant…) — 10’000 heures d’entraînement : système de conduite autonome qui fonctionne relativement bien. Une règle approximative pour les apprentissages complexes est qu’il faut à peu près 100 fois plus (Source: "(Siri, Google assistant…) — 10’000 heures d’entraînement : système de conduite autonome qui fonctionne relativement bien. Une règle approximative pour les apprentissages complexes est qu’il faut à peu près 100 fois plus de données que ce qui est nécessaire à un humain pour maîtriser une tâche. Aujourd’hui, le grand défi est de faire apprendre l’IA")
Détail source à réviser : : - Association – chercher des patterns (modèle, une structure, un motif, un type) au sein desquelles un événement est lié à un autre événement. - Analyse de séquence – chercher des patterns au sein desquelles un événeme (Source: ": - Association – chercher des patterns (modèle, une structure, un motif, un type) au sein desquelles un événement est lié à un autre événement. - Analyse de séquence – chercher des patterns au sein desquelles un événement mène à un autre événement plus tardif. - Clustering – trouver et documenter visuellement des groupes de faits précédemment inconnus.")
Détail source à réviser : est une composante de l’intelligence artificielle. Vise à construire automatiquement des connaissances à partir de grandes quantités de données Il repose sur des algorithmes qui apprennent et renforcent en continu leur c (Source: "est une composante de l’intelligence artificielle. Vise à construire automatiquement des connaissances à partir de grandes quantités de données Il repose sur des algorithmes qui apprennent et renforcent en continu leur connaissance d’un sujet en analysant des données. Ces algorithmes traitent la volumétrie et la complexité d’un jeu de données (ou dataset)")
Détail source à réviser : pointue. Ensuite, elle va encore assembler l’ensemble un peu comme si elle se disait : « bon, alors j’ai là un petit animal, poilu, avec des oreilles pointues, de longues moustaches, sur 4 pattes, etc…donc c’est un chat (Source: "pointue. Ensuite, elle va encore assembler l’ensemble un peu comme si elle se disait : « bon, alors j’ai là un petit animal, poilu, avec des oreilles pointues, de longues moustaches, sur 4 pattes, etc…donc c’est un chat !! » Cette double méthode a été utilisée en 2012 dans un concours de reconnaissance d’images et a écrasé tous les adversaires ayant")
Détail source à réviser : personne aimant un nouveau film) Amazon, Netflix et autres La technique d’intelligence artificielle permet aux ordinateurs de faire évoluer leurs comportements en se basant sur des données empiriques (des exemples) Trois (Source: "personne aimant un nouveau film) Amazon, Netflix et autres La technique d’intelligence artificielle permet aux ordinateurs de faire évoluer leurs comportements en se basant sur des données empiriques (des exemples) Trois classifications possibles des modèles de machine learning : A L’apprentissage supervisé vous fournissez à votre modèle des données")
Détail source à réviser : fille qui n’étaient pas encore au courant LE DEEP LEARNING Le deep learning est basé sur le fonctionnellement du réseau de neurones Il regroupe des algorithmes mimant le fonctionnement biologique d’un cerveau sans être d (Source: "fille qui n’étaient pas encore au courant LE DEEP LEARNING Le deep learning est basé sur le fonctionnellement du réseau de neurones Il regroupe des algorithmes mimant le fonctionnement biologique d’un cerveau sans être destiné à une tâche précise. Partant du constat qu’une zone du cerveau peut aussi bien servir à traiter des images que des sons, l’idée")
Détail source à réviser : finale est envoyée sur le dernier neurone (en jaune) ou sur l'organe effecteur (un moteur par exemple). Démarche : o L'utilisateur collecte des données représentatives puis il fait appel aux algorithmes d'apprentissage, (Source: "finale est envoyée sur le dernier neurone (en jaune) ou sur l'organe effecteur (un moteur par exemple). Démarche : o L'utilisateur collecte des données représentatives puis il fait appel aux algorithmes d'apprentissage, qui vont apprendre automatiquement la structure des données. Donc sur la base d'exemples le programme modélise des données et")
Détail source à réviser : certains cas, de savoir comment un réseau neuronal développe ses prédictions 5.4. EXEMPLES D’UTILISATION DU MACHINE LEARNING ET DU DEEP LEARNING Exemples 1 - Auto ML, Deepdream et les GAN AutoML de Google /Réseau de neur (Source: "certains cas, de savoir comment un réseau neuronal développe ses prédictions 5.4. EXEMPLES D’UTILISATION DU MACHINE LEARNING ET DU DEEP LEARNING Exemples 1 - Auto ML, Deepdream et les GAN AutoML de Google /Réseau de neurones a réussi à identifier des objets sur des images grâce à des couches successives qui se concentrent chacune sur un aspect (couleur,")
Détail source à réviser : la source de chaque design et ainsi de deviner si ces designs sont réels ou s’ils ont été générés par le Générateur. = l’expert. A chaque fois que l’expert met le faussaire en défaut, ce dernier s’améliore, s’éloigne de (Source: "la source de chaque design et ainsi de deviner si ces designs sont réels ou s’ils ont été générés par le Générateur. = l’expert. A chaque fois que l’expert met le faussaire en défaut, ce dernier s’améliore, s’éloigne de ce qui existe pour créer une œuvre plus originale. C’est ainsi que naît la première « collection » d’Obvious : onze portraits d’une")
Détail source à réviser : des mêmes personnes, prises sous des angles différents, elles sont identiques pour l’être humain mais pas pour l’ordinateur. Il serait traité comme deux personnes par des algorithmes informatiques. 2. Processus de « mise (Source: "des mêmes personnes, prises sous des angles différents, elles sont identiques pour l’être humain mais pas pour l’ordinateur. Il serait traité comme deux personnes par des algorithmes informatiques. 2. Processus de « mise en correspondance » Cette identification de visage est réalisée en transmettant un signal aux synapses, un réseau de neurones profonds à")
Détail source à réviser : diagnostic, il posera des questions. Il peut même proposer une TICE _ THEME 1_ BIG DATA ET IA - Cours N.CHDAK Page 22 sur 26 liste d'examens supplémentaires afin que son diagnostic final soit fiable. Ainsi, les médecins (Source: "diagnostic, il posera des questions. Il peut même proposer une TICE _ THEME 1 BIG DATA ET IA - Cours N.CHDAK Page 22 sur 26 liste d'examens supplémentaires afin que son diagnostic final soit fiable. Ainsi, les médecins n'auront plus qu'à valider ou rejeter son diagnostic. Pour analyser 20 millions de pages de données, il lui suffit de trois secondes !")_
Détail source à réviser : pas arrivés à déchiffrer la clé utilisée par ces réseaux pour coder leurs messages. Un exploit d'autant plus impressionnant que les réseaux neuronaux n'ont pas été conçus pour être particulièrement performants en matière (Source: "pas arrivés à déchiffrer la clé utilisée par ces réseaux pour coder leurs messages. Un exploit d'autant plus impressionnant que les réseaux neuronaux n'ont pas été conçus pour être particulièrement performants en matière de déchiffrage https://siecledigital.fr/2017/06/28/google-brain-peut-present-completer-automatiquement-un-de- vos-croquis/ Exemple 5 -")
Détail source à réviser : 6. LES QUESTIONS POSEES PAR LE BIG DATA ET L’IA 6.1 LES POSSIBILITES OFFERTES PAR LE BIG DATA TICE _ THEME 1_ BIG DATA ET IA - Cours N.CHDAK Page 23 sur 26 • La capacité d’analyser des quantités bien plus grandes de donn (Source: "6. LES QUESTIONS POSEES PAR LE BIG DATA ET L’IA 6.1 LES POSSIBILITES OFFERTES PAR LE BIG DATA TICE _ THEME 1 BIG DATA ET IA - Cours N.CHDAK Page 23 sur 26 • La capacité d’analyser des quantités bien plus grandes de données. Jusque-là, et depuis le XIXe siècle, il était question, avec de gros nombres, de recourir à l’échantillonnage donc échantillon")_
Détail source à réviser : manière générale, aux opportunités d’une vie. Tout ce qui peut avoir un impact majeur sur l’existence de quelqu’un. » Plus l’algorithme est « nourri » par les données, plus il devient intelligent. • Mais seulement à la h (Source: "manière générale, aux opportunités d’une vie. Tout ce qui peut avoir un impact majeur sur l’existence de quelqu’un. » Plus l’algorithme est « nourri » par les données, plus il devient intelligent. • Mais seulement à la hauteur des données dont il a été nourri… Des données qui peuvent contenir des biais, que l’on retrouve par conséquent dans l’algorithme •")
Détail source à réviser : FAÇONS D’ENVISAGER LA PENSEE DES MACHINES TICE _ THEME 1_ BIG DATA ET IA - Cours N.CHDAK Page 24 sur 26 Les techno-optimistes Ils travaillent pour des géants technologiques dont une grande partie de l’avenir repose sur l (Source: "FAÇONS D’ENVISAGER LA PENSEE DES MACHINES TICE _ THEME 1 BIG DATA ET IA - Cours N.CHDAK Page 24 sur 26 Les techno-optimistes Ils travaillent pour des géants technologiques dont une grande partie de l’avenir repose sur l’intelligence artificielle o 2017, Mark Zuckerberg, fondateur de Facebook, persuadé que l’on peut « rendre le monde meilleur »,")_
Détail source à réviser : de physique au Massachusetts Institute of Technology prône la création de garde-fous contre l’émergence d’une superintelligence « hostile ». Il espère également qu’on puisse « amener les machines à apprendre nos valeurs, (Source: "de physique au Massachusetts Institute of Technology prône la création de garde-fous contre l’émergence d’une superintelligence « hostile ». Il espère également qu’on puisse « amener les machines à apprendre nos valeurs, par exemple en nous observant ». o En France, Laurent Alexandre, entrepreneur, –et chroniqueur– s’inquiète d’une future « guerre des")
Détail source à réviser : Il a également fondé Singularit yNET, plate-forme où il propose de rassembler les logiciels d’IA exécutant des tâches simples, afin de faire émerger une « super- intelligence ». 6.3 L’IMPACT SUR LES EMPLOIS Le marché de (Source: "Il a également fondé Singularit yNET, plate-forme où il propose de rassembler les logiciels d’IA exécutant des tâches simples, afin de faire émerger une « super- intelligence ». 6.3 L’IMPACT SUR LES EMPLOIS Le marché de l’IA est actuellement en train de se structurer dans l’entreprise qui de plus en plus intègre cette innovation dans ses process, ses")
Détail source à réviser : de procédés décisionnels automatisés permettent un traitement inédit des données de masse, données brutes, hétérogènes, dynamiques, L’immense majorité des traces produites par les individus, directement (que ce soit un « (Source: "de procédés décisionnels automatisés permettent un traitement inédit des données de masse, données brutes, hétérogènes, dynamiques, L’immense majorité des traces produites par les individus, directement (que ce soit un « clic » sur un lien internet, un « like » sur un réseau social) ou indirectement (sous forme de métadonnées) ne constituent pas,")
Détail source à réviser : : ce qui représente 15000 DPO contre 5000 CIL (correspondants informatique et libertés) avant le RGPD ; o Notifications de violations de données ont été reçues par la CNIL ; o 6.000 plaintes ont été reçues par la CNIL ; (Source: ": ce qui représente 15000 DPO contre 5000 CIL (correspondants informatique et libertés) avant le RGPD ; o Notifications de violations de données ont été reçues par la CNIL ; o 6.000 plaintes ont été reçues par la CNIL ; o 130.000 téléchargements de l’outil PIA ont eu lieu pour réaliser une analyse d’impact sur la protection des données Les nouvelles")
Détail source à réviser : 2022 M1 – DROIT NISRINE CHDAK TICE _ THEME 1_ BIG DATA ET IA - Cours N (Source: "2022 M1 – DROIT NISRINE CHDAK TICE _ THEME 1 BIG DATA ET IA - Cours N")_
Détail source à réviser : métiers et la raison d’être de nouveaux marchés, En créant de la valeur, la donnée est le « nouveau pétrole de l’économie » Tendance généralisée = la data driven economy (l’économie guidée par les données), PARTIE 1. DON (Source: "métiers et la raison d’être de nouveaux marchés, En créant de la valeur, la donnée est le « nouveau pétrole de l’économie » Tendance généralisée = la data driven economy (l’économie guidée par les données), PARTIE 1. DONNEES ET BIG DATA 1.1. LA NOTION DE DONNEE Donnée = «data» Descr")
Détail source à réviser : 2016, la BNF conservait 29 milliards de fichiers, pour un volume de 668 Téraoctets d’archives web avec un accroissement de 120 Téraoctets chaque année (Source: "2016, la BNF conservait 29 milliards de fichiers, pour un volume de 668 Téraoctets d’archives web avec un accroissement de 120 Téraoctets chaque année")
Détail source à réviser : 2025… Problème : déceler les opportunités de marché et mettre en place les stratégies adéquates Exemples : Pour un céréalier, l'analyse de sentiments sur les réseaux sociaux ne présente pas d'intérêt par contre la géoloc (Source: "2025… Problème : déceler les opportunités de marché et mettre en place les stratégies adéquates Exemples : Pour un céréalier, l'analyse de sentiments sur les réseaux sociaux ne présente pas d'intérêt par contre la géolocalisation de son outil industriel dans les champs prend en compte sa chaîne de valeu")
Détail source à réviser : 20 dec 2018 : Facebook collecte des données à partir d’applications comme Tinder, Grindr ou Pregnancy+ (Source: "20 dec 2018 : Facebook collecte des données à partir d’applications comme Tinder, Grindr ou Pregnancy+")
Détail source à réviser : 2008, plus d’objets connectés que d’êtres humains Prévision : plus de 20 milliards en 2020 (Source: "2008, plus d’objets connectés que d’êtres humains Prévision : plus de 20 milliards en 2020")
Détail source à réviser : is plus que la 4G), une latence radio abaissée à 1 milliseconde et une grande résilience, « indispensable pour des communications critiques entre machines, une capacité à connecter 10 à 100 fois plus d’objets par km2 ». (Source: "is plus que la 4G), une latence radio abaissée à 1 milliseconde et une grande résilience, « indispensable pour des communications critiques entre machines, une capacité à connecter 10 à 100 fois plus d’objets par km2 ». o Élargissement de la couverture des objets connectés ; les opérateurs veulent aller dans l’espace. = lancer des nanosatellites (moins de...")
Détail source à réviser : 3. LES CAS D’USAGE DU BIG DATA Utilisations très variées et tous les secteurs économiques, 3 démarches : • Description : quelles relations existent dans les données (recherche de corrélation) (Source: "3. LES CAS D’USAGE DU BIG DATA Utilisations très variées et tous les secteurs économiques, 3 démarches : • Description : quelles relations existent dans les données (recherche de corrélation)")
Détail source à réviser : Le mouvement « En Marche » d’Emmanuel Macron a fait le choix du logiciel 50+1 • Contenu : o Pour plus de 60 000 quartiers, l’ensemble de tous les résultats électoraux passés ainsi que l’abstention depuis 2007 (Source: "Le mouvement « En Marche » d’Emmanuel Macron a fait le choix du logiciel 50+1 • Contenu : o Pour plus de 60 000 quartiers, l’ensemble de tous les résultats électoraux passés ainsi que l’abstention depuis 2007")
Détail source à réviser : 4. LES TECHNOLOGIES SUPPORTS DE L’ANALYSE DU BIG DATA TICE _ THEME 1_ BIG DATA ET IA - Cours N (Source: "4. LES TECHNOLOGIES SUPPORTS DE L’ANALYSE DU BIG DATA TICE _ THEME 1 BIG DATA ET IA - Cours N")_
Détail source à réviser : Il suffit ensuite d'interroger le Datalake pour y rechercher les informations les plus pertinentes Quels sont les atouts d'un Data Lake ? • Le coût plus faible : • Plus grande flexibilité. le fait de pouvoir charger les (Source: "Il suffit ensuite d'interroger le Datalake pour y rechercher les informations les plus pertinentes Quels sont les atouts d'un Data Lake ? • Le coût plus faible : • Plus grande flexibilité. le fait de pouvoir charger les données sur une plateforme dans un état quasiment brut, et d")
Détail source à réviser : 2. Exécutée dans un cluster (=grappe de serveurs au moins 2, appelés aussi nœuds) 3 (Source: "2. Exécutée dans un cluster (=grappe de serveurs au moins 2, appelés aussi nœuds) 3")
Détail source à réviser : 2018 : La puce La puce neuromorphique d’Intel la puce Loihi capable de “reproduire un certain nombre de fonctions du cerveau et d’apprendre à partir des retours transmis par son environnement” (Source: "2018 : La puce La puce neuromorphique d’Intel la puce Loihi capable de “reproduire un certain nombre de fonctions du cerveau et d’apprendre à partir des retours transmis par son environnement”")
Détail source à réviser : 5. DATAMINING ET INTELLIGENCE ARTIFICIELLE Très grosse rupture = la combinaison Big data / IA (Source: "5. DATAMINING ET INTELLIGENCE ARTIFICIELLE Très grosse rupture = la combinaison Big data / IA")
Détail source à réviser : 1950, deux approches ont été employées : Dans la première approche, années 1980 programmation de règles et résolution de problèmes à travers une série d’étapes avec le développement des systèmes experts, programmes (inté (Source: "1950, deux approches ont été employées : Dans la première approche, années 1980 programmation de règles et résolution de problèmes à travers une série d’étapes avec le développement des systèmes experts, programmes (intégrer une base de connaissance et un moteur de décision) venant de spécialistes de do")
Détail source à réviser : 2. Deuxième grand principe : pour la machine, une image n’est qu’une somme de 0 et de 1 (Source: "2. Deuxième grand principe : pour la machine, une image n’est qu’une somme de 0 et de 1")
Détail source à réviser : Méthode : Diviser un groupe hétérogène de données, en sous-groupes de manière que les données considérées comme les plus similaires soient associées au sein d'un groupe homogène et qu'au TICE _ THEME 1_ BIG DATA ET IA - (Source: "Méthode : Diviser un groupe hétérogène de données, en sous-groupes de manière que les données considérées comme les plus similaires soient associées au sein d'un groupe homogène et qu'au TICE _ THEME 1 BIG DATA ET IA - Cours N")_
Détail source à réviser : puissance de traitement pour former et exploiter un réseau de neurones. + un problème de « explicabilité » – il peut être difficile, voire impossible dans certains cas, de savoir comment un réseau neuronal développe ses (Source: "puissance de traitement pour former et exploiter un réseau de neurones. + un problème de « explicabilité » – il peut être difficile, voire impossible dans certains cas, de savoir comment un réseau neuronal développe ses prédictions 5.4. EXEMPLES D’UTILISATION DU MAC")
Détail source à réviser : 2015, DeepDream de Google = programme de transformation de l’image par des neurones artificiels Au lieu de se contenter d’essayer de reconnaître ce qui se trouve dans l’image ils ont demandé au système d’accentuer dans l (Source: "2015, DeepDream de Google = programme de transformation de l’image par des neurones artificiels Au lieu de se contenter d’essayer de reconnaître ce qui se trouve dans l’image ils ont demandé au système d’accentuer dans l’image les formes qu’il croit reconnaître")
Détail source à réviser : 2006 Le robot Watson peut analyser toutes les informations concernant les patients, telles que les informations recueillies par les formulaires à remplir au moment de l'admission dans un hôpital (Source: "2006 Le robot Watson peut analyser toutes les informations concernant les patients, telles que les informations recueillies par les formulaires à remplir au moment de l'admission dans un hôpital")
Détail source à réviser : 2016 Dec 2018 Google DeepMind, tente de démêler un des plus grands mystères de la science : le repliement des protéines (Source: "2016 Dec 2018 Google DeepMind, tente de démêler un des plus grands mystères de la science : le repliement des protéines")
Détail source à réviser : 2017 Stephen Hawking -mort en mars 2018) (Source: "2017 Stephen Hawking -mort en mars 2018)")
Détail source à réviser : 2045 », écrivait-il dans The Singularityis Near (Humanité 2 (Source: "2045 », écrivait-il dans The Singularityis Near (Humanité 2")
Détail source à réviser : 25 mai 2018 Le RGPD a pour objectif d’optimiser la protection des données personnelles des européens sur Internet (Source: "25 mai 2018 Le RGPD a pour objectif d’optimiser la protection des données personnelles des européens sur Internet")
Détail source à réviser : 2017/06/28/google-brain-peut-present-completer-automatiquement-un-de- vos-croquis/ Exemple 5 - Google DeepMind s’adapte au go, mais aussi aux échecs ou au shogi (Source: "2017/06/28/google-brain-peut-present-completer-automatiquement-un-de- vos-croquis/ Exemple 5 - Google DeepMind s’adapte au go, mais aussi aux échecs ou au shogi")
Détail source à réviser : Ils en dénoncent les dangers, o Serons-nous aidés par l’intelligence artificielle, mis de côté,ou encore détruits par elle ? »,se demandait en novembre 2017 Stephen Hawking -mort en mars 2018). L’astrophysicien américain (Source: "Ils en dénoncent les dangers, o Serons-nous aidés par l’intelligence artificielle, mis de côté,ou encore détruits par elle ? »,se demandait en novembre 2017 Stephen Hawking -mort en mars 2018). L’astrophysicien américain il est favorable à l’élaboration de régulations, notamment")
Détail source à réviser : 2017, Mark Zuckerberg, fondateur de Facebook, persuadé que l’on peut « rendre le monde meilleur », notamment en réduisant le nombre d’accidents de la route grâce à la voiture autonome o Partisans d’une régulation légère, (Source: "2017, Mark Zuckerberg, fondateur de Facebook, persuadé que l’on peut « rendre le monde meilleur », notamment en réduisant le nombre d’accidents de la route grâce à la voiture autonome o Partisans d’une régulation légère, ils prônent tout de même la mise en place de garde-fous")
Détail source à réviser : 2. Identifier les activités frauduleuses : Les fake followers, les faux engagements et les faux intérêts Source : Socialbakers file:///C:/Users/icape/Downloads/most-important-social-media-trends-to-remember-in-2019- 1542 (Source: "2. Identifier les activités frauduleuses : Les fake followers, les faux engagements et les faux intérêts Source : Socialbakers file:///C:/Users/icape/Downloads/most-important-social-media-trends-to-remember-in-2019- 1542796680997")
Détail source à réviser : 3. Point crucial : Protection des données personnelles : TICE _ THEME 1_ BIG DATA ET IA - Cours N (Source: "3. Point crucial : Protection des données personnelles : TICE _ THEME 1 BIG DATA ET IA - Cours N")_
Détail source à réviser : 2. Les processeurs graphiques (GPU : Graphic Processing Unit), sont capables de faire tourner des calculs sophistiqués en des durées de plus en plus courtes (Source: "2. Les processeurs graphiques (GPU : Graphic Processing Unit), sont capables de faire tourner des calculs sophistiqués en des durées de plus en plus courtes")
Détail source à réviser : 3. ASIC (Application-Specific Integrated Circuit) est le nom générique pour un type de puces conçu sur mesure pour un usage bien précis (Source: "3. ASIC (Application-Specific Integrated Circuit) est le nom générique pour un type de puces conçu sur mesure pour un usage bien précis")
Détail source à réviser : 2017, « Weapons of math destruction » Elle y raconte « comment le big data augmente les inégalités et menace la démocratie » (Source: "2017, « Weapons of math destruction » Elle y raconte « comment le big data augmente les inégalités et menace la démocratie »")
Détail source à réviser : »,se demandait en novembre 2017 Stephen Hawking -mort en mars 2018) (Source: "»,se demandait en novembre 2017 Stephen Hawking -mort en mars 2018)")
Détail source à réviser : 2030 n’existent pas encore aujourd’hui Rapport Dell et « L’Institut pour le Futur ») et la nécessité d’anticiper les ressources et les compétences (Source: "2030 n’existent pas encore aujourd’hui Rapport Dell et « L’Institut pour le Futur ») et la nécessité d’anticiper les ressources et les compétences")
Détail source à réviser : 1. Analyser de façon nuancée la sémantique utilisée sur les réseaux sociaux : Recherche de ce qui est explicite et implicite pour interprétation création de Dictionnaires d’analyse de contenu avec , Fréquence des mots cl (Source: "1. Analyser de façon nuancée la sémantique utilisée sur les réseaux sociaux : Recherche de ce qui est explicite et implicite pour interprétation création de Dictionnaires d’analyse de contenu avec , Fréquence des mots clés et des expressions, distribution spatiale de sujets, mots clés et hashtag Problème spécifique autour de la subjectivité : ✓ Capter l’i...")
Détail source à réviser : 2019- 1542796680997 (Source: "2019- 1542796680997")
Détail source à réviser : 2.3 L’INTERNET DES OBJETS (IOT) Depuis 2008, plus d’objets connectés que d’êtres humains Prévision : plus de 20 milliards en 2020 (Source: "2.3 L’INTERNET DES OBJETS (IOT) Depuis 2008, plus d’objets connectés que d’êtres humains Prévision : plus de 20 milliards en 2020")
Détail source à réviser : rosoft). Facebook : base de données NOSQL https://cassandra.apache.org/ Elle est orientée « graphe » conçue pour gérer des relations entre individus et faciliter la navigation dans ses relations. Elle permet de chercher (Source: "rosoft). Facebook : base de données NOSQL https://cassandra.apache.org/ Elle est orientée « graphe » conçue pour gérer des relations entre individus et faciliter la navigation dans ses relations. Elle permet de chercher les individus connectés à d’autres indiv")
Détail source à réviser : ». o En France, Laurent Alexandre, entrepreneur, –et chroniqueur– s’inquiète d’une future « guerre des intelligences », titre de son récent livre (JC Lattès, 2017), et prône de « rendre nos enfants complémentaires de l’i (Source: "». o En France, Laurent Alexandre, entrepreneur, –et chroniqueur– s’inquiète d’une future « guerre des intelligences », titre de son récent livre (JC Lattès, 2017), et prône de « rendre nos enfants complémentaires de l’intelligence artificielle « qui « ne concernera malheureuse")
Détail source à réviser : », = le moment où l’intelligence des machines deviendrait supérieure à celle des hommes. « Je fixe la date de la singularité – qui représente une transformation profonde et disruptive dans les capacités humaines – à 2045 (Source: "», = le moment où l’intelligence des machines deviendrait supérieure à celle des hommes. « Je fixe la date de la singularité – qui représente une transformation profonde et disruptive dans les capacités humaines – à 2045 », écrivait-il dans The Singularityis Near (Humanité 2.0, Adepte des prédictions et désormais employé chez Google, Ray Kurzweil voit dan...")
Détail source à réviser : Prédiction : qu’est-ce qui est le plus susceptible de se produire ? • Simulation : que pourrait-il arriver dans telle ou telle hypothèse ? 3.1 - UTILISATION DU BIG DATA PAR LES ENTREPRISES BIG DATA ET MARKETING L’usage d (Source: "Prédiction : qu’est-ce qui est le plus susceptible de se produire ? • Simulation : que pourrait-il arriver dans telle ou telle hypothèse ? 3.1 - UTILISATION DU BIG DATA PAR LES ENTREPRISES BIG DATA ET MARKETING L’usage du terme « data marketing » est né en 2000. Le data marketing")
Détail source à réviser : Simulation : que pourrait-il arriver dans telle ou telle hypothèse ? 3.1 - UTILISATION DU BIG DATA PAR LES ENTREPRISES BIG DATA ET MARKETING L’usage du terme « data marketing » est né en 2000. Le data marketing permet de (Source: "Simulation : que pourrait-il arriver dans telle ou telle hypothèse ? 3.1 - UTILISATION DU BIG DATA PAR LES ENTREPRISES BIG DATA ET MARKETING L’usage du terme « data marketing » est né en 2000. Le data marketing permet de croiser des données sociales, commerciales et météorologiqu")
Détail source à réviser : 2012 dans un concours de reconnaissance d’images et a écrasé tous les adversaires ayant obtenu des scores largement inférieurs jusqu’à ce que, dès 2013, tous les concurrents adoptent cette technologie (concours ImageNEt (Source: "2012 dans un concours de reconnaissance d’images et a écrasé tous les adversaires ayant obtenu des scores largement inférieurs jusqu’à ce que, dès 2013, tous les concurrents adoptent cette technologie (concours ImageNEt )")
Détail source à réviser : 2017), et prône de « rendre nos enfants complémentaires de l’intelligence artificielle « qui « ne concernera malheureusement que les cerveaux innovants dotés d’un haut quotient intellectuel » Les apôtres de la « superint (Source: "2017), et prône de « rendre nos enfants complémentaires de l’intelligence artificielle « qui « ne concernera malheureusement que les cerveaux innovants dotés d’un haut quotient intellectuel » Les apôtres de la « superintelligence » Ils croient à la thèse selon laquelle l’IA va surpasser l’intelligence h")
Détail source à réviser : La question des acteurs : lesquels sont les mieux placés pour jouer un rôle d’éducation, de sensibilisation voire de régulation ? les concepteurs et fournisseurs d’outils (les informaticiens), les catégories d’utilisateu (Source: "La question des acteurs : lesquels sont les mieux placés pour jouer un rôle d’éducation, de sensibilisation voire de régulation ? les concepteurs et fournisseurs d’outils (les informaticiens), les catégories d’utilisateurs (gestionnaires, responsables d’entreprises, décideurs pol")
Détail source à réviser : 1956 par John McCarthy l’Université de Dartmouth, La technologie de l'intelligence artificielle (IA) vise à créer ou simuler, chez les robots ou les logiciels, une intelligence comparable à l'homme (Source: "1956 par John McCarthy l’Université de Dartmouth, La technologie de l'intelligence artificielle (IA) vise à créer ou simuler, chez les robots ou les logiciels, une intelligence comparable à l'homme")
Détail source à réviser : 1959, le machine learning est le « champ d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés à apprendre » (Source: "1959, le machine learning est le « champ d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés à apprendre »")
Détail source à réviser : aux n'ont pas été conçus pour être particulièrement performants en matière de déchiffrage https://siecledigital.fr/2017/06/28/google-brain-peut-present-completer-automatiquement-un-de- vos-croquis/ Exemple 5 - Google Dee (Source: "aux n'ont pas été conçus pour être particulièrement performants en matière de déchiffrage https://siecledigital.fr/2017/06/28/google-brain-peut-present-completer-automatiquement-un-de- vos-croquis/ Exemple 5 - Google DeepMind s’adapte au go, mais aussi aux échecs ou au shogi. AlphaGo a été initialement")
Détail source à réviser : 6. LES QUESTIONS POSEES PAR LE BIG DATA ET L’IA 6 (Source: "6. LES QUESTIONS POSEES PAR LE BIG DATA ET L’IA 6")
Détail source à réviser : « Je fixe la date de la singularité – qui représente une transformation profonde et disruptive dans les capacités humaines – à 2045 », écrivait-il dans The Singularityis Near (Humanité 2 (Source: "« Je fixe la date de la singularité – qui représente une transformation profonde et disruptive dans les capacités humaines – à 2045 », écrivait-il dans The Singularityis Near (Humanité 2")
Détail source à réviser : C’est en tout cas ce qu’affirmait Facebook… ✓ 20 dec 2018 : Facebook collecte des données à partir d’applications comme Tinder, Grindr ou Pregnancy+ (Source: "C’est en tout cas ce qu’affirmait Facebook… ✓ 20 dec 2018 : Facebook collecte des données à partir d’applications comme Tinder, Grindr ou Pregnancy+")
Détail source à réviser : 3.1 - UTILISATION DU BIG DATA PAR LES ENTREPRISES BIG DATA ET MARKETING L’usage du terme « data marketing » est né en 2000. Le data marketing permet de croiser des données sociales, commerciales et météorologiques pour f (Source: "3.1 - UTILISATION DU BIG DATA PAR LES ENTREPRISES BIG DATA ET MARKETING L’usage du terme « data marketing » est né en 2000. Le data marketing permet de croiser des données sociales, commerciales et météorologiques pour fournir une image plus ciblée d’un consommateur.")

Repères chronologiques

Date	Événement
1970	Naissance de l'informatique
1990	Début de l'ère du Big Data
2012	Popularisation du Big Data
1950	Origines de l'intelligence artificielle
1980	Développement des bases NoSQL
2022	Projections pour l'IA et Big Data en 2025

Tableaux de Synthèse

Comparatif des Technologies de Stockage de Données

Type de stockage	Caractéristiques principales	Utilisation typique
Datawarehouse	Stockage structuré, centralisé, pour analyse	Rapide pour requêtes analytiques
Datamart	Sous-ensemble du Datawarehouse, spécifique à un domaine	Optimisé pour un groupe d'utilisateurs
Datalake	Stockage brut, structuré ou non	Flexibilité dans le traitement des données
Bases NoSQL	Non relationnelles, dans clusters, données massives	Adaptées aux données variées et non structurées

Pièges & Confusions Fréquentes

Confusion entre données structurées et non structurées.
Mauvaise compréhension des différences entre Datawarehouse, Datamart et Datalake.
Sous-estimer l'importance des métadonnées pour l'exploitation des données.
Confondre machine learning supervisé et non supervisé.
Ignorer les enjeux éthiques liés à la neutralité algorithmique.
Croire que le Big Data élimine totalement les biais.
Confusion entre IA symbolique et apprentissage automatique.

Checklist Examen

Comprendre la définition de donnée numérique.
Savoir différencier Datawarehouse, Datamart, Datalake.
Maîtriser les concepts de machine learning supervisé, non supervisé et par renforcement.
Connaître les enjeux éthiques du Big Data et de l'IA.
Identifier les sources de Big Data : web visible, deep web, social data, IoT.
Comprendre les technologies de traitement : CPU, GPU, ASIC, neuromorphiques.
Différencier traitements batch et en temps réel.
Savoir ce qu'est le datamining et ses applications.
Connaître les réseaux de neurones et leurs avantages.
Se familiariser avec les enjeux sociaux et éthiques.

📋 Plan du Cours

📖 1. Notion de donnée numérique et traitement automatisé

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Définition et caractéristiques des Big Data

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 3. Sources d’alimentation du Big Data : web visible, deep web, social data et Internet des objets

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Exécutée dans un cluster (=grappe de serveurs au moins 2, appelés aussi nœuds

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Technologies de stockage et interrogation des données : Datawarehouse, Datamart, Datalake et bases NoSQL

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Cloud computing et infrastructures pour le traitement du Big Data

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Accélération des puissances de traitement : CPU, GPU, ASIC et puces neuromorphiques

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Méthodes de traitement des données Big Data : traitements batch et en temps réel

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 9. Datamining et intelligence artificielle : concepts généraux et démarche

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 10. Machine learning : apprentissage supervisé, non supervisé et par renforcement

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 11. Deep learning et réseaux de neurones artificiels : fonctionnement et avantages

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 12. Questions éthiques et sociales posées par le Big Data et l’IA : neutralité algorithmique, impact sur l’emploi et données personnelles

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

🧩 Compléments de couverture

📅 Repères chronologiques

📊 Tableaux de Synthèse

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Test your knowledge

Review with flashcards

Similar courses

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Create your own revision sheets

Plan du Cours

1. Notion de donnée numérique et traitement automatisé

Notions clés & Définitions

Points essentiels

À retenir

2. Définition et caractéristiques des Big Data

Notions clés & Définitions

Points essentiels

À retenir

3. Sources d’alimentation du Big Data : web visible, deep web, social data et Internet des objets

Notions clés & Définitions

Points essentiels

À retenir

4. Exécutée dans un cluster (=grappe de serveurs au moins 2, appelés aussi nœuds

Notions clés & Définitions

Points essentiels

À retenir

5. Technologies de stockage et interrogation des données : Datawarehouse, Datamart, Datalake et bases NoSQL

Notions clés & Définitions

Points essentiels

À retenir

6. Cloud computing et infrastructures pour le traitement du Big Data

Notions clés & Définitions

Points essentiels

À retenir

7. Accélération des puissances de traitement : CPU, GPU, ASIC et puces neuromorphiques

Notions clés & Définitions

Points essentiels

À retenir

8. Méthodes de traitement des données Big Data : traitements batch et en temps réel

Notions clés & Définitions

Points essentiels

À retenir

9. Datamining et intelligence artificielle : concepts généraux et démarche

Notions clés & Définitions

Points essentiels

À retenir

10. Machine learning : apprentissage supervisé, non supervisé et par renforcement

Notions clés & Définitions

Points essentiels

À retenir

11. Deep learning et réseaux de neurones artificiels : fonctionnement et avantages

Notions clés & Définitions

Points essentiels

À retenir

12. Questions éthiques et sociales posées par le Big Data et l’IA : neutralité algorithmique, impact sur l’emploi et données personnelles

Notions clés & Définitions

Points essentiels

À retenir

Repères chronologiques

Tableaux de Synthèse

Pièges & Confusions Fréquentes

Checklist Examen