Revision Sheet: Introduction aux outils et fonctionnement du web

Plan du Cours

Outils de recherche en ligne
Fonctionnement des sites web
Moteurs de recherche et indexation
Fonctionnement des moteurs
Protection des données personnelles
Sécurité informatique
Organisation des fichiers
Supports de stockage
Formats et compression

1. Outils de recherche en ligne

Notions clés & Définitions

Moteur de recherche
AUTEUR (date) : outil en ligne qui interroge un ou plusieurs moteurs pour fournir des résultats en réponse à une requête. Il ne filtre pas nécessairement les résultats et peut présenter beaucoup de bruit.

Catalogue
AUTEUR (date) : site web proposant des notices dans un fonds documentaire. Contrairement aux moteurs, il filtre et organise l’information pour proposer des résultats précis.

Annuaire
AUTEUR (date) : outil classant manuellement des sites web par thématique, permettant de naviguer dans des sous-thématiques. La classification est effectuée par des humains, ce qui n’est pas économiquement viable à grande échelle.

Base de données
AUTEUR (date) : site web qui rassemble des informations spécialisées, accessibles via une recherche thématique ou autre. Chaque contenu est généralement écrit par un expert selon un cahier des charges précis.

Méta moteur
AUTEUR (date) : moteur qui interroge plusieurs moteurs de recherche pour fournir des résultats non filtrés et impartiaux, sans stocker ou filtrer directement l’information.

Moteur de réponse
AUTEUR (date) : outil qui fournit directement une réponse synthétique à une requête, souvent en utilisant des résultats issus de plusieurs sources ou moteurs.

Points essentiels

80% des recherches utilisent les moteurs des géants comme Google ou Bing, qui dominent le marché.
Ces moteurs ne représentent qu’environ 10% du web mondial, le reste étant le web invisible, inaccessible à ces outils.
Les moteurs de recherche génèrent souvent beaucoup de résultats, dont une grande partie est du bruit, rendant la recherche peu pertinente.
Les catalogues proposent des notices dans un fonds documentaire, ce qui permet une recherche filtrée et organisée, contrairement aux moteurs qui peuvent produire beaucoup de résultats non filtrés.
Les annuaires classent manuellement les sites par thématique, ce qui limite leur usage à une navigation thématique, mais cette méthode n’est pas viable économiquement à grande échelle.
Les méta moteurs interrogent plusieurs moteurs simultanément pour fournir des résultats plus exhaustifs, non filtrés et impartiaux.

À retenir

Les outils de recherche en ligne sont variés : les moteurs dominent mais produisent souvent du bruit, tandis que les catalogues et annuaires offrent une organisation plus précise, mais avec des limites économiques. La compréhension de leur fonctionnement permet de mieux cibler ses recherches.

2. Fonctionnement des sites web

Notions clés & Définitions

Page web statique : Une page web dont le contenu ne change pas en fonction de l’utilisateur ou du contexte. Elle affiche toujours la même information.
Page web dynamique : Une page web dont le contenu peut varier selon l’utilisateur ou d’autres paramètres, permettant une personnalisation.
Code source HTML : Le fichier écrit en HTML qui constitue la structure d’une page web. Il est visible par le navigateur et détermine la présentation du contenu.
Balises HTML : Des éléments encadrés par des chevrons (< >) qui structurent le contenu d’une page web. Elles fonctionnent souvent par paire, par exemple <head> et </head>.
Attributs HTML : Des propriétés ajoutées aux balises HTML pour préciser leur comportement ou leur apparence, comme id, class, src, etc.
Serveur web : Une machine dédiée qui héberge les fichiers d’un site web. Elle possède une architecture redondante pour assurer une disponibilité constante du site.

Points essentiels

Une page web est constituée d’un code source HTML visible par le navigateur, qui en détermine la structure et le contenu. Les balises HTML fonctionnent par paire pour organiser la page, par exemple <head> pour l’en-tête et <body> pour le corps.
Les sites statiques affichent la même information à tous les visiteurs, tandis que les sites dynamiques adaptent leur contenu selon l’internaute, grâce à des scripts ou bases de données.
Le serveur web, machine dédiée avec architecture redondante, assure la disponibilité continue du site en hébergeant ses fichiers.
Les fichiers d’un site se divisent en deux familles : le squelette (code source HTML, CSS, scripts) et les ressources (images, PDF, vidéos, etc.).

À retenir

Les sites web reposent sur un code HTML structuré par des balises, hébergé sur un serveur web redondant, permettant une différenciation entre sites statiques et dynamiques selon leur capacité à personnaliser le contenu.

3. Moteurs de recherche et indexation

Notions clés & Définitions

Crawling
Le crawling est l'exploration automatique des pages web par des robots. Ces robots, appelés aussi spiders ou crawlers, parcourent les sites pour découvrir de nouvelles pages ou mettre à jour celles existantes.

Indexing
L'indexing consiste à analyser et stocker les mots clés et URL des pages visitées lors du crawling. Cela permet au moteur de recherche de référencer efficacement le contenu pour une recherche ultérieure.

Ranking
Le ranking classe les résultats selon un algorithme qui prend en compte la popularité des pages et le profil de l’utilisateur. Il détermine l’ordre d’affichage des pages en réponse à une requête.

Cache du moteur de recherche
Le cache conserve une copie des pages indexées, accessible même après modification ou suppression de la page d’origine. Il permet d’afficher une version sauvegardée en cas de besoin.

Balises méta
Les balises méta sont des éléments insérés dans le code HTML des pages web, permettant de fournir des informations sur le contenu (ex : mots-clés, description). Elles aident à l’indexation mais ne garantissent pas la pertinence du classement.

Points essentiels

Le crawling est l’étape initiale où un robot explore automatiquement les pages web. Cependant, moins de 10% des pages sont accessibles aux moteurs classiques, notamment celles dynamiques ou protégées. Lors du crawling, le robot suit des liens pour découvrir de nouvelles pages et analyser leur contenu.

L’indexing consiste à analyser ces pages pour en extraire les mots clés et enregistrer leur URL dans une base de données. Cela permet au moteur de recherche de répondre rapidement aux requêtes en utilisant cet index.

Le ranking classe les résultats selon un algorithme qui privilégie la popularité et le profil utilisateur. La pertinence est améliorée par des opérateurs logiques (AND, OU, exclusion) et des requêtes précises (ex : mise entre guillemets, utilisation de filetype:pdf).

Le cache du moteur conserve une copie des pages indexées, ce qui garantit leur accessibilité même après modification ou suppression. La fiabilité d’un résultat dépend aussi de l’adresse URL, qui indique la crédibilité du site.

Les balises méta, insérées dans le code HTML, fournissent des informations sur le contenu de la page, mais leur influence sur le classement est limitée.

À retenir

Le processus complet d’un moteur de recherche inclut le crawling pour explorer, l’indexation pour analyser et stocker, puis le ranking pour classer les résultats selon leur pertinence, leur popularité et le profil de l’utilisateur. La conservation d’une copie via le cache assure une disponibilité même après modification ou suppression.

4. Fonctionnement des moteurs

Notions clés & Définitions

Algorithme de pertinence

AUTEUR : voir section 1

Profilage de l'internaute
AUTEUR (date) : processus de collecte de données personnelles de l'utilisateur pour personnaliser les résultats de recherche et les publicités, en adaptant le contenu aux préférences et comportements de l'internaute.

Robot serveur
AUTEUR (date) : programme automatisé parcourant les liens hypertextes présents sur le web pour découvrir, indexer et mettre à jour les pages web dans la base de données du moteur de recherche.

Opérateurs logiques de recherche
AUTEUR (date) : symboles ou mots-clés (AND, OR, -) utilisés pour affiner et préciser une requête en combinant ou excluant certains termes, afin d’obtenir des résultats plus ciblés.

Web scraping
AUTEUR (date) : technique d’extraction automatique du contenu d’une page web pour réutilisation ou analyse dans d’autres contextes, souvent à l’aide de programmes ou scripts.

Points essentiels

Les algorithmes de recherche évaluent la popularité et la pertinence des sites pour classer les résultats. Ils analysent notamment la fréquence, la position et la qualité des liens pointant vers une page, ainsi que d’autres critères pour déterminer leur importance relative.

Le profilage de l'internaute consiste à collecter des données personnelles, telles que l’historique de navigation ou les préférences, afin de personnaliser les résultats et les publicités affichés, rendant la recherche plus adaptée à chaque utilisateur.

Les robots serveurs parcourent systématiquement les liens hypertextes présents sur le web pour découvrir de nouvelles pages ou mettre à jour celles déjà indexées. Ce processus permet de maintenir une base de données actualisée et complète.

Les opérateurs logiques (AND, OR, -) permettent d’affiner une recherche :

AND (impliqué par un espace ou explicitement) pour combiner des termes,
OR pour élargir la recherche en incluant plusieurs termes,
- pour exclure certains mots.

Le web scraping consiste à automatiser l’extraction du contenu d’une page web, facilitant la réutilisation de données pour diverses applications, comme l’analyse ou la veille d’information.

À retenir

Les moteurs exploitent des algorithmes de pertinence et de profilage pour fournir des résultats personnalisés et hiérarchisés, tandis que les robots serveurs et le web scraping leur permettent de maintenir une base de données riche et à jour, optimisant ainsi la qualité et la pertinence des réponses.

5. Protection des données personnelles

Notions clés & Définitions

Profilage

AUTEUR : voir section 1

Données personnelles
AUTEUR (date) : toute information se rapportant à une personne physique identifiée ou identifiable, comme le nom, l’adresse, ou l’historique de navigation.

Consentement
AUTEUR (date) : accord explicite donné par une personne pour que ses données personnelles soient traitées, dans le respect des conditions légales.

Anonymisation
AUTEUR (date) : procédé visant à rendre une donnée personnelle non identifiable, afin de protéger la vie privée tout en permettant une utilisation statistique ou analytique.

Licences Creative Commons
AUTEUR (date) : licences permettant l’utilisation libre de contenus (photos, textes, etc.) sous conditions précises, facilitant le partage tout en respectant les droits de l’auteur.

Points essentiels

Les moteurs de recherche collectent et revendent les données personnelles des utilisateurs, ce qui soulève des enjeux majeurs de vie privée. Certains moteurs promettent des recherches sans profilage, mais peuvent être rachetés par des géants du secteur, compromettant ainsi cette promesse. La consultation de l’historique des modifications sur Wikipédia peut révéler des contributeurs anonymes ou identifiés par leur adresse IP, illustrant la difficulté de garantir l’anonymat en ligne. La protection des données personnelles exige souvent le consentement explicite de l’utilisateur, notamment dans des contextes sensibles ou réglementés. Les licences Creative Commons permettent une utilisation libre de contenus, comme les photos de Wikipédia, tout en précisant les modalités de partage et de modification. La collecte et le traitement des données personnelles en ligne doivent respecter ces mécanismes pour préserver la vie privée et garantir un usage éthique des informations.

À retenir

La collecte massive de données personnelles par les moteurs de recherche pose des enjeux cruciaux de vie privée, renforcés par la nécessité d’un consentement explicite et par l’utilisation de licences permettant un partage contrôlé des contenus.

6. Sécurité informatique

Notions clés & Définitions

HTTPS : Le protocole HTTPS assure une communication sécurisée entre le navigateur et le serveur en chiffrant les données échangées, protégeant ainsi la confidentialité et l’intégrité des informations transmises.

Nom de domaine : Identifiant alphanumérique d’un site web, permettant de le localiser facilement sur Internet. Il peut inclure des sous-domaines pour organiser différentes sections du site.

Adresse IP : Numéro unique attribué à chaque appareil connecté à un réseau informatique, permettant son identification et sa localisation sur Internet ou un réseau local.

DNS (Domain Name System) : Système de traduction qui convertit les noms de domaine en adresses IP numériques, facilitant l’accès aux sites web. Il fonctionne via une hiérarchie de serveurs répartis mondialement.

Serveurs DNS : Ordinateurs spécialisés qui gèrent la traduction des noms de domaine en adresses IP. Ce sont des cibles fréquentes d’attaques informatiques en raison de leur rôle critique dans la navigation web.

Points essentiels

Le protocole HTTPS garantit une communication sécurisée entre navigateur et serveur, en chiffrant les données échangées pour prévenir leur interception ou modification.
Le nom de domaine sert à identifier un site web de manière conviviale, pouvant inclure des sous-domaines pour distinguer différentes sections ou services.
L’adresse IP est une traduction numérique comprise par les ordinateurs, permettant leur identification précise sur le réseau.
Le DNS traduit les noms de domaine en adresses IP via plusieurs serveurs répartis mondialement, assurant une résolution rapide et fiable.
Les serveurs DNS, essentiels au bon fonctionnement d’Internet, sont des cibles fréquentes d’attaques, ce qui nécessite des mesures de sécurité renforcées pour éviter leur compromission.

À retenir

Comprendre le fonctionnement du DNS, des adresses IP et du protocole HTTPS est crucial pour garantir la sécurité et l’identification fiable des sites web, en assurant une navigation sécurisée et une résolution efficace des noms de domaine.

7. Organisation des fichiers

Notions clés & Définitions

Squelette du site
Le squelette du site désigne l’organisation structurée des fichiers qui composent un site web, comprenant notamment le code source et les ressources liées.

Ressources liées
Les ressources liées regroupent tous les éléments externes ou internes nécessaires au fonctionnement ou à l’apparence du site, comme les images, fichiers PDF, feuilles de style, scripts, etc.

Chemin d’accès
Le chemin d’accès indique l’emplacement précis d’un fichier sur le serveur, généralement représenté dans l’URL. Il permet de localiser un fichier spécifique dans la hiérarchie du site.

Nom de fichier
Le nom de fichier est l’identifiant unique d’un fichier dans le système, permettant de le différencier et de le retrouver facilement.

Structure hiérarchique
La structure hiérarchique organise les fichiers du site selon une arborescence, facilitant la navigation, la maintenance et l’indexation des pages.

Points essentiels

Les fichiers d’un site web sont organisés en deux catégories principales : le code source et les ressources liées. Le code source comprend les fichiers HTML, CSS, JavaScript, etc., qui définissent la structure et le comportement du site. Les ressources liées regroupent tous les éléments externes, comme les images ou PDF, nécessaires à l’affichage ou au contenu.

Le chemin d’accès dans l’URL indique l’emplacement précis d’un fichier sur le serveur, permettant au navigateur de le charger. Une organisation claire des fichiers facilite la maintenance du site, en permettant de retrouver rapidement un fichier ou une ressource. Elle contribue également à une meilleure indexation par les moteurs de recherche, améliorant la visibilité du site.

Les liens hypertextes relient les fichiers entre eux, formant ainsi la structure du site. La structure hiérarchique, souvent représentée par une arborescence, assure une navigation claire et efficace, en permettant aux utilisateurs de se déplacer intuitivement entre les différentes pages et sections.

À retenir

Une organisation claire des fichiers, avec une hiérarchie bien définie et un chemin d’accès précis, est essentielle pour assurer la maintenance, la sécurité et la visibilité d’un site web.

8. Supports de stockage

Notions clés & Définitions

Disques durs redondants
Disques durs configurés pour assurer la disponibilité des données en cas de défaillance d’un disque. Leur but est de garantir la continuité du service et la sécurité des données stockées.

Serveur dédié
Serveur informatique réservé à un seul service ou client. Il garantit une fiabilité accrue en évitant la mutualisation des ressources avec d’autres services.

Effet miroir (RAID)
Technique de stockage où les données sont dupliquées sur deux disques ou plus. En cas de défaillance d’un disque, l’autre contient une copie exacte, évitant ainsi la perte d’informations.

Ventilation des serveurs
Processus de circulation d’air pour dissiper la chaleur générée par les serveurs. Essentiel pour maintenir la performance et la sécurité des équipements.

Bilan carbone des fermes de serveurs
Évaluation de l’impact environnemental des infrastructures informatiques, notamment en termes de consommation énergétique et d’émissions de CO₂ liées à leur fonctionnement.

Points essentiels

Les serveurs web utilisent des disques redondants pour assurer la disponibilité des données. La configuration en effet miroir (RAID) permet la répétition des informations pour éviter leur perte, garantissant ainsi la continuité du service. Les fermes de serveurs génèrent beaucoup de chaleur, nécessitant une ventilation importante pour éviter la surchauffe et préserver la fiabilité des équipements. Enfin, le bilan carbone des infrastructures informatiques constitue un enjeu environnemental majeur, car leur consommation énergétique contribue significativement aux émissions de CO₂. Un serveur dédié, quant à lui, assure un seul service, ce qui permet de garantir sa fiabilité en évitant la mutualisation des ressources.

À retenir

Les supports de stockage des données web doivent concilier contraintes techniques, notamment la redondance et la ventilation, avec des enjeux environnementaux liés au bilan carbone. La configuration en RAID et l’utilisation de serveurs dédiés renforcent la fiabilité et la disponibilité, tout en impliquant une gestion responsable de leur impact écologique.

9. Formats et compression

Notions clés & Définitions

Format open source : Format dont le code source est accessible à tous, permettant une utilisation, modification et redistribution libre.
Compression de fichiers : Technique visant à réduire la taille d’un fichier pour faciliter son stockage ou son transfert.
PDF : Format de document portable, souvent considéré comme fiable pour la recherche, car il conserve la mise en page et le contenu d’origine.
Formats bureautiques : Formats spécifiques aux logiciels de traitement de texte, tableurs ou présentations, pouvant être intégrés via liens dans des pages web.

Balises HTML : voir section 2

Points essentiels

Le code source HTML est un format open source visible par tous, ce qui permet à chacun d’accéder et de modifier le contenu. Les documents PDF sont souvent considérés comme plus fiables pour la recherche, car ils conservent la mise en page et l’intégrité du contenu original. La compression de fichiers réduit leur taille, ce qui permet un transfert plus rapide sur internet ou via d’autres réseaux. Les formats bureautiques, tels que ceux utilisés par Word ou Excel, peuvent être intégrés dans des pages web par le biais de liens, facilitant leur accès et leur partage. Les balises HTML structurent le contenu d’une page web, mais n’ont pas d’impact direct sur la compression des fichiers, qui concerne plutôt la taille des données transférées.

À retenir

Comprendre l’importance des formats et techniques de compression est essentiel pour assurer une diffusion efficace des contenus web, en garantissant à la fois accessibilité, fiabilité et rapidité de transfert.

Tableaux de Synthèse

Type d'outil	Définition	Fonction principale	Limites	Auteur
Moteur de recherche	Interroge un ou plusieurs moteurs pour fournir des résultats	Résultats en réponse à une requête	Beaucoup de bruit, résultats non filtrés	—
Catalogue	Site proposant des notices dans un fonds documentaire	Recherche filtrée et organisée	Moins exhaustif, dépend du fonds	—
Annuaire	Classification manuelle par thématiques	Navigation thématique précise	Limité à grande échelle, coûteux	—
Base de données	Informations spécialisées, souvent par experts	Recherche thématique précise	Nécessite souvent abonnement ou accès spécifique	—
Méta moteur	Interroge plusieurs moteurs simultanément	Résultats exhaustifs, non filtrés, impartiaux	Peut produire résultats redondants ou peu pertinents	—
Moteur de réponse	Fournit directement une réponse synthétique	Réponse immédiate à la requête	Limitée à certains types de questions, dépend des sources	—

Pièges & Confusions Fréquentes

Confondre moteur de recherche et catalogue : le moteur ne filtre pas l’information, contrairement au catalogue.
Croire que tous les résultats d’un moteur sont pertinents : beaucoup de bruit et résultats non filtrés.
Sous-estimer le web invisible : seul environ 10% du web est accessible via les moteurs classiques.
Confondre pages web statiques et dynamiques : ces dernières peuvent changer selon l’utilisateur ou le contexte.
Mal comprendre le rôle du crawling et de l’indexation : le crawling explore, l’indexation stocke et analyse.
Ignorer la limite des balises méta : leur influence sur le classement est limitée malgré leur importance pour l’indexation.
Confondre profilage de l’internaute et algorithme de pertinence : le profilage personnalise mais ne détermine pas seul le classement.

Checklist Examen

Connaître la définition d’un moteur de recherche selon l’auteur (outil qui interroge un ou plusieurs moteurs).
Savoir différencier un moteur, un catalogue, un annuaire, une base de données, un méta moteur et un moteur de réponse.
Comprendre le processus de crawling, d’indexation et de ranking dans le fonctionnement des moteurs.
Maîtriser la différence entre pages web statiques et dynamiques, ainsi que leur impact sur la recherche.
Expliquer le rôle du code source HTML, des balises HTML et des attributs HTML dans la construction d’une page web.
Identifier la fonction du serveur web et ses caractéristiques (architecture redondante).
Connaître la notion de web invisible et son impact sur la recherche en ligne.
Savoir comment les moteurs utilisent les balises méta pour l’indexation mais aussi leurs limites.
Comprendre le profilage de l’internaute et son influence sur la personnalisation des résultats.
Identifier les limites des outils comme les annuaires en termes d’échelle et de coût.
Connaître la différence entre outils d’organisation (catalogues, annuaires) et outils d’exploration (moteurs).

📋 Plan du Cours

📖 1. Outils de recherche en ligne

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Fonctionnement des sites web

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 3. Moteurs de recherche et indexation

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Fonctionnement des moteurs

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Protection des données personnelles

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Sécurité informatique

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Organisation des fichiers

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Supports de stockage

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 9. Formats et compression

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📊 Tableaux de Synthèse

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Test your knowledge

Review with flashcards

Similar courses

Missions de l’assistant utilisateurs

Parcours d’études numériques et commerce

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Create your own revision sheets

Plan du Cours

1. Outils de recherche en ligne

Notions clés & Définitions

Points essentiels

À retenir

2. Fonctionnement des sites web

Notions clés & Définitions

Points essentiels

À retenir

3. Moteurs de recherche et indexation

Notions clés & Définitions

Points essentiels

À retenir

4. Fonctionnement des moteurs

Notions clés & Définitions

Points essentiels

À retenir

5. Protection des données personnelles

Notions clés & Définitions

Points essentiels

À retenir

6. Sécurité informatique

Notions clés & Définitions

Points essentiels

À retenir

7. Organisation des fichiers

Notions clés & Définitions

Points essentiels

À retenir

8. Supports de stockage

Notions clés & Définitions

Points essentiels

À retenir

9. Formats et compression

Notions clés & Définitions

Points essentiels

À retenir

Tableaux de Synthèse

Pièges & Confusions Fréquentes

Checklist Examen