La Wayback Machine est la partie la plus populaire du site Internet Archive . Introduit pour la première fois en 2001, cet outil en ligne gratuit vous permet de « remonter le temps » pour voir à quoi ressemblaient les sites Web du monde entier à des moments précis. La Wayback Machine compte 562 milliards de pages Web au moment de la rédaction de cet article, et de nombreuses autres sont ajoutées chaque année.
Voici un aperçu de la Wayback Machine et de ce qui la rend spéciale.
Introduction aux archives Internet
Créé par Brewster Kahle et Bruce Gilliat, Internet Archive est une organisation à but non lucratif dont la mission déclarée est «l'accès universel à toutes les connaissances». Depuis le début, l'organisation a fourni un accès public gratuit à des documents numérisés, tels que des pages Web, des livres, des enregistrements audio, y compris des concerts en direct, des vidéos, des images et des logiciels.
À ce jour, tout ce qui est collecté par Internet Archive occupe plus de 70 pétaoctets d'espace serveur, dont deux copies de tout. L'organisation est financée par des dons, des subventions et des frais de services de numérisation de livres. Pour des raisons de confidentialité, Internet Archive ne garde aucune trace des adresses IP de ses lecteurs et utilise le protocole HTTPS (sécurisé) partout.
La machine à remonter le temps
Une seule partie des archives Internet, la Wayback Machine, a été conçue pour capturer le contenu du site Web qui a été modifié ou supprimé. Depuis son lancement, il est devenu l'un des endroits les plus populaires et les plus reconnus sur le Web. Kahle et Gilliat ont nommé le site d'après le dispositif fictif de voyage dans le temps de la série animée des années 1960, The Rocky and Bullwinkle Show.
Bien qu'Internet Archive n'ait lancé le site au public qu'en octobre 2001, la Wayback Machine a commencé à archiver les pages Web en cache à partir de mai 1996. Jusqu'en 2001, les bandes numériques stockaient des informations qui n'étaient accessibles qu'à certains scientifiques et chercheurs. Lorsque tout a été mis en ligne cinq ans plus tard (comme prévu depuis longtemps), il contenait déjà plus de 10 milliards de pages archivées.
Stockage et collectes
Aujourd'hui, le site conserve des données Web historiques sur un cluster de nœuds Linux. La Wayback Machine télécharge toutes les informations et tous les fichiers de données accessibles au public sur les pages Web via son mécanisme d'exploration. Cependant, tout ce qui est publié sur un site Web n'est pas inclus ici, car certains contenus sont restreints ou stockés dans des bases de données, qui ne sont pas accessibles. Pour cette raison, certains sites Web sont mieux explorés que d'autres, selon la façon dont les développeurs ont créé un site à la fois.
Vous remarquerez également que plus l'archive est récente, plus il y a de contenu disponible pour un site donné. Un nouvel outil introduit par Internet Archive en 2005 est l'une des raisons pour lesquelles les données les plus récentes sont plus complètes. Archive-It.org aide à surmonter les incohérences dans les sites Web partiellement mis en cache en permettant aux institutions et aux créateurs de contenu de récolter et de préserver des collections de contenu numérique.
À propos de l'exploration
Les robots d'exploration Web, parfois appelés spider ou spiderbot, sont aussi vieux qu'Internet lui-même. Ces robots d'exploration sont des robots Internet qui naviguent en permanence sur le Web à des fins d'indexation, ce qui en fait un élément important de tout moteur de recherche moderne. Les robots d'exploration utilisés par la Wayback Machine pour créer des instantanés numériques de sites Web proviennent de diverses sources, qui ont changé au fil du temps.
Comme vous le remarquerez rapidement, la fréquence des captures d'instantanés varie considérablement selon le site Web. En règle générale, plus un site Web est grand (et peut-être plus populaire), plus il y a d'exploration. De plus, cela dépend beaucoup de la fréquence à laquelle un site Web change de page. Même les plus petits sites Web finissent par être explorés à moins qu'il n'y ait une raison pour laquelle ils ne le sont pas. Par exemple, les sites protégés par mot de passe ne sont pas explorés, pas plus que les sites Web dont les propriétaires de sites ont demandé qu'ils ne soient pas inclus.
Utilisation de la machine Wayback
Le site Web Wayback Machine est facile à utiliser pour tout le monde. Pour trouver des instantanés historiques d'un site Web, tapez son nom dans le moteur de recherche du site. Sur la page des résultats de recherche, des hyperliens indiquent les dates et heures d'archivage d'un site. Cliquez sur le lien pour voir le site "retour dans le temps".
Dans les exemples suivants, vous pouvez voir la page d'accueil du site Web d'Apple enregistrée en février 2005 et novembre 2014, et la page d'accueil de CNN à partir d'une date de mars 2004 et septembre 2010.
Remarque : Ces crawls incluent également des liens vers d'autres pages telles qu'enregistrées aux dates indiquées, pas seulement les pages d'accueil.
Outils avancés
Créée pour les chercheurs et le public, la Wayback Machine dispose de quelques outils intégrés qui pourraient manquer aux utilisateurs occasionnels. Par exemple, de par leur conception, les pages de résultats de recherche sont faciles à référencer. Comme expliqué, « Si vous trouvez une page archivée que vous souhaitez référencer sur votre page Web ou dans un article, vous pouvez copier l'URL. Vous pouvez même utiliser une correspondance d'URL floue et une spécification de date… mais c'est un peu plus avancé.
La Wayback Machine permet également aux propriétaires de sites d'utiliser une fonction "Enregistrer la page maintenant" pour enregistrer une page spécifique. Et pourtant, ce n'est pas parfait. Actuellement, la fonctionnalité n'ajoute pas l'URL du site aux futures explorations. De plus, la demande n'enregistre pas plus d'une page. Cependant, c'est une bonne première étape pour archiver la page d'accueil de votre site Web pour l'enregistrement historique.
Vous n'avez pas besoin de visiter la Wayback Machine à chaque fois pour effectuer une nouvelle recherche. Au lieu de cela, vous pouvez rechercher du contenu en saisissant l'adresse dans la barre d'outils de votre navigateur Web. Utilisez ce format pour toutes les recherches : https://web.archive.org/*/www.yoursite.com/*. Par exemple, utilisez https://web.archive.org/*/www.groovypost.com/* pour trouver des pages archivées pour les Luckytemplates !
Outils mobiles et de développement
Enfin, la Wayback Machine ne se trouve pas seulement sur le Web. Vous pouvez trouver une application Wayback Machine pour iOS et Android . Il existe également des extensions pour Chrome, Safari et Firefox. Les développeurs voudront également consulter les API Internet Archive Wayback Machine. Ceux-ci permettent aux développeurs de récupérer plus facilement des informations sur les données de capture Wayback.
Internet Archive Wayback Machine prend en charge plusieurs API différentes. Ce faisant, il est plus facile pour les développeurs de récupérer des informations sur les données de capture Wayback.
Remonter dans le temps pour vos sites Web préférés est la raison n ° 1 de visiter la Wayback Machine. C'est également un excellent outil pour tous ceux qui recherchent l'historique d'un site Web pour des projets scolaires ou une utilisation professionnelle. Quoi que vous fassiez, visitez la Wayback Machine et voyez ce que vous pouvez découvrir en quelques étapes simples.
Pour plus d'informations sur le service d'abonnement Archive-It d'Internet Archive, visitez le site officiel et commencez à contribuer dès aujourd'hui !