Wayback Machine es la parte más popular del sitio web de Internet Archive . Presentada por primera vez en 2001, la herramienta en línea gratuita le permite "retroceder en el tiempo" para ver cómo se veían los sitios web en todo el mundo en determinados momentos. Wayback Machine presenta 562 mil millones de páginas web en el momento de escribir este artículo, y se agregan muchas más cada año.
Aquí hay un vistazo a la Wayback Machine y lo que la hace especial.
Introducción al archivo de Internet
Creado por Brewster Kahle y Bruce Gilliat, Internet Archive es una organización sin fines de lucro con la misión declarada de "acceso universal a todo el conocimiento". Desde el principio, la organización ha brindado acceso público gratuito a materiales digitalizados, como páginas web, libros, grabaciones de audio, incluidos conciertos en vivo, videos, imágenes y programas de software.
Hasta la fecha, todo lo recopilado por Internet Archive ocupa más de 70 petabytes de espacio en el servidor, incluidas dos copias de todo. La organización se financia a través de donaciones, subvenciones y tarifas de los servicios de digitalización de libros. Por motivos de privacidad, Internet Archive no realiza un seguimiento de las direcciones IP de sus lectores y utiliza el protocolo HTTPS (seguro) en todo momento.
La máquina Wayback
Solo una parte de Internet Archive, Wayback Machine, fue diseñada para capturar el contenido del sitio web que se modificó o eliminó. Desde su lanzamiento, se ha convertido en uno de los lugares más populares y reconocidos de la web. Kahle y Gilliat nombraron el sitio después del dispositivo ficticio que viaja en el tiempo en la serie animada de la década de 1960, The Rocky and Bullwinkle Show.
Aunque Internet Archive no lanzó el sitio al público hasta octubre de 2001, Wayback Machine comenzó a archivar páginas web en caché a partir de mayo de 1996. Hasta 2001, las cintas digitales almacenaban información a la que solo podían acceder científicos e investigadores selectos. Cuando todo salió a la luz pública cinco años después (como se planeó durante mucho tiempo), ya contenía más de 10 mil millones de páginas archivadas.
Almacenamiento y Colecciones
Hoy, el sitio mantiene datos web históricos en un grupo de nodos de Linux. Wayback Machine descarga toda la información y los archivos de datos de acceso público en las páginas web a través de su mecanismo de rastreo. Sin embargo, no todo lo que se publica en un sitio web se incluye aquí, ya que algunos contenidos están restringidos o almacenados en bases de datos, a las que no se puede acceder. Debido a esto, algunos sitios web se rastrean mejor que otros, dependiendo de cómo los desarrolladores crearon un sitio a la vez.
También notará que cuanto más nuevo sea el archivo, más contenido estará disponible para un sitio determinado. Una nueva herramienta que presentó Internet Archive en 2005 es una de las razones por las que los datos más nuevos son más completos. Archive-It.org ayuda a superar las inconsistencias en sitios web parcialmente almacenados en caché al permitir que las instituciones y los creadores de contenido recolecten y conserven colecciones de contenido digital.
Acerca del rastreo
Los rastreadores web, a veces llamados spider o spiderbot, son tan antiguos como Internet. Estos rastreadores son bots de Internet que navegan continuamente por la web con fines de indexación, lo que los convierte en un componente importante de cualquier motor de búsqueda moderno. Los rastreadores utilizados por Wayback Machine para crear instantáneas digitales de sitios web provienen de varias fuentes, que han cambiado con el tiempo.
Como notará rápidamente, la frecuencia de las capturas de instantáneas varía mucho según el sitio web. Por lo general, cuanto más grande (y quizás más popular) un sitio web, más rastreo se produce. Además, mucho depende de la frecuencia con la que un sitio web cambia de página. Incluso los sitios web más pequeños finalmente se rastrean a menos que haya una razón para que no lo hagan. Por ejemplo, los sitios protegidos con contraseña no se rastrean, ni tampoco los sitios web cuyos propietarios han solicitado que no se incluyan.
Usando la máquina Wayback
El sitio web de Wayback Machine es fácil de usar para cualquier persona. Para encontrar instantáneas históricas de un sitio web, escriba su nombre en el motor de búsqueda del sitio. En la página de resultados de búsqueda, los hipervínculos indican fechas y horas en que se archivó un sitio. Haga clic en el enlace para ver el sitio "atrás en el tiempo".
En los siguientes ejemplos, puede ver la página principal del sitio web de Apple registrada en febrero de 2005 y noviembre de 2014, y la página de inicio de CNN de marzo de 2004 y septiembre de 2010.
Nota: estos rastreos también incluyen enlaces a otras páginas registradas en las fechas indicadas, no solo a las páginas de inicio.
Herramientas avanzadas
Creada para investigadores y el público por igual, Wayback Machine tiene algunas herramientas integradas que los usuarios ocasionales pueden perder. Por ejemplo, por diseño, las páginas de resultados de búsqueda son fáciles de consultar. Como se explicó, “Si encuentra una página archivada a la que le gustaría hacer referencia en su página web o en un artículo, puede copiar la URL. Incluso puede usar coincidencias de URL aproximadas y especificación de fecha... pero eso es un poco más avanzado".
Wayback Machine también permite a los propietarios de sitios usar la función "Guardar página ahora" para guardar una página específica. Y, sin embargo, no es perfecto. Actualmente, la característica no agrega la URL del sitio a ningún rastreo futuro. Además, la solicitud no guarda más de una página. Sin embargo, es un buen primer paso archivar la página de inicio de su sitio web para el registro histórico.
No tienes que visitar Wayback Machine cada vez que hagas una nueva búsqueda. En su lugar, puede encontrar contenido escribiendo la dirección en la barra de herramientas de su navegador web. Utilice este formato para todas las búsquedas: https://web.archive.org/*/www.yoursite.com/*. Por ejemplo, use https://web.archive.org/*/www.groovypost.com/* para encontrar páginas archivadas para Luckytemplates.
Herramientas móviles y para desarrolladores
Finalmente, Wayback Machine no solo se encuentra a través de la web. Puede encontrar una aplicación Wayback Machine para iOS y Android . También hay extensiones para Chrome, Safari y Firefox. Los desarrolladores también querrán consultar las API de Internet Archive Wayback Machine. Estos facilitan a los desarrolladores la recuperación de información sobre los datos de captura de Wayback.
Internet Archive Wayback Machine admite varias API diferentes. Al hacerlo, facilita a los desarrolladores recuperar información sobre los datos de captura de Wayback.
Regresar en el tiempo a sus sitios web favoritos es la razón número 1 para visitar Wayback Machine. También es una gran herramienta para cualquier persona que investigue el historial del sitio web para proyectos escolares o uso comercial. Hagas lo que hagas, visita Wayback Machine y mira lo que puedes descubrir en unos simples pasos.
Para obtener más información sobre el servicio de suscripción Archive-It de Internet Archive, visite el sitio web oficial y comience a contribuir hoy.