Máy Wayback là gì và tại sao nó lại hữu ích?

Máy Wayback là gì và tại sao nó lại hữu ích?

Wayback Machine là phần phổ biến nhất của trang web Internet Archive . Được giới thiệu lần đầu tiên vào năm 2001, công cụ trực tuyến miễn phí cho phép bạn “quay ngược thời gian” để xem các trang web trên toàn thế giới trông như thế nào tại các thời điểm. Wayback Machine có 562 tỷ trang web tại thời điểm viết bài này, với nhiều trang khác được bổ sung mỗi năm.

Dưới đây là cái nhìn về Wayback Machine và điều gì làm cho nó trở nên đặc biệt.

Giới thiệu kho lưu trữ Internet

Được thành lập bởi Brewster Kahle và Bruce Gilliat, Internet Archive là một tổ chức phi lợi nhuận với sứ mệnh được nêu rõ là “truy cập phổ cập mọi kiến ​​thức”. Ngay từ đầu, tổ chức đã cung cấp cho công chúng quyền truy cập miễn phí vào các tài liệu số hóa, chẳng hạn như các trang web, sách, bản ghi âm, bao gồm các buổi hòa nhạc trực tiếp, video, hình ảnh và các chương trình phần mềm.

Đến nay, mọi thứ được Internet Archive thu thập chiếm hơn 70 Petabyte dung lượng máy chủ, bao gồm hai bản sao của mọi thứ. Tổ chức được tài trợ thông qua các khoản đóng góp, tài trợ và phí từ các dịch vụ số hóa sách. Để bảo mật, Internet Archive không theo dõi địa chỉ IP của các trình đọc và sử dụng giao thức HTTPS (an toàn) xuyên suốt.

Máy quay lui

Chỉ một phần của Internet Archive, Wayback Machine, được thiết kế để ghi lại nội dung trang web bị thay đổi hoặc xóa. Kể từ khi ra mắt, nó đã trở thành một trong những địa điểm phổ biến và được công nhận trên web. Kahle và Gilliat đã đặt tên cho địa điểm này theo tên của thiết bị du hành thời gian hư cấu trong loạt phim hoạt hình những năm 1960, The Rocky and Bullwinkle Show.

Mặc dù Internet Archive không tung ra công chúng cho đến tháng 10 năm 2001, Wayback Machine đã bắt đầu lưu trữ các trang web được lưu trong bộ nhớ cache từ tháng 5 năm 1996. Cho đến năm 2001, các băng kỹ thuật số đã lưu trữ thông tin mà chỉ một số nhà khoa học và nhà nghiên cứu mới có thể truy cập được. Khi mọi thứ ra mắt công chúng vào 5 năm sau (như đã được lên kế hoạch từ lâu), nó đã chứa hơn 10 tỷ trang lưu trữ.

Lưu trữ và Bộ sưu tập

Ngày nay, trang web lưu giữ dữ liệu web lịch sử trên một cụm các nút Linux. Wayback Machine tải xuống tất cả các tệp dữ liệu và thông tin có thể truy cập công khai trên các trang web thông qua cơ chế thu thập thông tin của nó. Tuy nhiên, không phải tất cả mọi thứ được đăng trên một trang web đều được đưa vào đây vì một số nội dung bị hạn chế hoặc được lưu trữ trong cơ sở dữ liệu, không thể truy cập được. Do đó, một số trang web được thu thập thông tin tốt hơn những trang web khác, tùy thuộc vào cách các nhà phát triển tạo trang web tại một thời điểm.

Bạn cũng sẽ nhận thấy kho lưu trữ càng mới, càng có nhiều nội dung cho bất kỳ trang web nhất định nào. Một công cụ mới mà Internet Archive giới thiệu vào năm 2005 là một trong những lý do khiến dữ liệu mới hơn hoàn thiện hơn. Archive-It.org giúp khắc phục sự mâu thuẫn trong các trang web được lưu trong bộ nhớ cache một phần bằng cách cho phép các tổ chức và người tạo nội dung thu thập và bảo quản các bộ sưu tập nội dung kỹ thuật số.

Giới thiệu về Thu thập thông tin

Trình thu thập dữ liệu web, đôi khi được gọi là spider hoặc spiderbot, cũng lâu đời như chính mạng internet. Các trình thu thập thông tin này là các bot internet liên tục duyệt web cho mục đích lập chỉ mục, làm cho chúng trở thành một thành phần quan trọng của bất kỳ công cụ tìm kiếm hiện đại nào. Các trình thu thập thông tin được sử dụng cho Wayback Machine để tạo ảnh chụp nhanh kỹ thuật số của các trang web đến từ nhiều nguồn khác nhau, đã thay đổi theo thời gian.

Như bạn sẽ nhanh chóng nhận thấy, tần suất chụp ảnh nhanh rất khác nhau tùy theo trang web. Thông thường, một trang web càng lớn (và có lẽ càng phổ biến) thì việc thu thập thông tin càng xảy ra nhiều hơn. Thêm vào đó, rất nhiều phụ thuộc vào tần suất một trang web thay đổi trang. Ngay cả những trang web nhỏ nhất cuối cùng cũng được thu thập thông tin trừ khi có lý do khiến chúng không được thu thập thông tin. Ví dụ: các trang web được bảo vệ bằng mật khẩu sẽ không được thu thập thông tin và cũng không phải các trang web mà chủ sở hữu trang web đã yêu cầu không được đưa vào.

Sử dụng Máy quay lui

Trang web Wayback Machine rất dễ sử dụng cho mọi người. Để tìm ảnh chụp nhanh lịch sử của một trang web, hãy nhập tên của nó vào công cụ tìm kiếm của trang web. Trên trang kết quả tìm kiếm, các siêu liên kết biểu thị ngày và thời gian một trang web được lưu trữ. Nhấp vào liên kết để xem trang web "quay ngược thời gian."

Trong các ví dụ sau, bạn có thể thấy trang đầu của trang web Apple được ghi vào tháng 2 năm 2005 và tháng 11 năm 2014, và trang chủ CNN từ ngày tháng 3 năm 2004 và tháng 9 năm 2010.

Lưu ý: Những thu thập thông tin này cũng bao gồm các liên kết đến các trang khác như được ghi lại vào những ngày nhất định, không chỉ các trang chủ.

Máy Wayback là gì và tại sao nó lại hữu ích?

Máy Wayback là gì và tại sao nó lại hữu ích?

Công cụ nâng cao

Được tạo ra cho các nhà nghiên cứu và công chúng, Wayback Machine có một số công cụ tích hợp sẵn mà người dùng bình thường có thể bỏ lỡ. Ví dụ, theo thiết kế, các trang kết quả tìm kiếm rất dễ tham khảo. Như đã giải thích, “Nếu bạn tìm thấy một trang lưu trữ mà bạn muốn tham chiếu trên trang Web của mình hoặc trong một bài báo, bạn có thể sao chép URL. Bạn thậm chí có thể sử dụng đối sánh URL mờ và đặc tả ngày tháng… nhưng điều đó nâng cao hơn một chút ”.

Wayback Machine cũng cho phép chủ sở hữu trang web sử dụng tính năng “Lưu trang ngay bây giờ” để lưu một trang cụ thể. Tuy nhiên, nó không hoàn hảo. Hiện tại, tính năng này không thêm URL của trang web vào bất kỳ lần thu thập thông tin nào trong tương lai. Ngoài ra, yêu cầu không lưu nhiều hơn một trang. Tuy nhiên, đây là bước đầu tiên tốt để lưu trữ trang chủ của trang web của bạn cho hồ sơ lịch sử.

Máy Wayback là gì và tại sao nó lại hữu ích?

Bạn không cần phải truy cập Wayback Machine mỗi lần để thực hiện một tìm kiếm mới. Thay vào đó, bạn có thể tìm thấy nội dung bằng cách nhập địa chỉ vào thanh công cụ của trình duyệt web. Sử dụng định dạng này cho tất cả các tìm kiếm: https://web.archive.org/*/www.yoursite.com/*. Ví dụ: sử dụng https://web.archive.org/*/www.groovypost.com/* để tìm các trang được lưu trữ cho Luckytemplates!

Công cụ dành cho thiết bị di động và nhà phát triển

Cuối cùng, Wayback Machine không chỉ được định vị thông qua web. Bạn có thể tìm thấy ứng dụng Wayback Machine dành cho iOSAndroid . Ngoài ra còn có các tiện ích mở rộng cho Chrome, Safari và Firefox. Các nhà phát triển cũng sẽ muốn kiểm tra các API máy lưu trữ Internet. Những điều này giúp các nhà phát triển truy xuất thông tin về dữ liệu bắt Wayback dễ dàng hơn.

Internet Archive Wayback Machine hỗ trợ một số API khác nhau. Bằng cách đó, các nhà phát triển sẽ dễ dàng truy xuất thông tin về dữ liệu chụp Wayback hơn.

Quay ngược thời gian cho các trang web yêu thích của bạn là lý do số 1 để truy cập Wayback Machine. Nó cũng là một công cụ tuyệt vời cho bất kỳ ai nghiên cứu lịch sử trang web cho các dự án trường học hoặc sử dụng kinh doanh. Dù bạn làm gì, hãy truy cập Wayback Machine và xem những gì bạn có thể khám phá trong một vài bước đơn giản.

Để biết thêm thông tin về dịch vụ đăng ký Archive-It của Internet Archive, hãy truy cập trang web chính thức  và bắt đầu đóng góp ngay hôm nay!

Tags: #EXPLAINER

11 thủ thuật nhanh cho “Màn hình Windows 11 bị đóng băng nhưng chuột hoạt động”

11 thủ thuật nhanh cho “Màn hình Windows 11 bị đóng băng nhưng chuột hoạt động”

Đối phó với tình huống Windows 11 bị treo màn hình nhưng sự cố chuột hoạt động, sau đó thử các bản sửa lỗi được đưa ra để giải quyết Windows 11 bị đóng băng ngẫu nhiên

Sửa mã lỗi Windows 10 Store 0x80072ee7 [7 giải pháp hoạt động]

Sửa mã lỗi Windows 10 Store 0x80072ee7 [7 giải pháp hoạt động]

Tìm hiểu cách sửa Mã lỗi Store 0x80072ee7 trong Windows 10 bằng 7 giải pháp làm việc hiệu quả và truy cập Windows Store không gặp lỗi.

[11 Cách] Khắc phục lỗi DLL hoặc thiếu tệp DLL trong Windows 10 & 11

[11 Cách] Khắc phục lỗi DLL hoặc thiếu tệp DLL trong Windows 10 & 11

Biết các lỗi DLL khác nhau và tìm hiểu cách sửa lỗi không tìm thấy hoặc thiếu tệp DLL một cách nhanh chóng với bài viết cập nhật này….

4 lỗi thường gặp ở PC chơi game có thể sửa được

4 lỗi thường gặp ở PC chơi game có thể sửa được

Đọc hướng dẫn của chúng tôi để tìm hiểu cách khắc phục các lỗi thường gặp trong PC chơi game và bắt đầu chơi trò chơi yêu thích của bạn mà không gặp bất kỳ rắc rối nào...

Lỗi Outlook 0x800CCC13 Không thể kết nối với mạng [ĐÃ GIẢI QUYẾT]

Lỗi Outlook 0x800CCC13 Không thể kết nối với mạng [ĐÃ GIẢI QUYẾT]

Thực hiện theo các giải pháp để khắc phục lỗi Gửi/nhận Outlook 0x800CCC13 sau khi nâng cấp Windows 10 và ngăn chặn 0x800ccc13 không thể kết nối mạng...

YouTube không hoạt động? Đây là Cách khắc phục trên Máy tính để bàn và Android

YouTube không hoạt động? Đây là Cách khắc phục trên Máy tính để bàn và Android

YouTube không hoạt động là gián đoạn việc xem video trên YouTube? Kiểm tra các bản sửa lỗi và giải quyết ứng dụng YouTube không hoạt động...

ĐÃ CỐ ĐỊNH: Ứng dụng này đã bị chặn để bảo vệ bạn trên Windows 10

ĐÃ CỐ ĐỊNH: Ứng dụng này đã bị chặn để bảo vệ bạn trên Windows 10

Sửa lỗi ứng dụng này đã bị chặn để bảo vệ bạn trong lỗi Windows 10. Hãy thử các cách sửa lỗi được đưa ra và loại bỏ lỗi ứng dụng này đã bị chặn

Thẻ SD hiển thị sai kích thước: Cách khôi phục thẻ SD về dung lượng tối đa

Thẻ SD hiển thị sai kích thước: Cách khôi phục thẻ SD về dung lượng tối đa

Thẻ SD của bạn có hiển thị sai kích thước không, hãy đọc hướng dẫn của chúng tôi để tìm hiểu cách khôi phục thẻ SD về dung lượng tối đa một cách dễ dàng...

Làm cách nào để sửa mã lỗi Windows 10 0xC1900208 – 0x4000C?

Làm cách nào để sửa mã lỗi Windows 10 0xC1900208 – 0x4000C?

Đọc bài viết để làm theo các bản sửa lỗi được đưa ra nhằm giải quyết Mã lỗi 0xC1900208 – 0x4000C trên Windows 10 và loại bỏ sự cố bị kẹt khi cập nhật Windows 10

Cách gỡ cài đặt Windows 11

Cách gỡ cài đặt Windows 11

Bạn đã dùng thử Windows 11. Bạn không thích Windows 11 và bạn muốn quay lại Windows 10. Về giấy phép, nếu bạn có Windows chính hãng