什麼是 Wayback 機器,它為什麼有用?

什麼是 Wayback 機器,它為什麼有用?

Wayback Machine 是Internet Archive 網站上最受歡迎的部分。該免費在線工具於 2001 年首次推出,可讓您“回到過去”查看全球網站在某個時間點的樣子。在撰寫本文時, Wayback Machine 擁有 5620個網頁,並且每年都會增加更多。

下面就來看看 Wayback Machine 以及它的特別之處。

互聯網檔案館介紹

Internet Archive 由 Brewster Kahle 和 Bruce Gilliat 創建,是一個非營利組織,其使命是“普遍獲取所有知識”。從一開始,該組織就向公眾提供免費的數字化資料,例如網頁、書籍、錄音,包括現場音樂會、視頻、圖像和軟件程序。

迄今為止,Internet Archive 收集的所有內容都佔用了超過 70 PB的服務器空間,其中包括所有內容的兩個副本。該組織的資金來自圖書數字化服務的捐贈、贈款和費用。出於隱私考慮,Internet Archive 不會跟踪其讀者的 IP 地址,而是自始至終使用 HTTPS(安全)協議。

回程機器

互聯網檔案的一部分,Wayback Machine,旨在捕獲已更改或刪除的網站內容。自推出以來,它已成為網絡上最受歡迎和認可的地方之一。Kahle 和 Gilliat 以 1960 年代動畫系列 The Rocky and Bullwinkle Show 中虛構的時間旅行裝置命名該網站。

儘管 Internet Archive 直到 2001 年 10 月才向公眾推出該網站,但 Wayback Machine 從 1996 年 5 月開始存檔緩存的網頁。直到 2001 年,數字磁帶存儲的信息只有選定的科學家和研究人員才能訪問。五年後,當一切都向公眾公開時(正如長期計劃的那樣),它已經包含了超過 100 億個存檔頁面。

存儲和收藏

如今,該站點將歷史 Web 數據保存在 Linux 節點集群上。Wayback Machine 通過其抓取機制下載網頁上所有可公開訪問的信息和數據文件。但是,並非網站上發布的所有內容都包含在此處,因為某些內容受到限製或存儲在無法訪問的數據庫中。因此,某些網站比其他網站更容易被抓取,具體取決於開發人員一次創建網站的方式。

您還會注意到存檔越新,任何給定站點的可用內容就越多。Internet Archive 於 2005 年推出的新工具是更新數據更完整的原因之一。Archive-It.org 允許機構和內容創建者收集和保存數字內容的集合,從而幫助克服部分緩存網站中的不一致問題。

關於爬行

網絡爬蟲,有時稱為蜘蛛或蜘蛛機器人,與互聯網本身一樣古老。這些爬蟲是互聯網機器人,它們不斷瀏覽網絡以進行索引,使它們成為任何現代搜索引擎的重要組成部分。Wayback Machine 用於創建網站數字快照的爬蟲來自各種來源,這些來源隨著時間的推移而發生變化。

您很快就會注意到,快照捕獲的頻率因網站而異。通常,網站越大(也許更受歡迎),發生的爬網就越多。另外,很大程度上取決於網站更改頁面的頻率。即使是最小的網站最終也會被抓取,除非有理由不被抓取。例如,受密碼保護的網站不會被抓取,網站所有者要求它們不被收錄的網站也不會被抓取。

使用 Wayback 機器

Wayback Machine 網站對任何人來說都很容易使用。要查找網站的歷史快照,請在網站的搜索引擎中輸入其名稱。在搜索結果頁面上,超鏈接表示網站存檔的日期和時間。單擊鏈接可查看“回到過去”的網站。

在以下示例中,您可以看到記錄在 2005 年 2 月和 2014 年 11 月的 Apple 網站首頁,以及 2004 年 3 月和 2010 年 9 月的 CNN 主頁。

注意:這些爬網還包括在給定日期記錄的其他頁面的鏈接,而不僅僅是主頁。

什麼是 Wayback 機器,它為什麼有用?

什麼是 Wayback 機器,它為什麼有用?

高級工具

Wayback Machine 專為研究人員和公眾創建,有一些普通用戶可能會錯過的內置工具。例如,根據設計,搜索結果頁面易於參考。如前所述,“如果您在網頁或文章中找到想要引用的存檔頁面,您可以復制 URL。您甚至可以使用模糊 URL 匹配和日期規範……但這有點高級。”

Wayback Machine 還允許網站所有者使用“立即保存頁面”功能來保存特定頁面。然而,它並不完美。目前,該功能不會將站點 URL 添加到任何未來的爬網中。此外,請求不會保存超過一頁。但是,將您網站的主頁存檔以供歷史記錄是很好的第一步。

什麼是 Wayback 機器,它為什麼有用?

您不必每次都訪問 Wayback Machine 進行新搜索。相反,您可以通過在 Web 瀏覽器工具欄中輸入地址來查找內容。使用此格式進行所有搜索:https://web.archive.org/*/www.yoursite.com/*。例如,使用 https://web.archive.org/*/www.groovypost.com/* 來查找 Luckytemplates 的存檔頁面!

移動和開發者工具

最後,Wayback Machine 不僅僅是通過網絡定位的。您可以找到適用於iOSAndroid的 Wayback Machine 應用程序。Chrome、Safari 和 Firefox 也有擴展。開發人員還希望查看 Internet Archive Wayback Machine API。這些使開發人員更容易檢索有關 Wayback 捕獲數據的信息。

Internet Archive Wayback Machine 支持多種不同的 API。通過這樣做,開發人員可以更輕鬆地檢索有關 Wayback 捕獲數據的信息。

為您最喜歡的網站“回到過去”是訪問 Wayback Machine 的第一大理由。對於任何研究學校項目或商業用途的網站歷史的人來說,它也是一個很好的工具。無論您做什麼,請訪問 Wayback Machine,看看您可以通過幾個簡單的步驟發現什麼。

有關 Internet Archive 的 Archive-It 訂閱服務的更多信息,請訪問官方網站 並立即開始貢獻!

Tags: #EXPLAINER

“Windows 11 屏幕凍結但鼠標工作”的 11 個快速技巧

“Windows 11 屏幕凍結但鼠標工作”的 11 個快速技巧

處理Windows 11屏幕凍結但鼠標工作問題然後嘗試解決Windows 11隨機凍結的修復程序

[9 個修復] Windows 10 上的 UNEXPECTED_STORE_EXCEPTION 錯誤

[9 個修復] Windows 10 上的 UNEXPECTED_STORE_EXCEPTION 錯誤

您的 Windows 10 系統上是否遇到 UNEXPECTED_STORE_EXCEPTION 錯誤?使用 9 種可行的解決方案解決此 BSOD 錯誤。

SD 卡顯示錯誤大小:如何將 SD 卡還原為完整容量

SD 卡顯示錯誤大小:如何將 SD 卡還原為完整容量

您的 SD 卡顯示的大小是否錯誤,請閱讀我們的指南,了解如何輕鬆將 SD 卡恢復到完整容量...

[11 種方法] 修正 Windows 10 和 11 中的 DLL 錯誤或遺失 DLL 檔案問題

[11 種方法] 修正 Windows 10 和 11 中的 DLL 錯誤或遺失 DLL 檔案問題

透過這篇更新的文章,了解不同的 DLL 錯誤並了解如何立即修復 DLL 檔案未找到或遺失的錯誤...

已修復:為了保護您在 Windows 10 上的安全,此應用程式已被阻止

已修復:為了保護您在 Windows 10 上的安全,此應用程式已被阻止

修復此應用程式已被阻止以保護您在 Windows 10 中的錯誤。嘗試給出的修復並擺脫此應用程式已被阻止錯誤

防毒軟體與反惡意軟體:您需要哪一個?

防毒軟體與反惡意軟體:您需要哪一個?

防毒軟體和反惡意軟體聽起來很相似,但具有不同的特徵。了解他們可以為您提供的不同好處。

遊戲電腦中可修復的 4 個常見錯誤

遊戲電腦中可修復的 4 個常見錯誤

閱讀我們的指南,了解如何修復遊戲電腦中的常見錯誤,並輕鬆開始玩您最喜愛的遊戲...

修正 Windows 10 商店錯誤代碼 0x80072ee7 [7 個可行的解決方案]

修正 Windows 10 商店錯誤代碼 0x80072ee7 [7 個可行的解決方案]

了解如何使用 7 種有效的解決方案修復 Windows 10 中的商店錯誤代碼 0x80072ee7 並無錯誤地存取 Windows 應用程式商店。

如何卸載 Windows 11

如何卸載 Windows 11

你嘗試過 Windows 11。你不喜歡 Windows 11,你想回到 Windows 10。就許可證而言,如果你有一個正版的 Windows

Microsoft Visual C++ 執行階段程式庫錯誤:7 個簡單修復

Microsoft Visual C++ 執行階段程式庫錯誤:7 個簡單修復

了解如何解決 Microsoft Visual C++ 運行時庫錯誤 Windows,遵循給出的解決方案並修復 Runtine C++ 錯誤