Wayback Machine
Wayback Machine – amerykańskie archiwum cyfrowe World Wide Web i innych informacji dostępnych w Internecie. Zostało upublicznione w październiku 2001 roku przez Brewstera Kahle’a i Bruce’a Gilliata[2]. Należy do Internet Archive[3], organizacji nonprofit mającej swoją siedzibę w San Francisco. Serwis był notowany w rankingu Alexa na miejscu 161[4] (maj 2020)
Logo archiwum | |
Typ strony |
Archiwum cyfrowe |
---|---|
Data powstania | |
Autor | |
Właściciel | |
Rejestracja |
Opcjonalna |
Strona internetowa |
Historia
edytujWayback Machine zostało utworzone, aby zapobiec problemowi bezpowrotnej utraty treści zgromadzonej na stronach internetowych, w momencie kiedy są one edytowane lub zamykane[5]. Usługa ta pozwala użytkownikom na przeglądanie zarchiwizowanych wersji witryn, które przez archiwum nazywane są „trójwymiarowym indeksem”[6]. Kahle i Gilliat utworzyli to archiwum z nadzieją na archiwizację całego Internetu i zapewnienie „powszechnego dostępu do wiedzy”[7].
Wayback Machine rozpoczęło archiwizację stron internetowych w 1996 r., z zamiarem upublicznienia całej usługi pięć lat później[8]. Kahle sporadycznie umożliwiał naukowcom dostęp do zasobów nieukończonej wówczas bazy, dostępnej na taśmie cyfrowej[9]. W piątą rocznicę powstania, archiwum zostało upublicznione podczas ceremonii w Uniwersytecie Kalifornijskim w Berkeley[10]. Do tego czasu Wayback Machine zgromadziło ponad 10 miliardów zarchiwizowanych stron[11].
Nazwa usługi jest aluzją do serialu telewizyjnego Rocky, Łoś Superktoś i przyjaciele, w którym występuje pies Peabody, podróżujący w czasie za pomocą wehikułu o nazwie „WABAC Machine”[12].
W 2002 roku budżet Wayback Machine sfinansowany m.in. przez kilka korporacji, fundacji (w tym Kahle/Austin Foundation, National Science Foundation, Bibliotekę Kongresu i Markle Foundation) i osoby prywatne wyniósł 10 milionów dolarów[13].
W październiku 2024 z serwerów witryny skradziono rekordy bazy danych uwierzytelniania 31 milionów unikalnych użytkowników oraz przeprowadzono atak rozproszonej odmowy usługi, uniemożliwiając skorzystanie z serwisu[14].
Aspekty techniczne
edytujOprogramowanie zostało przystosowane do indeksowania i pobierania, przy pomocy robotów internetowych, wszystkich publicznie dostępnych stron WWW, hierarchii Gopher oraz systemu grup dyskusyjnych Usenet[15]. Dane zbierane przez „crawlery” nie zawierają wszystkich informacji dostępnych w Internecie, ponieważ dostęp do części z nich może być ograniczany przez ich wydawcę lub przechowywany w niedostępnych bazach. Odpowiedzią na tę sytuację było utworzenie przez Internet Archive w 2005 r. strony Archive-It.org. Umożliwiła ona instytucjom i twórcom zbieranie, przechowywanie oraz tworzenie kolekcji treści i archiwów cyfrowych[16].
Częstotliwość powstawania snapshotów zależna jest od danej witryny[17]. Wayback Machine archiwizuje sam kod HTML, ale nie obrazy. Te są pobierane ze stron źródłowych[18].
Przyrost zasobów w Wayback Machine
edytujW 2003 roku, zaledwie dwa lata po oficjalnym upublicznieniu usługi, zasoby Wayback Machine rosły w tempie 12 terabajtów/miesiąc. Pierwsze 100 TB zostało przekroczone w czerwcu 2004[19]. W 2009 Wayback Machine mieściło już ok. trzech petabajtów danych, które rosły w tempie 100 TB każdego miesiąca[20]. W styczniu 2013 r. spółka posiadała w bazie 240 miliardów adresów URL. W październiku 2013 r. na stronie powstała opcja „Save a Page”, która umożliwiała użytkownikowi zgłoszenie konkretnej witryny do archiwizacji[21]. W grudniu 2014 r. liczba zarchiwizowanych witryn wzrosła do ponad 435 miliardów, co stanowiło prawie dziewięć petabajtów danych, rosnących w tempie 20 terabajtów tygodniowo[22]. Całkowita ilość danych w lipcu 2016 r. osiągnęła wynik 15 petabajtów[23], natomiast we wrześniu 2018 r. wyniosła już ponad 25 petabajtów[24].
Zastosowanie
edytujOd początku działalności w 2001 r., Wayback Machine stało się obiektem badań, zarówno pod kątem tego, w jaki sposób przechowywane są zgromadzone w bazie dane, jak i odnośnie do samych zarchiwizowanych stron dostępnych w archiwum. Do 2013 r. badacze napisali około 350 artykułów, które dotyczyły Wayback Machine. Pochodziły one głównie z takich obszarów nauki, jak technologia informacyjna, bibliotekoznawstwo oraz nauki społeczne. Naukowcy z tej ostatniej grupy wykorzystują Wayback Machine m.in. do analizy tego, jak rozwój witryn zachodzący stale od połowy lat 90., wpłynął na rozwój danego przedsiębiorstwa[25].
Skrypty archiwizacyjne w Wayback Machine mają na celu zachowanie jak największej liczby działających hiperłączy, które z racji ulotności danych w Internecie, mogłyby zostać utracone. Indyjscy badacze przeprowadzili analizę dotyczącą skuteczności zapisywania hiperłączy zawartych w naukowych publikacjach dostępnych online w Wayback Machine i wynik ten stanowił ponad połowę[26].
Przypisy
edytuj- ↑ Whois Record for WayBackMachine.org. whois.domaintools.com. [dostęp 2019-01-22]. (ang.).
- ↑ John Cook: Web site takes you way back in Internet history. seattlepi.com, 2001-11-01. [dostęp 2018-04-14]. (ang.).
- ↑ Internet Archive launches WayBack M. burmalibrary.org, 2001-10-25. [dostęp 2018-04-14]. (ang.).
- ↑ Alexa Internet: Archive.org Site Info. alexa.com, 2020-05-11. [dostęp 2020-05-11]. (ang.).
- ↑ Greg R. Notess. The Wayback Machine: The Web’s Archive. „online”. 26, s. 59-61, marzec-kwiecień 2002. EBSCOhost.
- ↑ The Wayback Machine. [dostęp 2019-01-25]. (ang.).
- ↑ 20,000 Hard Drives on a Mission | Internet Archive Blogs. blog.archive.org. [dostęp 2019-01-25]. (ang.).
- ↑ Internet Archive: Wayback Machine. archive.org. [dostęp 2019-01-25]. (ang.).
- ↑ John Cook: Web site takes you way back in Internet history. 2001-11-01. [dostęp 2019-01-25]. (ang.).
- ↑ Wayback Goes Way Back on Web. „Wired”, 2001-10-28. [dostęp 2019-01-25]. (ang.).
- ↑ Sanjay K. Arora, Yin Yin, Jan Youtie, Philip Shapira. Using the wayback machine to mine websites in the social sciences: A methodological resource. „Journal of the Association for Information Science and Technology”. 67 (8). ISSN 2330-1635.
- ↑ Heather Green: A Library as Big as the World. 2002-02-28. [dostęp 2019-01-28]. (ang.).
- ↑ Judy Tong: RESPONSIBLE PARTY -- BREWSTER KAHLE; A Library Of the Web, On the Web. nytimes.com, 2002-09-08. [dostęp 2018-04-14]. (ang.).
- ↑ Lawrence Abrams: Internet Archive hacked, data breach impacts 31 million users. Bleeping Computer, 2024-10-09. [dostęp 2024-10-13]. (ang.).
- ↑ Brewster Kahle: Archiving the Internet. [dostęp 2019-01-28]. [zarchiwizowane z tego adresu (2012-04-03)]. (ang.).
- ↑ Jeff Kaplan: Archive-It: Crawling the Web Together. 2014-10-27. (ang.).
- ↑ Kalev Leetaru: The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. 2016-01-28. [dostęp 2019-01-28].
- ↑ Zrzut ekranu może być dowodem w sądzie. 21 października 2021. [dostęp 2021-11-20].
- ↑ Internet Archive: Petabox. archive.org. [dostęp 2019-01-28]. (ang.).
- ↑ Lucas Mearian: Internet Archive to unveil massive Wayback Machine data center. Computerworld.com, 2009-03-19. [dostęp 2019-01-28].
- ↑ Alexis Rossi: Fixing Broken Links on the Internet. archive.org, 2013-10-25. [dostęp 2019-01-28].
- ↑ Internet Archive Frequently Asked Questions. [dostęp 2019-01-28].
- ↑ Can the manipulation of big data change the way the world thinks?. [dostęp 2019-01-28]. (ang.).
- ↑ Zachary Crockett: Inside Wayback Machine, the internet’s time capsule. 2018-09-28. [dostęp 2019-01-28]. (ang.).
- ↑ Sanjay K. Arora, Yin Li, Jan Youtie, Philip Shapira. Using the wayback machine to mine websites in the social sciences: A methodological resource. „Journal of the Association for Information Science and Technology”. 67, s. 1904–1915, 2015-05-05. DOI: 10.1002/asi.23503. ISSN 2330-1635. (ang.).
- ↑ B.T. Sampath Kumar, K.R. Prithviraj. Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs. „Journal of Information Science”. 41 (1). s. 71-81. DOI: 10.1177/0165551514552752. ISSN 0165-5515. (ang.).
Linki zewnętrzne
edytuj- Strona Wayback Machine. web.archive.org. [dostęp 2018-04-14]. (ang.).
- Częściowe mirrory:
- Bibliotheca Alexandrina Internet Archive [online], International School of Information Science (ISIS) [dostęp 2019-12-22] (ang.). Częściowy mirror lat 1996-2007 (brak niektórych stron z tego zakresu)
- Arquivo.pt - the Portuguese Web Archive: search pages from the past [online], arquivo.pt [dostęp 2019-12-27] (ang. • port.). Bardzo duże braki, skupia się bardziej na stronach portugalskich. Umożliwia wyszukiwanie pełnotekstowe (w treści stron).