Seleziona una pagina

Internet Web Archive: guida all’uso della biblioteca online

Internet Web Archive è una gigantesca biblioteca online a cui puoi accedere gratuitamente da ogni angolo del mondo. Il servizio è simile a quello delle biblioteche pubbliche off line ma offre molto di più. Tutto è digital: libri, file audio, immagini fotografiche, immagini in movimento, opere d’arte e soprattutto l’archivio online.

La vastissima raccolta di screenshot di webpages del passato è una fonte inesauribile che ti può aiutare se lavori come content creator o SEO (Search Engine Optimization) Specialist, o se vuoi vedere le statistiche passate di un dominio tuo o di un importante competitor. Se ti attira l’idea di tornare indietro nel tempo per studiare pagine del web ormai perdute o non più esistenti, continua a leggere questo articolo che ti spiegherà perché è utile fare ricerche sull’archivio storico del web.

Nello specifico, in questa guida vedrai:
• cosa c’è nel web archive;
a cosa serve Archive.org;
• come si usa la Waybach Machine;
perché è utile l’archivio web;
• garanzie, limiti e alternative ad Archive.org.

Vuoi diventare un esperto creatore di contenuti digitali e lavorare con metodo professionale e con servizi interessanti come Internet Web Archive? Iscriviti al Corso Web Content Editor e inizia il tuo percorso nel digitale.

Cos’è Internet Web Archive

Il primo archivio web della storia è nato perché il fondatore della non profit Internet Archive, Brewster Kahle, ha voluto tutelare i manufatti culturali del nostro tempo raccogliendo ogni tipo di risorsa digitale. Internet Web Archive è stato creato nel lontano 1996 perché la nostra civiltà sempre più online non si perdesse in rete ma potesse lasciare una traccia per le generazioni future. Da quel momento la biblioteca di siti è diventata la memoria del web.

Le sue collezioni contano:

• 735 miliardi di webpages;
• 41 milioni di libri e testi;
• 14,7 milioni di tracce audio (ben 240 mila concerti live e anche registrazioni vocali e canzoni);
• 8,4 milioni di video (tra cui 2,4 milioni di Telegiornali e video, film d’epoca e anche videogiochi);
• 4,4 milioni di immagini (dalle opere d’arte all’archivio di immagini della NASA);
• 890 mila software.

Una grossa parte delle raccolte della biblioteca online è dedicata alle opere in lingua di area non anglofona. Si può quasi dire che ci sia un “Internet Archive italiano” perché ci sono raccolte molto estese in lingua italiana. Tra le collezioni librarie, un esempio molto rilevante è l’Archivio storico italiano. La Open Library, raccolta di libri e testi, fa parte di uno dei più vasti progetti di digitalizzazione di libri esistente ma la collezione maggiore è l’archivio web

Da studente o professionista del digital marketing ti interesserà sapere che i “fermi immagine” di molti siti nel World Wide Web sono custoditi e catalogati nell’archivio di URL presente sul sito Archive.org e a tua completa disposizione. Internet Archive è sicuro grazie a un mirror (copia di back up) presso la Biblioteca di Alessandria d’Egitto e tutto il materiale è accessibile, basta registrarsi al sito.

Non è sempre stato così: all’inizio, coloro che potevano accedere alle raccolte erano solo ricercatori o scienziati con autorizzazione speciale. Nel 2001 la svolta con l’introduzione dell’applicazione che ha finalmente reso disponibili più di 10 milioni di pagine online già memorizzate. La sua interfaccia oggi è così familiare agli utenti di Archive.org che il suo nome, Wayback Machine, nel parlare comune, è diventato sinonimo di Internet Web Archive.

Chi utilizza i servizi di web archiving è il creatore di contenuti.
Fai il test e scopri se hai affinità per questo ruolo!

test professione web content editor

 

Come funziona Wayback Machine di Internet Archive

Nella homepage del sito che ospita Internet Web Archive trovi l’interfaccia di ricerca Wayback Machine. Da qui puoi avviare una ricerca e l’applicazione dell’archivio internet, come un’autentica macchina del tempo, ti permette di navigare in versioni di pagine web del passato, risalenti a qualche salvataggio precedente oppure a decenni prima. Questa opzione è d’aiuto quando hai bisogno di recuperare quei contenuti che altrimenti scomparirebbero ad ogni modifica.

Il crawler, ossia il software di ricerca alla base dell’applicazione, esplora internet, trova in automatico le pagine sul web e tutte le volte ne fa uno screenshot. Se la pagina è indicizzata viene memorizzata nell’archivio. La frequenza del cattura immagine è proporzionale a notorietà, traffico e longevità della pagina. 

Avvia la ricerca

Al momento della registrazione sul sito Archive.org, viene creata una collezione di archivi di URL relativi al dominio di quella pagina, organizzati su una time line.

Grazie a Wayback Machine puoi avviare la ricerca in 3 mosse:

• vai su https://archive.org/;
• scrivi nel campo di ricerca l’URL o le keyword/parole correlate all’argomento;
• premi invio.

Ti appare un calendario suddiviso in mesi e in alto una linea temporale dove sono specificati gli anni che puoi selezionare. Qui sotto puoi vedere i risultati della ricerca relativa al sito italiano di Digital Coach (prima del passaggio a www.digital-coach.com/it/):

screenshot ricerca in internet web archive

Screenshot del risultato della ricerca fatta con la Wayback Machine di Internet Web Archive

 

Usa gli strumenti di analisi

Nel calendario delle registrazioni della pagina web ci sono dei contrassegni colorati sui giorni a indicare le date in cui è stata campionata la pagina. Sfiorando con il cursore il giorno del calendario ti appare l’orario delle scansioni della pagina e cliccando il link puoi visitare la versione del sito che il crawler aveva trovato in quel momento.

Clicca su “Changes” (modifiche) per confrontare due versioni temporali di una pagina. Dopo aver selezionato le due scansioni noterai i cambiamenti di contenuto evidenziati in blu per i contenuti aggiunti e in giallo per i contenuti eliminati. Ecco uno screenshot della ricerca che raffigura i cambiamenti del sito di Digital Coach tra il 2022 e il 2023:

screenshot voce changes ricerca in internet web archive

Screenshot del risultato di ricerca su Wayback Machine alla voce “Changes”

È consigliabile andare anche suSite Map”: un grafico radiale rappresenta la struttura degli archivi di URL di un sito per ogni anno. L’anello al centro della rappresentazione è il dominio. Se scorri con il cursore sugli altri anelli, noterai che cambia l’URL in cima al grafico perché trovi pagine di livello differente. Cliccando su una pagina potrai accedere all’archivio di istantanee per quella URL. 

screenshot voce site map ricerca in internet web archive

Screenshot del risultato di ricerca su Wayback Machine alla voce “Site Map”

 

Salva la pagina web

Sulla piattaforma di Internet Web Archive troverai due modalità di salvataggio per le tue risorse web.

Puoi registrare gratuitamente una pagina alla volta immettendo l’URL in “Save Page Now” dalla home page di Archive.org, per richiederne una scansione forzata. Se invece hai un sito e vuoi caricarlo integralmente nell’archivio online, lo puoi fare abbonandoti ad Archive-It. Diventando sostenitore, avrai anche assistenza nella gestione della raccolta, catalogazione e garanzia di accesso full text h24, 7 giorni su 7.

4 ottimi motivi per consultare l’Archivio Web

Se la raccolta di website dell’Internet Web Archive ti sembra un servizio utile per il tuo lavoro, ora scoprirai in quali attività la consultazione dell’archivio web può essere davvero il tuo asso nella manica.

Il suo impiego strategico può essere decisivo in attività come la realizzazione di contenuti, l’ottimizzazione SEO, la consulenza e la gestione dei website. Ora ti spiegherò nel dettaglio di cosa si tratta. 

Creazione di contenuti digitali

Se curi il blog di un’azienda o sei un web journalist, ricontrollare le versioni di una pagina durante una stessa giornata è essenziale per avere il controllo di ciò che pubblichi e per confrontarti con i contenuti dei competitor.

Prima di metterti a scrivere hai bisogno di analizzare linguaggio, finalità comunicative e struttura dei contenuti di altri autori sull’argomento di cui intendi parlare. Userai così il tono di voce più adatto, le parole chiave migliori e darai alla tua argomentazione la struttura più efficace.
Sapere come recuperare un vecchio sito ti permette di capire come un argomento è stato trattato nel corso del tempo. Basta fare una ricerca per parola chiave e periodo. Troverai così i siti che in quell’arco di tempo parlavano del tema di tuo interesse.

Facendo una ricerca nell’archivio digitale, inoltre, puoi verificare che una fonte non sia stata cambiata mentre, con “Save Page Now”, puoi certificare la proprietà intellettuale di un contenuto. 

Attività SEO

Altri professionisti del digitale che possono trarre vantaggio dall’utilizzo di Internet Web Archive sono i SEO Specialist. Grazie alla Wayback Machine puoi fare un’indagine SEO retrospettiva: puoi cercare le parole chiave e le statistiche presenti nelle versioni precedenti di un sito e renderti conto di come si sono evoluti i motori di ricerca nell’indicizzare e posizionare i contenuti nella SERP (Search Engine Results Page o pagina dei risultati).

Naturalmente, potresti anche fare delle ricerche sulle scansioni del sito più recenti e vedere quali versioni dei testi funzionano di più e quali meno. Eseguire l’ottimizzazione impiegando le keyword e correlate trovate ti darà un maggior vantaggio competitivo quando vorrai far posizionare i tuoi contenuti nella pagina dei risultati del motore di ricerca.

Se avevi già sentito parlare di scrittura in ottica SEO e vuoi approfondire, o se vuoi capire di cosa si tratta, ti consiglio di leggere l’ebook dedicato al SEO copywriting.

Scarica la Mini Guida Gratuita
per capire come comparire tra i primi risultati di Google

SEOCopywriting-EBOOK

"*" indica i campi obbligatori

Hidden
Questo campo serve per la convalida e dovrebbe essere lasciato inalterato.

Gestione di siti

Nel caso tu gestisca un sito, è utile salvare nell’archivio internet le pagine importanti o l’intero sito per non perdere informazioni essenziali per la tua attività. Nei classici casi di un mancato salvataggio o di una modifica che a distanza di tempo non convince più, sapere come si può vedere lo storico di un sito web è importante.

Scansionare la singola pagina sull’archivio online facendo richiesta gratuita con “Save Page Now”, oppure memorizzare e catalogare un sito abbonandosi ad Archive-It: queste sono le due soluzioni “preventive” proposte per poter recuperare le versioni temporali di singole pagine o vedere interi siti che sono stati cancellati dalle modifiche. Quando viene fatto un lavoro di UX design, inoltre, poter riguardare le varie interfacce che vengono create durante il lavoro è un riferimento importante per capire quale grafica è più efficace. 

Avvalersi del servizio di ricerca siti offerto da Internet Archive è opportuno anche quando devi monitorare gli altri siti. È consigliabile fare un’indagine con la Wayback Machine, ad esempio, quando devi acquistare un dominio e ti serve sapere se in passato è stato usato per ospitare siti web di dubbia autorevolezza. Cercare una pagina sul Web Archive ti permette anche di fare un’analisi dei siti che ti offrono backlink (link in entrata) e di controllare che le pagine che vuoi linkare non siano state nel frattempo eliminate.

Consulenza alle aziende

L’Archivio Web della non profit è uno strumento utile anche per chi lavora in proprio come consulente digitale. Che tu ti occupi di SEO Optimization, faccia consulenza e-commerce o sia un digital marketing specialist, tenere memoria delle differenti versioni di una pagina web è un grande vantaggio. Con l’interfaccia di Internet Archive puoi mostrare ai tuoi clienti cosa è cambiato dopo un tuo intervento. Dalla sezione “Changes”, ad esempio, puoi aprire due versioni temporali diverse, pre e post consulenza e fare un confronto che tenga conto dei dati di Analytics riguardo al traffico e le conversioni a tua disposizione. 

L’universo del lavoro freelance ti affascina, perché ti piace l’idea di autogestirti e di collaborare con aziende sempre nuove e diversificare il tuo backgroud professionale? Se stai progettando di metterti in proprio lavorando come libero professionista, per essere sempre soddisfatto della tua scelta, è molto importante che tu sappia come muoverti. Per saperne di più segui il webinar gratuito registrandoti subito da qui: 

Iscriviti al webinar
e scopri come si diventa Digital Freelance

webinar freelance digitale

Internet Web Archive: limiti e alternative

Sul portale di Internet Web Archive l’avvio della ricerca, come hai visto è piuttosto semplice. Tuttavia scoprirai che ci sono altri aspetti che rendono l’esperienza non ideale. Uno dei limiti di questo archivio gratis e aperto a tutti è il non essere multilingue; quindi non potrai usare l’italiano per effettuare una search. L’utilizzo delle sezioni dell’interfaccia potrebbe non essere abbastanza intuitivo e il caricamento risultare piuttosto lento. Soprattutto, ti accorgerai subito che alcune pagine, anche se presenti, non sono disponibili per la consultazione.

Questo può succedere perché la pagina è molto giovane e il crawler della piattaforma non l’ha ancora scansionata oppure non riesce a raggiungere quei dati del sito di cui gli editori limitano la disponibilità. Le pagine risultano bloccate dallo standard di esclusione robots.txt per cui il proprietario del sito può optare per evitare che il crawler di Wayback Machine lo scansioni e lo registri nelle raccolte dell’archivio web. Puoi interrompere la scansione o l’archiviazione anche se non hai scelto subito il protocollo di esclusione. Se scrivi a info@archive.org, il crawler, nel rispetto della volontà di esclusione, non campionerà più la tua pagina. Nel caso la richiesta di esclusione venga fatta a scansione già avvenuta, l’interfaccia non renderà pubblici i dati raccolti. 

Potresti non avere una riproduzione del sito fedele al cento per cento, perché a volte l’applicazione non è in grado di preservare file grafici o allegati durante la scansione. Tieni a mente che registrare una pagina su un qualsiasi archivio online non può essere considerato del tutto sostitutivo rispetto a un backup. Se fai il backup sei certo di mettere al sicuro tutti i dati e non solo il contenuto statico e il design della pagina.

Questi ostacoli rendono molto parziale la possibilità di campionamento delle pagine digitali. Non si può essere sicuri che tutto il World Wide Web sia presente nelle raccolte di Internet Archive

Ti stai chiedendo se esistano delle alternative alla Wayback Machine? La risposta e sì. Ci sono dei servizi di archiviazione con funzionalità affini a quelle dell’archivio web per eccellenza. In alcuni casi presentano soluzioni integrative rispetto alle possibilità offerte da Archive.org. Con la cache di Google puoi vedere com’era una pagina dopo l’ultima scansione del crawler tornando indietro al massimo di qualche settimana.

Poi ci sono archivi con funzionalità più simili a Internet Archive come Stillio, Archive.ph e Pagefreezer con cui puoi richiedere gli screenshot di uno o più siti web. Sono strumenti proprietari a pagamento e non funzionano in automatico ma solo dietro richiesta da parte di un utente che voglia monitorare dei siti in particolare. Tra i più validi anche Archive.today, Heritrix, Web Archiving Integration Layer (WAIL), Fluxguard, Perma.cc, Actiance, UK Web Archive e Memento Time Travel.

Conclusioni

Il portale Internet Web Archive è una miniera inesauribile, gratuita e open-source, che può aiutare nella ricerche di informazioni per scrivere contenuti. È una risorsa preziosa quando vuoi indagare un argomento in profondità; quello che produrrai sarà un contenuto originale e di qualità che verrà apprezzato dagli utenti e premiato dai motori di ricerca.

Allo stesso tempo, è un tool strategico utile per l’analisi dei competitor. Puoi vedere, ad esempio, come il tuo concorrente abbia modificato contenuti, interfaccia e struttura del suo sito e se sia stato un vantaggio per il suo business. Fare una ricerca con Wayback Machine è molto utile anche per le tue indagini SEO, se lavori come UX design, se gestisci un sito e, se fai consulenza come freelance, ti aiuta a mostrare ai clienti il lavoro svolto.

Qualunque sia la tua professione nel digital marketing, il servizio Internet Archive può essere uno valido alleato nel tuo lavoro. Tu come hai deciso di utilizzarlo?

Contattaci per sapere di più su Internet Web Archive
e i professionisti che lo utilizzano

RICHIEDI INFORMAZIONI

Potrebbero interessarti anche i seguenti articoli: 

scopri come fare content marketing imparare facendo metodologia lavoro che ti permette di avere molto tempo libero nel digitale

Webinar Gratuito – Crea la tua Agenzia con l’IA

SCARICA UNO TRA OLTRE 30 EBOOK

Aumenta la Tua Conoscenza gratuitamente sugli argomenti del Digital Marketing.
Scarica in basso il tuo e-book

"*" indica i campi obbligatori

Hidden
Questo campo serve per la convalida e dovrebbe essere lasciato inalterato.

Recensioni Digital Coach su Google


Fai il Test sulla Tua Professione ideale


Esercitazioni Live 100% Pratica Operativa


PARTECIPA AD UNA PRESENTAZIONE DI ORIENTAMENTO

Presentazione di orientamento Open Day Digital Coach

2 Commenti

  1. Paola Franchi

    Bellissimo articolo Flora, di quelli da salvare in preferiti e rileggere di frequente perchè ricco di informazioni Contenuto di grande valore che consente di approfondire un argomento poco conosciuto e che fornisce l’opportunità di scoprire un servizio ancora poco utilizzato (e che può fare davvero la differenza).

  2. Anastasia

    Mi sa che darò un’occhiata a siffatto archivio, poiché mi piace molto avere tutto a portata di mano – tramite il mio smartphone -, potendo leggere, o studiare, da ovunque io mi trovi. E tutto questo, insieme a molto altro, secondo me è proprio il bello del digitale :D

Invia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *