Come estrarre dati da una pagina web
Questa pagina è pensata apposta per dare una risposta alla query che hai digitato su Google. Estrarre dati da una pagina web è una tecnica che in inglese viene definita web scraping (dal verbo “to scrape” che significa grattare, raschiare, racimolare). Il web scraping è un’attività simile a quella compiuta abitualmente dai crawler di Google per la scansione della rete e consiste nel copiare i contenuti di un sito per averli a propria disposizione, ad esempio su un file excel. L’estrazione avviene attraverso l’analisi del codice delle pagine e può variare in base al dato che si vuole scaricare (ad esempio testo o tabelle).
L’analisi e l’interpretazione dei dati ti appassiona? Scopri la Certificazione Web Analytics Specialist!
Strumenti per estrarre dati da una pagina web
Attraverso l’utilizzo di web scraping tool specifici è possibile automatizzare questa pratica. Andiamo perciò a vedere quali sono i principali strumenti gratuiti per l’estrazione dati da una pagina html.
Google Sheets
Il sistema forse più sottovalutato, ma molto efficace per estrarre dati da una pagina html in modo efficace è lo strumento Google Sheets (o Fogli Google), disponibile gratuitamente per chiunque su Google Drive attraverso il proprio account. Si tratta in pratica della versione free di Excel, quindi di tool dedicato ai fogli di calcolo, che non nasce propriamente come sistema di scraping, ma che grazie a una serie di funzioni consente l’importazione di vari tipi di dati strutturati.
Nello specifico, per estrarre dati da un sito web è possibile portarsi su Google Drive e aprire un nuovo documento Google Sheets. Quindi, dopo aver selezionato la prima cella del foglio di calcolo, si potrà impostare una formula per l’importazione dei dati.
Queste sono le formule più utilizzate (per “link” si intende l’URL della pagina che si desidera analizzare):
- =importdata(”link”) per copiare tutti i dati presenti sulla pagina
- =importfeed(“link feed”) per importare i feed della pagina
- =importhtml(“link”;“table”) per estrarre le tabelle dalla pagina.
Accresci il tuo business grazie al Web Marketing!
Scopri come sviluppare strategie vincenti di vendita online scaricando l’Ebook Gratuito
ParseHub
ParseHub è un software desktop – ossia scaricabile sul proprio computer – disponibile per sistemi Windows, Mac e Linux. Si tratta di un programma di analisi (dall’inglese “to parse”, che significa appunto analizzare) che nella propria versione free consente la gestione di 5 progetti in contemporanea e l’estrazione dati da 200 pagine in 40 minuti.
Data Miner
Data Miner è un web scraping tool che può essere integrato con Google Chrome. Attraverso l’estensione per browser permette di selezionare in maniera visuale i dati da estrarre da una singola pagina. La versione gratuita include la possibilità di estrarre dati da 500 pagine al mese.
Web Scraper
Web Scraper è un altro strumento disponibile gratuitamente come estensione di Google Chrome. Consente di creare una sitemap del sito dal quale si desidera scaricare dati e di selezionare quindi i vari elementi per avere un’anteprima del risultato. Dopo la creazione della sitemap è sufficiente lanciare l’estrazione per esportare i dati dal web su un file csv.
Octoparse
Octoparse è un software semplicissimo da usare nella propria versione free. È dotato di un’interfaccia che guida l’utente nell’estrazione dati in 3 semplici passaggi:
- inserimento dell’URL del sito che si desidera analizzare
- selezione dei dati da estrarre
- avvio dell’estrazione e download dei dati in formato html, csv o txt.
OutWit Hub
OutWit Hub è un’estensione per Firefox installabile direttamente sul browser per scaricare dati da internet. Attualmente è disponibile soltanto in inglese e in francese, ma può essere installato su ogni tipo di sistema.
Perché estrarre dati da una pagina web
Dopo aver visto quali sono i principali software per l’estrazione di dati da una pagina web, passiamo ad un’analisi delle attività per le quali questa pratica è indispensabile, che possono essere principalmente:
- estrazione di testi dai social per compiere una sentiment analysis e comprendere l’opinione dominante su un determinato argomento
- estrazione di keyword per analisi semantiche e keyword research
- estrazione dei prezzi di un prodotto per determinare il prezzo medio di mercato e monitorare la concorrenza
L’analisi e l’interpretazione dei dati riveste un ruolo sempre più importante per le aziende nell’ambito del web product management. Digital Coach offre uno specifico programma di Certificazione Web Analytics Specialist, pensato per imparare a padroneggiare Google Analytics e altri strumenti indispensabili in ambito di web marketing.
Scopri se hai le attitudini e il potenziale per diventare Web Analytics Specialist.
Fai il Test attitudinale!
Il Web Analytics Specialist analizza e interpreta i dati relativi a canali web per aiutare i propri clienti a definire e ottimizzare la loro digital strategy. Se sei interessato ai nostri corsi e vuoi saperne di più sulle date di partenza e sulle modalità di frequenza, non esitare a contattarci!
In alternativa, compila il form sottostante!