INFORMATION RETRIEVAL
Cos'è, modelli e come si applica alla SEO
Oggi la ricerca delle informazioni online è diventata parte della nostra vita quotidiana. Ogni giorno solo su Google vengono effettuate 3,5 miliardi di ricerche: più o meno un utente ne effettua 1,4 al giorno a testa. Sei atterrato su questa pagina grazie a una ricerca che Google ha effettuato in meno di un secondo.
Ma come fanno i motori di ricerca a trovare ed organizzare l’altissima mole di documenti presenti in rete?
Ciò è possibile grazie all’Information Retrieval, una disciplina studiata dagli anni ’70 ma le cui implicazioni sono cresciute in modo esponenziale con l’avvento di Internet negli anni ’90.
In questa pagina, dopo averne analizzato i modelli principali, ci concentreremo sulle tecniche di IR nella web search, l’ABC di ogni SEO specialist che si rispetti. Comprendere in che modo i motori di ricerca recuperano e organizzano le informazioni è infatti fondamentale per saper creare dei contenuti utili e rilevanti che si posizionino bene sulla SERP.
Il corso SEO specialist di Digital Coach® è pensato proprio per chi vuole intraprendere una carriera in questo settore.
Cos’è l’Information Retrieval
L’Information Retrieval si occupa della:
- rappresentazione,
- memorizzazione
- e organizzazione dell’informazione testuale.
Lo scopo è quello di soddisfare il bisogno informativo dell’utente. In parole più semplici, data una collezione di documenti, lo scopo dell’IR è di restituire all’utente dei risultati utili alla sua richiesta di informazioni, selezionando tra tutti i documenti i più rilevanti e pertinenti alla sua ricerca.
Inoltre compito dell’Information Retrieval è valutare i contenuti, allo scopo di offrire all’utente non una mera presentazione di dati, ma una successione in cui, idealmente, il primo risultato è la risorsa più utile da consultare in risposta alla domanda.
Prima ancora che nella web search, sistemi di IR si trovano in molte università e biblioteche pubbliche allo scopo di facilitare l’accesso a libri, cataloghi e altre pubblicazioni che si ha necessità di trovare e consultare.
Due concetti sono fondamentali quando si parla di Information Retrieval:
- Query: stringhe di parole chiave che l’utente digita sul motore di ricerca per esprimere il suo bisogno informativo.
- Oggetto: un documento che contiene informazioni che potrebbero essere la risposta alla richiesta dell’utente. Un documento, una pagina web, ma anche un contenuto multimediale, sono tutti oggetti di dati informativi.
L’Information Retrieval è un campo interdisciplinare molto vasto, che abbraccia materie diverse come la psicologia cognitiva, l’architettura informativa, la filosofia (ontologia), il design, la linguistica e la semiotica e infine l’informatica.
Modelli di Information Retrieval utilizzati
Per trovare e ordinare un grande numero di informazioni è necessario rappresentare i documenti in qualche modo.
Nel corso del tempo sono stati sviluppati diversi modelli di Information Retrieval, i più classici sono quello booleano, vettoriale e probabilistico.
Questi non si escludono a vicenda, anzi, i modelli esistenti sono più che altro una combinazione dei tre, ma in questa sede li vediamo singolarmente per comprenderne meglio i meccanismi.
Booleano
Il modello booleano è stato il primo ad essere utilizzato nell’IR ed è anche quello più semplice: si basa sull’algebra booleana e sulla teoria degli insiemi.
I documenti vengono rappresentati sotto forma di insiemi definiti di termini. Le query vengono formulate attraverso espressioni booleane, cioè un elenco di termini unito dalle congiunzioni AND, OR, NOT.
Ad esempio, se sto cercando un master digital marketing con sede a Milano, avrò la necessità di trovare dei documenti che contengano entrambe le key words: “master digital marketing AND Milano”.
Questo modello restituisce i risultati con un criterio di decisione binaria, senza sfumature di rilevanza: per il booleano un documento può solo essere rilevante oppure no.
Il limite di questo modello consiste nel fatto che una query può restituire migliaia di risultati, ma senza alcun grado di rilevanza del documento che possa orientare l’utente nella consultazione.
E di certo non tutti gli utenti sono disposti a sfogliare migliaia di voci per trovare quello che cercano.
Inoltre ad ogni riformulazione della query si assiste a un ricalcolo dell’intero risultato, comportando problemi prestazionali dell’hardware.
Vettoriale
Il modello vettoriale di Information Retrieval parte proprio dal concetto limite del sistema booleano, ossia che adottare un criterio binario di rilevanza/non rilevanza sia troppo limitativo nell’organizzazione dei documenti.
Nel sistema vettoriale ad ogni termine negli oggetti e nelle query viene assegnato un peso, espresso con un numero reale positivo. I documenti e le query vengono visualizzati come vettori all’interno di uno spazio n dimensionale.
A questo punto come si svolge la ricerca?
Viene calcolato il grado di similarità tra il vettore rappresentante la query e tutti i vettori che esprimono i singoli documenti. Questo calcolo viene effettuato prendendo come riferimento una misura, ad esempio il coseno dell’angolo tra i due vettori (che esprime la “vicinanza” tra i due vettori).
I documenti con il più alto grado di similarità con la query hanno più probabilità di rispondere alla ricerca dell’utente, e perciò vengono visualizzati tra i primi risultati nella SERP, nel caso della web search.
Stai cercando un corso SEO con certificazione?
Scegli quello che fa per te
SCOPRI I CORSI SEO IN PARTENZA
Probabilistico
Il modello probabilistico, come dice il termine stesso, si basa sulla teoria della probabilità.
È un modello avanzato di IR in cui i risultati vengono ordinati in base alla loro probabilità di corrispondere alle intenzioni di ricerca.
Il modello calcola il grado di possibilità che un contenuto sia rilevante per l’utente basandosi sul cosiddetto Relevance Feedback: ad esempio gli utenti vengono esortati a valutare i risultati così che il sistema possa ricalcolare la lista alla prossima identica query, con risultati possibilmente migliori.
Lo svantaggio principale di questo processo è che il sistema da per scontato che l’utente voglia collaborare fornendo un feedback ad ogni ricerca.
Inoltre, la teoria parte dal presupposto che l’utente valuti i contenuti in modo indipendente l’uno dall’altro, cioè consideri ogni risultato come se fosse il primo che visualizza.
In realtà l’utente valuta sempre l’utilità di un’informazione in base ai risultati che ha visionato prima, nella logica di un confronto e interrelazione dei contenuti.
IR e SEO: come funziona la web search
Finora abbiamo parlato di modelli in generale, ma ora concentriamoci sul campo di applicazione oggi più utilizzato di IR, vale a dire i motori di ricerca usati dagli utenti per trovare le informazioni online: in poche parole, come funziona l’Information Retrieval nella web search.
Capire in che modo gli algoritmi di Google recuperano dall’infinità della rete le informazioni per rispondere alle nostre domande non solo è affascinante, ma è anche un presupposto fondamentale per la disciplina SEO (Search Engine Optimization).
Senza capire il meccanismo all’origine, difficilmente riusciremo a creare dei contenuti non solo pertinenti alle intenzioni di ricerca, ma anche facilmente recuperabili da Google.
Se il motore di ricerca ha difficoltà a trovare un contenuto e indicizzarlo, le probabilità che esso si posizioni tra i primi risultati nella SERP sono pressoché nulle: e si sa, “il miglior posto per nascondere un corpo è la seconda pagina dei risultati di Google”.
Circa l’85% degli utenti si ferma alla prima pagina, mentre quasi nessuno si spinge oltre i primi risultati, a meno che non abbia un forte bisogno informativo.
A questo proposito, non tutte le query sono uguali. Possono essere:
- Informazionali: l’utente vuole scoprire qualcosa di nuovo o saperne di più su un determinato argomento. Es: “posizionamento SEO”
- Navigazionali: l’utente vuole atterrare su un sito internet ben preciso. Es: “booking.com”
- Transazionali: l’utente mira a ottenere un prodotto o un servizio con la mediazione del web. È una ricerca solitamente orientata all’acquisto o al download di una risorsa. Es: “corso SEO online”, “scarpe da trekking”.
Il motore di ricerca deve necessariamente interpretare il tipo di query per mostrare dei risultati coerenti.
Vediamo dunque le tre fasi che l’Information Retrieval attraversa nella web search: crawling, indexing e ranking.
Vorresti saperne di più sulla figura professionale legata alla SEO?
Scarica GRATIS l’ebook del SEO Specialist e scopri tutte le informazioni e i segreti di questo lavoro!
"*" indica i campi obbligatori
Crawling: scansione delle pagine
Il primo passaggio che deve fare il motore di ricerca durante il processo di Information Retrieval è scoprire quali pagine esistono sul web.
Il web è come un’enorme biblioteca in continua espansione senza un archivio centrale, perciò Google deve continuamente scansionarlo alla ricerca di nuove pagine, con un’operazione nota come crawling.
Per fare ciò si avvale di web crawler (o GoogleBot), software che scansionano le nuove pagine disponibili al pubblico e seguono i link presenti, inviando i dati trovati ai server di Google.
Alcune pagine sono già note a Google perché le ha già visitate, altre vengono scoperte attraverso un link presente su una pagina già nota, altre ancora vengono scansionate quando il proprietario di un sito invia a Google un elenco di tutte le pagine presenti (una Sitemap).
Quest’ultima è un’operazione semplice da fare attraverso Search Console e fa parte delle best practices di Search Engine Optimization da osservare quando si apre un nuovo sito.
Vuoi fare carriera nel campo SEO?
Diventa un SEO Manager certificato
CORSO SEO MANAGER CON CERTIFICAZIONE
Indexing: indicizzazione dei contenuti
Quando una pagina viene scoperta, deve essere immagazzinata in un database, e come in molti sistemi di Information Retrieval ciò avviene attraverso gli indici.
Quando digitiamo una query, essa si traduce per l’algoritmo in un’interrogazione del genere: “Restituire tutti i documenti contenenti l’insieme/la sequenza di parole X, Y, Z”.
Gli indici che ricevono queste operazioni si chiamano indici invertiti (inverted index), in quanto invece di rappresentare tutte le parole presenti in un documento, rappresentano tutti i documenti in cui è presente una determinata parola.
In sostanza ad ogni termine è associata una lista di documenti ordinata per rilevanza.
Gli indici invertiti lavorano su termini, ma cos’è di fatto un termine? Il motore di ricerca deve fare attenzione ad alcuni casi particolari, ad esempio:
- Studio: s’intende il verbo o la stanza?
- Los Angeles: due termini o uno solo?
- Il, e, di, 17654, 16/7/20: vanno indicizzati?
- Auto e automobile: è lo stesso termine o sono due diversi?
- Anti-age: Anti age? Antiage?
Questo è solo un semplice esempio dei problemi del linguaggio naturale che il motore di ricerca deve affrontare durante il processo di IR. Prima della costruzione dell’indice, perciò, deve lavorare sulla trasformazione dei documenti in termini, che avviene attraverso il processo di indicizzazione.
Processo di indicizzazione
La prima fase è quella della tokenizzazione, in cui il tokenizer scompone un documento in unità minime di analisi dette token. Vengono applicate alcune operazioni sul testo:
- eliminazione della punteggiatura
- trasformazione della maiuscole in minuscole
- eliminazione delle parole con cifre
- divisione delle parole contenenti un trattino in più parole.
Ovviamente ci sono delle eccezioni a queste regole (ad esempio, in 200 a.C. la punteggiatura è parte integrante della parola) ed è necessario gestirle.
Successivamente intervengono i moduli linguistici, il cui scopo è analizzare i token e validarli attraverso alcune operazioni:
- Eliminazione delle stopwords: articoli, congiunzioni, particelle pronominali, ecc. Sono tutte quelle parole che non hanno un significato vero e proprio e non servono per comprendere il significato di un documento. Eliminarle attenua il rumore che disturba la ricerca e rende più fluido il processo di indicizzazione.
- Stemming: riduce le parole alla loro radice, rimuovendo prefissi e suffissi e trasformando il termine da plurale a singolare.
- Thesauri: gestiscono i sinonimi attraverso dei gruppi di equivalenza predefiniti, ad esempio sofà=divano.
- Lemmatization: riduce una parola alla sua radice grammaticale, ad esempio: sono=essere
A questo punto i termini sono pronti ad essere inseriti negli indici invertiti.
Ci sono alcune tecniche di Indexing che meritano di essere analizzate nel dettaglio in questa fase di IR:
LSI (Latent Semantic Indexing)
In passato, durante l’Information Retrieval i contenuti venivano scansionati individualmente e non vi erano correlazioni tra di essi. Quando un utente digitava una parola, il motore di ricerca cercava nell’indice quali documenti la contenessero: un documento poteva averlo o non averlo (e di conseguenza passare al sistema di ranking o essere ignorato).
La tecnica di LSI (indicizzazione del contenuto semantico latente) ha migliorato molto il sistema di indicizzazione, poiché ha introdotto il concetto di campo semantico e correlazione tra documenti.
Per estrapolare il significato di un documento, oltre ad analizzare i termini in esso contenuti, la LSI si basa anche sull’associazione per significati semantici con documenti simili.
Ciò vuol dire che l’Information Retrieval considera due contenuti semanticamente vicini non solo se hanno molte parole chiave in comune, ma anche se contengono termini dello stesso campo semantico, come sinonimi e correlate.
In questo modo si cerca di andare oltre il concetto di exact match, l’esatta corrispondenza tra query e risultato.
SEO Tip: quando si scrive un contenuto, utilizzare termini sinonimi della parola chiave aiuta il motore di ricerca a individuare l’argomento trattato in modo più preciso e a valutare positivamente la pagina.
In questo modo si evita anche il cosiddetto keyword stuffing, ossia riempire tutta la pagina con le stesse parole chiave, comportamento penalizzato dai motori di ricerca.
TF/IDF (Term frequency/Inverse Document Frequency)
Per determinare l’importanza di un termine all’interno di un documento, l’Information Retrieval di Google utilizza la formula TF/IDF, dove:
- TF indica la frequenza del termine all’interno della pagina, e
- IDF il numero delle volte in cui quel termine è presente in tutti i documenti del web.
Più il valore è alto, più quella pagina si distingue dalle altre perché al suo interno compare una parola poco usata nel resto del web.
Viceversa, più il termine appare in documenti simili e più il valore tenderà a 0.
È importante comprendere che la TF/IDF non misura quanto spesso un termine appare in un singolo documento (quella è la Keyword Density), ma aiuta l’IR a capire l’importanza di una parola chiave calcolando quanto spesso viene utilizzata in rapporto a documenti simili.
In poche parole, misuera quanto specifica e rara è la keyword utilizzata.
Questo parametro aiuta Google anche a filtrare ed eliminare le stop words, in modo da scansionare un documento senza il rumore prodotto da troppi termini che non hanno un significato vero e proprio.
Query Expansion
La Query Expansion, come dice il termine stesso, è un metodo di ricerca che allarga il campo di termini utilizzati nella query, utilizzando un elenco di sinonimi attraverso thesauri o utilizzando le co-occorrenze.
Esempio di ricerche correlate
Queste ultime sono alla base della comprensione associativa del motore di ricerca: l’algoritmo non interpreta il significato ma si limita a intuire l’argomento generale mediante l’analisi delle relazioni fra le parole di un documento, e confrontandolo con quelle del database di riferimento.
Nel momento in cui questo risulta molto simile, l’algoritmo associa il testo al campo semantico.
Usando un thesaurus, per ogni parola digitata nella query, la si espande utilizzando correlate e sinonimi presenti nel thesaurus.
In particolare Google Query Expansion opera in questo modo:
- Word stemming: computazionale = computer
- Acronimi: FAO = Food and Agriculture Organization
- Errori di digitazione: facbook = Facebook
- Traduzione
- Ricerche correlate.
Richiedi un coaching Strategico gratuito sulla SEO
Il mestiere del SEO specialist richiede una formazione continua e un costante aggiornamento per ottimizzare le pagine in modo efficace, far sì che vengano trovate attraverso l’indicizzazione e si posizionino tra i primi risultati nella SERP.
Capire in che modo funziona l’Information Retrieval, quali sono i suoi modelli e le sue tecniche è dunque un requisito fondamentale per un bravo SEO: soltanto attraverso le basi si possono capire le future evoluzioni dell’algoritmo e le trasformazioni di questa importante branca dell’informatica, oggi così presente nella vita di miliardi di utenti.
Hai un’attività online e vorresti che i tuoi contenuti si posizionassero meglio sulla SERP, portando più traffico al tuo sito?
Prenota la consulenza gratuita per ricevere consiglio da un professionista