crawler illustrazione

Indice

Cos’è un web crawler?

Un web crawler, crawler o web spider, è un programma per computer utilizzato per cercare e indicizzare automaticamente i contenuti di siti Web e altre informazioni su Internet. Questi programmi, o bot, sono più comunemente utilizzati per creare voci per un indice di motore di ricerca.

I web crawler esplorano sistematicamente le pagine Web per scoprire di cosa tratta ogni pagina del sito Web, in modo che queste informazioni possano essere indicizzate, aggiornate e recuperate quando un utente effettua una query di ricerca. Altri siti Web utilizzano bot di web crawling durante l’aggiornamento dei propri contenuti Web.

I motori di ricerca come Google o Bing applicano un algoritmo di ricerca ai dati raccolti dai web crawler per visualizzare informazioni e siti Web pertinenti in risposta alle ricerche degli utenti.

Se un’organizzazione o il proprietario di un sito Web desidera che il proprio sito Web venga classificato in un motore di ricerca, deve prima essere indicizzato. Se le pagine Web non vengono scansionate e indicizzate, il motore di ricerca non può trovarle organicamente.

I web crawler iniziano a scansionare un set specifico di pagine note, quindi seguono i collegamenti ipertestuali da quelle pagine a nuove pagine. I siti Web che non desiderano essere scansionati o trovati dai motori di ricerca possono utilizzare strumenti come il file robots.txt per richiedere ai bot di non indicizzare un sito Web o di indicizzarne solo alcune parti.

L’esecuzione di audit del sito con uno strumento di scansione può aiutare i proprietari di siti Web a identificare link interrotti, contenuti duplicati e titoli duplicati, mancanti o troppo lunghi o corti.

Come funzionano i web crawler?

I web crawler funzionano partendo da un seed, o elenco di URL noti, esaminando e quindi categorizzando le pagine web. Prima di esaminare ogni pagina, il web crawler esamina il file robots.txt della pagina web, che specifica le regole per i bot che accedono al sito web.

Queste regole definiscono quali pagine possono essere scansionate e i link che possono essere seguiti.

la struttura base di un crawler che evidenzia le diverse fasi del suo lavoro scansione, archiviazione index, recupero dati

Per arrivare alla pagina web successiva, il crawler trova e segue gli hyperlink che compaiono. L’hyperlink che il crawler segue dipende da policy definite che lo rendono più selettivo nell’ordine in cui il crawler deve seguire. Ad esempio, le policy definite possono includere quanto segue:

  • quante pagine sono collegate a quella pagina;
  • il numero di visualizzazioni di pagina; e
  • l’autorità del marchio.

Questi fattori indicano che una pagina potrebbe avere informazioni più importanti per l’indicizzazione.

Leggi anche: come funziona un motore di ricerca

Quando si trova su una pagina web, il crawler memorizza i dati descrittivi e di copia chiamati meta tag, quindi li indicizza affinché il motore di ricerca esegua la scansione delle parole chiave. Questo processo decide quindi se la pagina verrà visualizzata nei risultati di ricerca per una query e, in tal caso, restituisce un elenco di pagine Web indicizzate in ordine di importanza.

Nel caso in cui il proprietario di un sito Web non invii la propria mappa del sito ai motori di ricerca per la scansione del sito, un web crawler può comunque trovare il sito Web seguendo i link dei siti indicizzati adesso collegati.

Esempi di web crawler

I motori di ricerca più popolari hanno i propri web crawler che utilizzano un algoritmo specifico per raccogliere informazioni sulle pagine Web. Gli strumenti dei web crawler possono essere basati su desktop o cloud. Ecco alcuni esempi di web crawler utilizzati per l’indicizzazione dei motori di ricerca:

  • Amazonbot è il web crawler di Amazon.
  • Bingbot è il crawler del motore di ricerca di Microsoft per Bing.
  • DuckDuckBot è il crawler del motore di ricerca DuckDuckGo.
  • Googlebot è il crawler del motore di ricerca di Google.
  • Yahoo Slurp è il crawler del motore di ricerca di Yahoo.
  • Yandex Bot è il crawler del motore di ricerca Yandex.

Perché i web crawler sono importanti per la SEO

L’ottimizzazione per i motori di ricerca (SEO) è il processo di miglioramento di un sito Web per aumentarne la visibilità quando le persone cercano prodotti o servizi. Se un sito Web presenta errori che ne rendono difficile la scansione o non può essere scansionato, la sua classifica nella pagina dei risultati del motore di ricerca (SERP) sarà inferiore o non verrà visualizzato nei risultati di ricerca organici. Ecco perché è importante assicurarsi che le pagine Web non abbiano link interrotti o altri errori e consentire ai bot dei web crawler di accedere ai siti Web e non bloccarli.

Allo stesso modo, le pagine che non vengono scansionate regolarmente non rifletteranno alcuna modifica aggiornata che potrebbe altrimenti aumentare la SEO. La scansione regolare e la garanzia che le pagine vengano aggiornate possono aiutare a migliorare la SEO, in particolare per i contenuti sensibili al fattore tempo.

Web crawling vs. web scraping

Web crawling e web scraping sono due concetti simili che possono essere facilmente confusi. La differenza principale tra i due è che mentre il web crawling riguarda la ricerca e l’indicizzazione di pagine web, il web scraping riguarda l’estrazione dei dati trovati su una o più pagine web.

Il web scraping comporta la creazione di un bot in grado di raccogliere automaticamente dati da varie pagine web senza autorizzazione. Mentre i web crawler seguono continuamente i link in base agli hyperlink, il web scraping è solitamente un processo molto più mirato e può essere eseguito solo su pagine specifiche.

Mentre i web crawler seguono il file robots.txt, limitando le richieste per evitare di sovraccaricare i server web, i web scraper ignorano qualsiasi sforzo che potrebbero causare.

Il web scraping può essere utilizzato per scopi analitici, ovvero raccogliere dati, archiviarli e analizzarli, al fine di creare set di dati più mirati.

I bot semplici possono essere utilizzati nel web scraping, ma i bot più sofisticati utilizzano l’intelligenza artificiale per trovare i dati appropriati su una pagina e copiarli nel campo dati corretto per essere elaborati da un’applicazione di analisi. I casi d’uso basati sullo scraping web AI includono e-commerce, ricerca sul lavoro, analisi della supply chain, acquisizione di dati aziendali e ricerche di mercato.

Le applicazioni commerciali utilizzano lo scraping web per effettuare analisi del sentiment sui lanci di nuovi prodotti, curare set di dati strutturati su aziende e prodotti, semplificare l’integrazione dei processi aziendali e raccogliere dati in modo predittivo.