Come influenzare la ricerca su Google
Strisciando sul web
Prima di tutto è necessario sapere come robot di ricerca eseguono la scansione del web. Processo di scansione di Google inizia con un elenco di URL di pagine web, generato da processi di scansione precedenti. Da qui cominciano l’indicizzazione e a seguire(leggere) i link su queste pagine web.
I Crawlers si comportano come un browser web. Richiede una pagina web dal server, si scarica la pagina e l’invia all’indice di Google. Trovano cosi’queste e nuove pagine aggiungendo i link che trovano in queste pagine all’elenco delle pagine su cui strisciare. I link sono la base per tutti crawling(strisciate) e quindi fondamentali per dirigere i crawler.
Trovare il tuo sito
Come si fa quindi a dirigere i crawler alle tue pagine importanti? Beh, prima di tutto è necessario sapere dove il crawler molto probabilmente entrerà tuo sito web. Quando si inseriscono nel tuo sito, stanno seguendo i link pure loro. Entrano nel tuo sito nelle pagine che hanno i link in entrata da pagine esterne. Poiché la maggior parte dei siti hanno la quota maggiore di link in entrata che puntano alla loro home page, i crawler saranno più spesso tendenti ad avviare la scansione del tuo sito in questa pagina. Il primo modo importante per indirizzare i crawler di altre pagine importanti è puntando link in entrata direttamente a queste pagine. Vuoi indicizzare una pagina che per te è fondamentale? Metti Un link ad essa da una fonte esterna. Non è possibile farlo? Almeno linkala dalla Home del tuo sito.
La scansione del tuo sito web
Ora sappiamo che il signor crawler molto probabilmente inizia la scansione dalla home del tuo sito. Ma quali collegamenti segue per primo? Fondamentalmente aggiunge i collegamenti che vede in cima alla pagina da scansionare.
In research on the Googlebot di Rolf Broer si trovano alcuni fattori interessanti che influenzano la probabilità che un collegamento sia scansionato.
Un fattore importante che è stato trovato è la lunghezza dell’URL. Fondamentalmente più breve è l’URL, più importante è per il crawler.
Altri risultati di questa ricerca dimostrano che l’aggiunta della semantica, come intestazioni (h1 – h6) ad un link non influenzano la probabilita ‘di un link di essere seguito. I Links in “pangrattato” invece, tendono a essere ignorati in un processo di scansione. Forse perché il crawler presuppone che sia già stato scansionato o forse preferisce trovare le pagine più profonde.
Scansione – la frequenza e la profondità
La frequenza di scansione e la profondità sono determinate da Google stesso, non ci sono modi concreti per istruire Google su quanto spesso deve eseguire la scansione del sito web o la profondità. Tuttavia ci sono fattori che influenzano la frequenza di scansione di Google e profondità.
Citando Matt Cutts: “Il modo migliore di pensare a riguardo è che il numero di pagine che abbiamo mandato in scansione è approssimativamente proporzionale al nostro PageRank. Quindi, se avete un sacco di link in entrata sulla pagina principale, ci sarà scansionata di frequente. Quindi la tua pagina principale può collegarsi ad altre pagine, e quelle che otterrano PageRank e noi provvederemo a scansionare anche quelli. Il PageRank tende a diminuire man mano che si va in profondita nel sito”(Fonte: Stonetemple.com).. Nella ricerca precedentemente menzionata sul Googlebot questa affermazione si è rivelata vera.
In quella stessa ricerca hanno anche scoperto che l’invio di una sitemap ha avuto una grande influenza su quante e quali pagine andavano a scansione. “Googlebot ha posto le pagine che sono state aggiunte alla Google sitemap in cima alla coda di scansione. [..] Ma ciò che è veramente notevole è l’aumento estremo di velocità di scansione. “
La qualità di pagine trovate influenza anche il numero di pagine scansionate in un dominio. Matt Cutts: “Se ci sono un gran numero di pagine che consideriamo di basso valore, allora potrebmmo non scansionare tante pagine di quel sito”. La bassa qualità, in questo caso potrebbe essere dettata da pagine con pochi contenuti, soprattutto se piene di collegamenti o contenuto duplicato.
Istruzioni per la scansione del tuo sito web
Oltre alle regole algoritmiche il crawler segue per la scansione del tuo sito web, ci sono alcuni modi per istruire i crawler.
HTTP Headers
Le intestazioni HTTP sono il modo principale per comunicare con i crawler. Per ogni richiesta un crawler rende al server restituisce un codice di stato HTTP. Il codice di stato dice qualcosa al crawler riguardo la richiesta.
Sia che si tratti di uno stato 404 che dice la pagina non può essere trovato o 301 che dice che la pagina è stata trasferita definitivamente a un URL diverso. E’ una chiara maniera di comunicare il modo in cui un crawler deve gestire la pagina specifica richiesta. E’ anche possibile dire ad un crawler se una pagina è stata aggiornata dalla sua ultima visita utilizzando la giusta risposta all’If-Modified-Since header HTTP inviato dal crawler. Quando restituisce un codice di stato “304 Non modificato” il crawler può utilizzare le risorse per indicizzare un’altra pagina.
Robots.txt e meta robots
A volte non si desidera che alcune pagine si indicizzino. Ci sono diversi modi per istruire i crawler su quali pagine si può eseguire la scansione e / o indicizzare. Prima di tutto c’è il file robots.txt. Robots.txt è un guardiano per l’accesso al tuo sito web da parte dei crawler. In questo file è possibile specificare di quali cartelle o URL il crawler non può eseguire la scansione. Questo è un ottimo modo per orientare la capacità di scansione delle pagine irrilevanti a più pagine importanti e migliorare il posizionamento Google.
Sitemap.xml
Una sitemap XML è una lista di URL di un sito destinato per i crawler dei motori di ricerca per trovare le pagine più importanti. Google utilizza Sitemaps “per conoscere la struttura del tuo sito, che ci permetterà di migliorare il nostro programma crawler e fare un lavoro migliore di scansione del tuo sito in futuro.” Non c’è alcuna prova reale che Google utilizzi priorità definite nelle sitemap per dare la priorità alle pagine da scansionare. In precedenza abbiamo già discusso l’impatto delle Sitemaps sulla velocità di scansione e profondità.
RSS-feed
Anche se non è davvero detto molto spesso vengono utilizzate da Google RSS / Atom-feed per scoprire nuovi contenuti. “Utilizzare i feed per la scoperta ci permette di posizionare queste nuove pagine in vista più velocemente rispetto ai metodi tradizionali di crawling. Possiamo usare molte fonti potenziali per accedere agli aggiornamenti di feed tra cui Reader, servizi di notifica, o striscia diretta di feed “(Fonte: Official Google Webmaster Central Blog).
Google Webmaster Tools
Google Webmaster Tools fornisce ai proprietari del sito la possibilità di dare qualche indicazioni in più per crawler web. Qui è possibile definire la velocità di scansione durante il processo di scansione. Questo è un modo per dire sostanzialmente crawler di Google che possono fare richiesta più o meno sul server del sito, aumentando o diminuendo la freschezza e il numero di pagine scansionate e diminuire o aumentare il traffico sul vostro server. Essa non pregiudica la frequenza con cui un sito è sottoposto a scansione.
Vuoi aiuto? Hai domande?, curiosità Contattaci subito per sapere di più o ricevere un offerta
Lasciaci un messaggio qui!
Lascia un Commento
Vuoi partecipare alla discussione?Sentitevi liberi di contribuire!