Controllare l’Indicizzazione di Google

Pubblicato da Yuri Carlenzoli | 23 Luglio 2009

Questi sono i metodi per controllare l'indicizzazione di un sito web, forum o blog, non tutti scontati perchè ho trovato un metodo alternativo interessante.
google-bot-indicizzazione-robot

Per qualsiasi sito web, blog o forum che sia è indispensabile essere trovato su internet, per questo è indispensabile che i motori di ricerca possano accedere alle varie sezioni del sito, per dire ai motori di ricerca se possono accedere o no al sito si usa il file robots.txt, un meta tag nell'heading della pagine e esclusivamente per google un commento nel codice.

Mi scuso per chi ne sa già qualcosa perchè sono cose dette e ridette da 1/2 internet però c'è anche chi non le sa e sarò molto conciso, il tip che metto alla fine comunque non non è per niente scontato.

Controllare la scansione e l'indicizzazione tramite robots.txt.

Il robots.txt è un semplice file di testo che contiene indicazioni per i motori di ricerca. Si può definire cosa devono e cosa non devono scansionare/indicizzare, qui faccio gli esempi per bloccare o consentire l'accesso.

Per permettere agli spider dei motori di ricerca di scansionare tutto il sito si farà un file di testo chiamato robots.txt, lo si metterà nella cartella principale del sito e gli si aggiungerà:

User-agent: *
Disallow:

Per bloccare la scansione di tutto:

User-agent: *
Disallow: /

Per bloccare la scansione solo della directory dove si contengono file segreti che si chiama "secret":

User-agent: *
Disallow: /secret/

Qui c'è il sito ufficiale del robots.txt, per conoscere la lista degli user agent da mettere al posto dell'asterisco, la corretta sintassi, ecc..

Da tenere presente: tramite il robots.txt si blocca la scansione, non l'indicizzazione. Però, se una pagina o directory è nuova, non ancora indicizzata, non linkata da altre pagine web, bloccandone la scansione si bloccherà anche l'indicizzazione.

Controllare l'indicizzazione tramite meta tag

Ove non fosse possibile inserire files sul server, come per esempio chi usa Blogger od altri hosting gratuiti è possibile mettere il meta robots direttamente nell'heading delle pagine web. Ovvero nella sezione alta della pagina web che comincia con <head> e finisce per </head> Ogni pagina dovrà averlo.

Per permettere di indicizzare la pagina web il meta robots sarà, ad esempio:

<meta name="robots" content="index,follow">

Per bloccare tutto invece:

<meta name="robots" content="noindex,nofollow">

Tramite il meta robots, siccome è relativo alla pagina non si può decidere che directory indicizzare e quali no ma si possono mettere altri parametri, questa è una bella guida per il meta robots ed anche per l'header HTTP X-Robots-Tag.

Dopo aver detto i metodi comuni per consentite o bloccare l'indicizzazione da parte dei motori di ricerca, ecco, come si può bloccare l'indicizzazione di google solo a relative parti della pagina tramite un commenti nel codice.

Controllare l'indicizzazione di Google tramite commenti nel codice HTML

Con dei commenti inseriti nel codice della pagina è possibile dire a google se si vuole evitare l'indicizzazione di qualche parte del testo in essa presente. Potrebbe essere utile se nel contenuto è presente contenuto poco pulito, per dare maggior importanza a determinati punti di una pagina web, per evitare contenuto duplicato ecc..

Se io per esempio ho una fase così formata:

Guarda quella che belle XXXX ed ha anche un bel XXXX è proprio una bella XXX.

Dove ci sono le X ovviamente sono contenuti non idonei, potrei dire a google di non indicizzare quelle parole modificando il codice della frase così:

Guarda quella che belle <!--googleoff: index-->XXXX<!--googleon: index--> ed ha anche un bel <!--googleoff: index-->XXXX<!--googleon: index--> è proprio una bella <!--googleoff: index-->XXX<!--googleon: index-->.

Questa funzione è disponibile per Google Search Appliance, la soluzione business di Google.

Di sicuro sui documenti relativi all'interno della rete si può usare, ad esempio, da wikipedia viene usato, notasi che si può inserire quando si scrive/modifica una pagina.

5 commenti su “Controllare l’Indicizzazione di Google

  1. Max90..

    Ciao Yuri,
    ti è arrivata la mail che ti avevo inviato?

    perchè non ho ricevuto nessuna risposta..

  2. yuri Autore del post

    Ti ho già risposto mi sembra, te lo dico chiaramente: hai fatto il forum...adesso te lo gestisci, più chiaro di così non potevo essere.

    Ciao Max.

  3. Max90..

    Guarda Yuri che non mi hai mai risposto, e te ne ho mandate ben 2 di e-mail..

    il portale l'ho creato ancora prima di leggere il tuo blog, chiedevo solo se volevi unirti nello staff dato che mi sembra le capacità le hai...

    non è "adesso te le gestisci", certo che lo gestisco io..sai quanti siti mi gestisco che neanche immagini per lavoro ehehe

    dicevo solo se avresti voluto far parte, assieme al resto dello staff al portale..

    Ma, evidentemente, non ti interessa.

    Ciao

  4. evilripper

    mmm ma nel file robots.txt attuale del tuo blog appaiono due sitemap mi sa che non è normale... per il resto secondo me è meglio lasciare andare i crawlers su tutto il sito.

  5. yuri Autore del post

    @evilripper, non c'è robots.txt nel mio blog visto che è in una directory ed il robots.txt dev'essere solo nella root del sito 😉

    Ciao,
    Yuri.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Moderazione dei commenti attiva. Il tuo commento non apparirà immediatamente.