Controllare l’Indicizzazione di Google

Pubblicato da Yuri Carlenzoli | 23 luglio 2009

Questi sono i metodi per controllare l'indicizzazione di un sito web, forum o blog, non tutti scontati perchè ho trovato un metodo alternativo interessante.

google-bot-indicizzazione-robot

Per qualsiasi sito web, blog o forum che sia è indispensabile essere trovato su internet, per questo è indispensabile che i motori di ricerca possano accedere alle varie sezioni del sito, per dire ai motori di ricerca se possono accedere o no al sito si usa il file robots.txt, un meta tag nell'heading della pagine e esclusivamente per google un commento nel codice.

Mi scuso per chi ne sa già qualcosa perchè sono cose dette e ridette da 1/2 internet però c'è anche chi non le sa e sarò molto conciso, il tip che metto alla fine comunque non non è per niente scontato.

Controllare l'indicizzazione tramite robots.txt.

Il robots.txt è un semplice file di testo che contiene indicazioni per i motori di ricerca, si può definire cosa devono e cosa non devono scansionare/indicizzare, qui faccio gl'esempi per bloccare o consentire l'accesso.

Per permettere agli spider dei motori di ricerca di indicizzare tutto il sito si farà un file di testo chiamato robots.txt, lo si metterà nella cartella principale del sito e gli si aggiungerà:

User-agent: *
Disallow:

Per bloccare l'indicizzazione di tutto:

User-agent: *
Disallow: /

Per bloccare l'indicizzazione solo della directory dove si contengono file segreti che si chiama "secret":

User-agent: *
Disallow: /secret/

Qui c'è il sito ufficiale del robots.txt, per conoscere la lista degl'user agent da mettere al posto dell'asterisco, la corretta sintassi, ecc., qui c'è una bella guida per il robots.txt.

Controllare l'indicizzazione tramite meta tag

Ove non fosse possibile inserire files sul server, come per esempio chi usa blogger od altri hosting gratuiti è possibile mettere il tag robots direttamente nell'heading delle pagine web (la sezione che comincia per e finisce per , ogni pagina dovrà averlo, per permettere di indicizzare il meta robots sarà:

<meta name="robots" content="index,follow">

Per bloccare tutto invece:

<meta name="robots" content="noindex,nofollow">

Tramite il meta robots, siccome è relativo alla pagina non si può decidere che directory indicizzare e quali no ma si possono mettere altri parametri, questa è una bella guida per il meta robots.

Continua la pagina Successiva...

5 commenti su “Controllare l’Indicizzazione di Google

  1. Max90..

    Ciao Yuri,
    ti è arrivata la mail che ti avevo inviato?

    perchè non ho ricevuto nessuna risposta..

  2. yuri Autore del post

    Ti ho già risposto mi sembra, te lo dico chiaramente: hai fatto il forum...adesso te lo gestisci, più chiaro di così non potevo essere.

    Ciao Max.

  3. Max90..

    Guarda Yuri che non mi hai mai risposto, e te ne ho mandate ben 2 di e-mail..

    il portale l'ho creato ancora prima di leggere il tuo blog, chiedevo solo se volevi unirti nello staff dato che mi sembra le capacità le hai...

    non è "adesso te le gestisci", certo che lo gestisco io..sai quanti siti mi gestisco che neanche immagini per lavoro ehehe

    dicevo solo se avresti voluto far parte, assieme al resto dello staff al portale..

    Ma, evidentemente, non ti interessa.

    Ciao

  4. evilripper

    mmm ma nel file robots.txt attuale del tuo blog appaiono due sitemap mi sa che non è normale... per il resto secondo me è meglio lasciare andare i crawlers su tutto il sito.

  5. yuri Autore del post

    @evilripper, non c'è robots.txt nel mio blog visto che è in una directory ed il robots.txt dev'essere solo nella root del sito 😉

    Ciao,
    Yuri.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Moderazione dei commenti attiva. Il tuo commento non apparirà immediatamente.