Tramite le API di Google è molto semplice scaricare gli errori 404 dalla Google Search Console, anche con i links che puntano alle pagine 404.
La Google Search Console è uno strumento indispensabile per i possessori di siti web, oppure per professionisti. Permette di monitorare lo stato di salute di siti internet su Google, e, si possono individuare, quindi sistemare, vari errori.
Tra cui gli errori 404 causati da pagine non più esistenti.
La comodità che ha la Search Console di essere online, accessibile da qualsiasi luogo, purtroppo un po la perde mentre si è al lavoro di ottimizzazione di un sito web.
Infatti, per gestire al meglio gli errori 404 bisogna osservare anche quali pagine che generano errore hanno links che puntano ad esse. Se avessero links provenienti da altri siti web si dovrebbe valutare quelli che potrebbero essere essere redirezionati tramite redirect 301, e se fossero link interni al sito si dovrebbero rimuovere.
Questa operazione è più comoda farla tramite un foglio di lavoro CSV che si apre con Excel o con LibreOffice mentre si modifica al sito web. Allo stato attuale la Google Search Console permette di esportare solo le pagine che danno errore 404 senza i links che puntano alle pagine.
Scaricare i 404 e links dalla Search Console con le API
C'è una buona notizia, molto semplicemente, senza scrivere alcun codice, online, tramite le API della Google Search Console si possono scaricare gli errori 404 di un sito ed i links che puntano a quelle pagine che danno errore.
Gli unici requisiti per poter scaricare gratuitamente gli errori 404 della Search Console tramite le API sono:
- Una connessione ad internet;
- Aver fatto login all'account Google dove sono registrati i siti web nella search console;
- Una suite office per visualizzare i file CSV come Microsoft Office o LibreOffice.
La prima cosa da fare per poter scaricare gli errori di scansione con risposta 404 ed i links verso gli errori è:
- Portarsi nella pagina delle API di Google;
- Abilitare l'utilizzo delle stesse tramite il proprio account Google (1);
- Selezionare entrambi gli scopi (2).
Dopo aver autorizzato l'accesso alle API della Search Console al proprio account Google bisogna selezionare la voce webmasters.urlcrawlerrorssamples.list
.
Fatto ciò si vedrà una schermata come questa:
Quel form in pratica serve per passare la query alle API di Google Search Console. Si dovranno inserire i dati, quali:
- L'indirizzo del sito web per il quale si vogliono vedere gli errori 40X (non solo 404) con i links, nella sezione "siteUrl";
- La tipologia di errori da trovare, che si potranno scaricare nel campo "category", per gli errori 404 si deve inserire/selezionare "notFound";
- Per che tipologia di piattaforma si vogliono vedere gli errori nel campo "platform", per siti responsive (non domini separati od altro) si può inserire/selezionare "web".
Dopo aver premuto "Execute" a schermo si vedranno a monitor gli errori 404/410/ecc. con i links che puntano alle pagine che danno errore.
Creare un foglio di lavoro con l'output delle API Google
Come ho appena detto, purtroppo, gli errori che le API di Google estraggono dalla Search Console si vedranno a monitor:
Nessun problema, dato che il risultato è con la sintassi di un file JSON, grazie a tools come convertcsv si possono convertire in un file CSV od excel e poi esportare.
Per convertire l'output delle API della Search Console in un file CSV od in un foglio di calcolo, per poter quindi lavorare in modo più agevole, basta:
- Copiare tutto il risultato delle API della Search Console, partendo dalla prima parentesi graffa fino all'ultima;
- Portarsi alla pagina che ho linkato poco fa ed incollare nell'apposita sezione (1) quanto è stato copiato;
- Premere rispettivamente "Convert JSON to CSV" (2) se si vuole esportare un file .csv oppure "JSON to Excel" se si vuole esportare un file .xlsx.
A questo punto potrete controllare alla svelta gli errori 404 con links.
Se aveste il bisogno di scaricare più di 1000 errori la logica mi suggerisce di consigliarvi di scaricare il foglio di calcolo con i primi 1000 errori, cancellare 1000 errori dalla Search Console (tanto li avete scaricati) e rifare l'operazione di generazione di un nuovo file.
Ciao Yuri,
ho letto il tuo articolo molto utile grazie!
Ho una domanda, nell'ultimo paragrafo scrivi:
" cancellare 1000 errori dalla Search Console (tanto li avete scaricati) e rifare l'operazione di generazione di un nuovo file."
Puoi spiegare meglio questo passaggio, che intendi per cancellare e per rifare l'operazione?
Credo di aver capito, ma mi piacerebbe avere qualche dettaglio.
Un ultima domanda, ho avuto un problema con gli errori 404 sono arrivati a oltre 3000, a causa di un errore server che ha collegato due siti, creando migliaia di link falsi, dominio di uno e link di un altro.
Il problema al serve è stato risolto, ma da allora continuo a segnalare gli errori a google come corretti ogni giorno. Basta non farlo un giorno che si moltiplicano.
Ora pensavo di scaricare il file intero per poterli segnalarlare come errori 410, ma il problema è che non li vedo al momento nella search console.
Con il metodo da te indicato riesco a scaricarli comunque tutti?
Se hai qualche altro consiglio ti ringrazio 😉
Grazie
Ciao WOODYP,
tramite l'interfaccia della Search Console si possono selezionare e "cancellare" gli errori o "selezionare come corretti", questo è quello che puoi fare. Scarichi i mille, li cancelli e scaricando altri mille saranno appunto i successivi, non quelli cancellati.
Se gli errori continuano ad apparire sulla Search Console anche dopo aver risolto fisicamente e cancellato gli errori molto probabilmente ci sono ancora, se le pagine sono le medesime.
Ciao,
Yuri.
Ciao Yuri,
nella Search Console vedo solo due pulsanti scarica e Segna come corretti, non ho cancella.
https://prnt.sc/kbvvy4
Fino ad ora li ho sempre segnalati come corretti ma ricompaiono.
Questi errori 404 come scrivevo prima non fanno parte di contenuti del mio sito, ma un errore del server ha creato questi link unendo il nostro dominio con i link di un altro sito, ma questi contenuti non sono presenti in nessun modo nel mio sito, ma solo su google.
Ho pensato di scaricarli dalla search console e segnalarli tutti come errori 410.
Penso sia l'unico modo per provare ad indicare a Google di cancellare la sua cache.
Grazie
Se segni come corretto in pratica lo cancelli 😉
Errori causati da links che puntano al tuo sito ... possono star li anche "per sempre", purtroppo.
Ciao,
Yuri,