|
Home -> Articoli -> Site Map
SITE MAP
Il Protocollo Sitemap consente di indicare ai motori di ricerca gli URL dei siti Web disponibili per la scansione. Più semplicemente, una sitemap che utilizza un Protocollo Sitemap è un file XML che elenca gli URL di un sito. Il protocollo è altamente adattabile in modo da poter gestire siti di qualsiasi dimensione. Inoltre, consente ai webmaster di includere ulteriori informazioni su ogni URL (data dell'ultimo aggiornamento, frequenza delle modifiche, importanza in relazione ad altri URL del sito) in modo che i motori di ricerca possano eseguire la scansione del sito in modo intelligente.
Le sitemap sono particolarmente utili quando gli utenti non sono in grado di visualizzare tutte le aree del sito Web tramite un'interfaccia navigabile (in genere, ciò avviene quando gli utenti non sono in grado di visualizzare determinate pagine o parti di un sito seguendo i link). Ad esempio, un sito in cui è possibile accedere a determinate pagine solo tramite moduli di ricerca trae vantaggio dalla creazione e dall'invio di una sitemap ai motori di ricerca.
Questo documento descrive i formati dei file Sitemap e illustra dove pubblicare i file Sitemap per consentire ai motori di ricerca di eseguirne il recupero.
Il Protocollo Sitemap viene integrato (non sostituisce) con i meccanismi basati sulla scansione che utilizzano i motori di ricerca per individuare gli URL. Quando vengono inviate una o più Sitemap a un motore di ricerca, viene facilitato il processo di scansione del sito.
L'utilizzo di questo protocollo non garantisce l'inserimento delle pagine Web negli indici di ricerca (tenete presente che l'utilizzo di questo protocollo non influisce sulla posizione delle pagine definita da Google).
Formato Sitemap XML
Il formato Protocollo Sitemap è composto da tag XML. Tutti i valori di dati di una Sitemap devono essere codificati con i codici di escape. Per il file è necessario utilizzare la codifica UTF-8.
Di seguito viene riportata una Sitemap di esempio che contiene solo un URL e utilizza tutti tag opzionali. I tag opzionali vengono riportati in corsivo.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset> |
La Sitemap deve:
- Iniziare con un tag di apertura <urlset> e terminare con un tag di chiusura </urlset>.
- Includere una <url> voce per ogni URL come tag XML principale.
- Includere una <loc> voce figlia per ogni tag principale <url>.
Definizioni tag XML
I tag XML disponibili vengono descritti di seguito.
| <urlset> |
obbligatorio |
Comprende il file e fa riferimento agli standard del protocollo corrente. |
| <url> |
obbligatorio |
Tag principale per ogni URL. I tag restanti sono figli di questo tag. |
| <loc> |
obbligatorio |
URL della pagina. L'URL deve iniziare con il protocollo (ad esempio http) e finire con una barra finale, se richiesto dal server Web. Questo valore deve contenere meno di 2048 caratteri. |
| <lastmod> |
opzionale |
Data dell'ultima modifica del file. Dovrebbe avere il formato ISO 8601. Esso ti consente di omettere l'ora e di utilizzare il formato AAAA-MM-GG. |
| <changefreq> |
opzionale |
Frequenza con la quale la pagina viene modificata. Questo valore fornisce informazioni generali ai motori di ricerca ed è possibile che non sia collegato alla frequenza con la quale viene eseguita la scansione della pagina. I valori validi sono:
- always
- hourly
- daily
- weekly
- monthly
- yearly
- never
Il valore "always" deve essere utilizzato per descrivere i documenti che subiscono modifiche ogni volta che vi si accede. Il valore "never" deve essere utilizzato per descrivere gli URL archiviati.
Il valore di questo tag viene considerato un suggerimento, non un comando. Anche se i crawler dei motori di ricerca prendono in considerazione questa informazione, è possibile che la scansione di pagine segnate come "hourly" avvenga meno di frequente rispetto alla scansione di pagine segnate come "yearly". È anche possibile che i crawler eseguano la scansione di pagine segnate come "never" in modo da poter gestire modifiche impreviste apportate a tali pagine.
|
| <priority> |
opzionale |
La priorità di questo URL rispetto ad altri URL del sito. L'intervallo di valori validi va da 0,0 a 1,0. Questo valore non influisce in alcun modo sulle tue pagine rispetto alle pagine di altri siti e consente solo ai motori di ricerca di individuare le pagine più importanti, in modo da definire l'ordine della scansione che preferisci.
La priorità predefinita della pagine è 0,5.
La priorità assegnata a una pagina non influisce sulla posizione degli URL nelle pagine dei risultati delle ricerche. I motori di ricerca utilizzano questa informazione al momento della selezione degli URL dello stesso sito, pertanto puoi utilizzare questo tag per aumentare la probabilità di visualizzazione delle pagine più importanti nell'indice di ricerca.
Inoltre, l'assegnazione di un'alta priorità a tutti gli URL del sito non è di ausilio. Poiché la priorità è relativa, viene utilizzata solo per selezionare gli URL del sito; non viene eseguito il confronto tra la priorità delle tue pagine e quella delle pagine di altri siti. |
Codici di escape per le entità
È necessario che il file della Sitemap utilizzi la codifica UTF-8. Generalmente, è possibile applicare la codifica al momento del salvataggio del file. Analogamente a quanto accade con i file XML, tutti i valori dei dati (inclusi gli URL) devono utilizzare codici di escape per i caratteri elencati nella seguente tabella.
| Carattere |
Codice di escape |
| & |
& amp; |
| ' |
' |
| " |
& quot; |
| > |
& gt; |
| < |
& lt; |
Inoltre, tutti gli URL (incluso l'URL della tua sitemap) devono essere codificati in modo da consentire la lettura ai server Web sui quali sono posizionati e l'utilizzo di codici di escape. Tuttavia, se utilizzi script, strumenti o file di log per generare gli URL (ogni metodo, ad eccezione dell'inserimento manuale), l'operazione viene eseguita automaticamente. Se dopo aver inviato una sitemap ricevi un errore in cui viene indicato che Google non è in grado di trovare alcuni URL, accertati che questi siano conformi agli RFC-3986 standard URI, RFC-3987 IRI e XML.
Di seguito, viene riportato un esempio di URL che utilizza caratteri non ASCII (ü) e caratteri che richiedono l'utilizzo di codici di escape (&):
http://www.example.com/ümlat.html&q=name
Di seguito viene visualizzato l'URL con codifica ISO-8859-1 (per il servizio di hosting su un server che utilizza la stessa codifica) e con codice di escape:
http://www.example.com/%FCmlat.html&q=name
Di seguito viene visualizzato l'URL con codifica UTF-8 (per il servizio di hosting su un server che utilizza la stessa codifica) e con codice di escape:
http://www.example.com/%C3%BCmlat.html&q=name
Di seguito, viene riportato lo stesso URL con codice di escape:
http://www.example.com/%C3%BCmlat.html&q=name
Ubicazione e Dimensione della Sitemap
Una volta creata la vostra sitemap, questa va uplodata direttamente nella root del vostro sito web, esattamente allo stesso livello della homepage. Il percorso di un file Sitemap determina l'insieme di URL che può essere inserito nella Sitemap. Un file Sitemap posizionato in http://example.com/catalog/sitemap.gz può includere tutti gli URL che iniziano con http://example.com/catalog/ ma non quelli che iniziano con http://example.com/images/.
È possibile comprimere i file Sitemap utilizzando gzip oppure lasciarla in formato xml. La compressione dei file Sitemap consente di ridurre i requisiti di larghezza di banda. Ricorda che la dimensione del file Sitemap non compresso non deve essere superiore a 10 MB e deve avere al massimo 50.000 URL.
Se gli URL del vostro sito dispongono di ID di sessione, dovete rimuoverli perchè può comportare una scansione incompleta e ridondante del sito.
Se alcune pagine del sito utilizzano frame, è necessario inserire sia gli URL del frameset e sia quelli dei contenuti del frame.
Convalida della Sitemap
Sono disponibili diversi strumenti per la convalida della struttura della Sitemap in base al relativo schema xsd. Puoi trovare un elenco di strumenti relativi a XML nel seguente percorso: http://www.w3.org/XML/Schema#Tools.
Per convalidare la Sitemap in base ad uno schema, è necessario che il file XML abbia ulteriori intestazioni. L'intestazione del file XML avrà lo stesso aspetto degli esempi seguenti:
<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">
<url>
...
</url>
</urlset> |
Altri formati supportati
- Feed di diffusione dei contenuti: Google accetta i feed RSS (Real Simple Syndication) 2.0 e Atom 0.3. Normalmente si utilizza questo formato soltanto se il sito già dispone di un feed di diffusione dei contenuti. È possibile che in questo modo Google non venga a conoscenza di tutti gli URL del tuo sito, poiché il feed potrebbe fornire informazioni solo sugli URL recenti.
- File di testo: si può fornire a Google un semplice file di testo che contiene un URL per riga. Tuttavia, Google consiglia, una volta che disponi di un file di testo Sitemap per il tuo sito, di utilizzare Sitemap Generator per creare una Sitemap a partire da questo file di testo utilizzando il Protocollo Sitemap. Puoi quindi modificare questo file di testo per fornire informazioni supplementari sui tuoi URL, ad esempio l'ultima volta che sono stati modificati e la frequenza con cui vengono cambiati.
http://www.example.com/catalog?item=1 http://www.example.com/catalog?item=11
Nell'articolo seguente vedremo come creare una sitemap (magari attraverso qualche software), vedendo anche qualche esempio.
Cerca nel sito
|