Un file robots.txt memorizzato nella radice del tuo sito web dirà ai robot web come gli spider dei motori di ricerca quali directory e file sono autorizzati a scansionare. È facile utilizzare un file robots.txt, ma ci sono alcune cose che dovresti ricordare:
- I web robot Blackhat ignoreranno il tuo file robots.txt. I tipi più comuni sono robot e robot di malware alla ricerca di indirizzi e-mail da raccogliere.
- Alcuni nuovi programmatori scriveranno robot che ignorano il file robots.txt. Questo di solito è fatto per errore.
- Chiunque può vedere il tuo file robots.txt. Sono sempre chiamati robots.txt e sono sempre memorizzati nella radice del sito.
- Infine, se qualcuno collega a un file o una directory escluso dal tuo file robots.txt da una pagina che non è esclusa dal loro file robots.txt, i motori di ricerca potrebbero trovarlo comunque.
Non utilizzare i file robots.txt per nascondere qualcosa di importante. Invece, dovresti mettere le informazioni importanti dietro password sicure o lasciarle completamente fuori dal web.
Come utilizzare questi file di esempio
Copia il testo dall'esempio più vicino a quello che vuoi fare e incollalo nel tuo file robots.txt. Cambia il robot, la directory e i nomi dei file in modo che corrispondano alla tua configurazione preferita.
Due file di base Robots.txt
User-agent: *Non consentire: / Questo file dice che qualsiasi robot ( User-agent: *) che lo accede dovrebbe ignorare ogni pagina del sito ( Non consentire: /). User-agent: *Disallow: Questo file dice che qualsiasi robot ( User-agent: *) che vi accede è consentito visualizzare ogni pagina del sito ( Disallow:). Puoi farlo anche lasciando il tuo file robots.txt vuoto o non avendo uno sul tuo sito. User-agent: *Non consentire: / cgi-bin /Non consentire: / temp / Questo file dice che qualsiasi robot ( User-agent: *) che lo accede dovrebbe ignorare le directory / cgi-bin / e / temp / ( Disallow: / cgi-bin / Disallow: / temp /). User-agent: *Disallow: /jenns-stuff.htmDisallow: /private.php Questo file dice che qualsiasi robot ( User-agent: *) che lo accede dovrebbe ignorare i file /jenns-stuff.htm e /private.php ( Disallow: /jenns-stuff.htm Disallow: /private.php). User-agent: Lycos / x.xNon consentire: / Questo file dice che il bot Lycos ( User-agent: Lycos / x.x) non è consentito l'accesso ovunque sul sito ( User-agent: *Non consentire: /Agente utente: GooglebotDisallow: In primo luogo, questo file non consente tutti i robot come abbiamo fatto in precedenza e quindi consente esplicitamente a Googlebot ( Agente utente: Googlebot) avere accesso a tutto ( Mentre è meglio usare una linea User-agent molto inclusiva, come User-agent: *, puoi essere specifico come preferisci. Ricorda che i robot leggono il file in ordine. Quindi se le prime righe dicono che tutti i robot sono bloccati da tutto, e poi nel file dice che a tutti i robot è consentito l'accesso a tutto, i robot avranno accesso a tutto. Se non sei sicuro di aver scritto correttamente il tuo file robots.txt, puoi utilizzare gli Strumenti per i Webmaster di Google per verificare il tuo file robots.txt o scriverne uno nuovo. Proteggi directory specifiche dai robot
Proteggi le pagine specifiche dai robot
Impedire a un robot specifico di accedere al tuo sito
Consenti solo un accesso specifico al robot
Combina più linee per ottenere esattamente le esclusioni che desideri