Qu’est-ce qu’un fichier robots.txt ?
Il s’agit d’un fichier texte installé à la racine d’un site web qui donne aux robots d’indexation des moteurs de recherche des instructions sur les pages à indexer ou non dans le site. cf. la page Wikipedia sur robot.txt.
N.B. : il est possible de donner aussi des instructions pour chaque page à l’aide d’une balide meta : <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Mise en oeuvre
Le fichier disponible dans le répertoire squelettes-dist est un squelette SPIP.
Sa mise en oeuvre implique de renommer htaccess.txt en .htaccess
Cette manipulation activera également le sitemap et le favicon par défaut.
Voici pour information le contenu du htaccess qui nous intéresse :
###
# Fichiers "standards" (si absents de la racine)
#
RewriteRule ^robots[.]txt$ spip.php?page=robots.txt [QSA,L]
RewriteRule ^favicon[.]ico$ spip.php?page=favicon.ico [QSA,L]
RewriteRule ^sitemap[.]xml$ spip.php?page=sitemap.xml [QSA,L]
##
Contenu du robots.txt
Voici le contenu du squelette robots.txt.html :
#HTTP_HEADER{Content-Type: text/plain; charset=#CHARSET}
# robots.txt
# @url: #URL_SITE_SPIP
# @generator: SPIP #SPIP_VERSION
# @template: #SQUELETTE
User-agent: *
Disallow: /local/
Disallow: /ecrire/
Disallow: /plugins/
Disallow: /prive/
Disallow: /squelettes-dist/
Disallow: /squelettes/
Sitemap: #URL_SITE_SPIP/sitemap.xml
La première ligne indique qu’il s’agit d’un fichier texte, et son encodage (en fonction du réglage dans l’espace d’administration).
Les lignes suivantes précédées d’un # sont des commentaires.
User-Agent est suivi d’un * ce qui veut dire que tous les robots d’indexation sont concernés (il est en effet possible de cibler des robots spécifiques).
Disallow interdit à ces robots de parcourir les répertoires listés qui sont en effet liés au fonctionnement de SPIP et non pas du contenu de votre site.
Attention : robots.txt est respecté par la plupart des moteurs de recherche légitime mais est naturellement ignorés par spammeurs et autres hackers. La présence de ce fichier ne vous dispense pas de prendre des mesures de sécurité pour empêcher l’accès aux répertoires que vous souhaitez protéger.
sitemap donne aux robots l’adresse du sitemap du site.
Et si je ne veux pas que mon site soit indexé ?
Vous pouvez modifier la configuration proposée soit en créant votre propre squelette robots.txt.html dans votre répertoire squelettes/ soit en créant à la racine du site un fichier robots.txt indiquant d’autres règles.
Par exemple, pour interdire l’indexation entière de votre site vous pouvez indiquer :
User-agent: * Disallow: /
Aucune discussion
Ajouter un commentaire
Avant de faire part d’un problème sur un plugin X, merci de lire ce qui suit :
Merci d’avance pour les personnes qui vous aideront !
Par ailleurs, n’oubliez pas que les contributeurs et contributrices ont une vie en dehors de SPIP.
Suivre les commentaires : |