Le fichier robots.txt par défaut de SPIP

Publié le : 25 octobre 2009 – Dernière modification le 9 février 2019 – par Valéry – 14

11 votes

SPIP 2 fournit désormais un fichier robots.txt par défaut afin de préciser aux moteurs de recherche comment votre site doit être indexé.

Sommaire

Qu’est-ce qu’un fichier robots.txt ?
Mise en oeuvre
Contenu du robots.txt
Et si je ne veux pas que mon site soit indexé ?

Qu’est-ce qu’un fichier robots.txt ?

Il s’agit d’un fichier texte installé à la racine d’un site web qui donne aux robots d’indexation des moteurs de recherche des instructions sur les pages à indexer ou non dans le site. cf. la page Wikipedia sur robot.txt.

N.B. : il est possible de donner aussi des instructions pour chaque page à l’aide d’une balide meta : <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Mise en oeuvre

Le fichier disponible dans le répertoire squelettes-dist est un squelette SPIP.

Sa mise en oeuvre implique de renommer htaccess.txt en .htaccess

Cette manipulation activera également le sitemap et le favicon par défaut.

Voici pour information le contenu du htaccess qui nous intéresse :

###
# Fichiers "standards" (si absents de la racine)
#
RewriteRule ^robots[.]txt$      spip.php?page=robots.txt [QSA,L]
RewriteRule ^favicon[.]ico$      spip.php?page=favicon.ico [QSA,L]
RewriteRule ^sitemap[.]xml$      spip.php?page=sitemap.xml [QSA,L]
##

Contenu du robots.txt

Voici le contenu du squelette robots.txt.html :

#HTTP_HEADER{Content-Type: text/plain; charset=#CHARSET}

# robots.txt
# @url: #URL_SITE_SPIP
# @generator: SPIP #SPIP_VERSION
# @template: #SQUELETTE

User-agent: *
Disallow: /local/
Disallow: /ecrire/
Disallow: /plugins/
Disallow: /prive/
Disallow: /squelettes-dist/
Disallow: /squelettes/


Sitemap: #URL_SITE_SPIP/sitemap.xml

La première ligne indique qu’il s’agit d’un fichier texte, et son encodage (en fonction du réglage dans l’espace d’administration).

Les lignes suivantes précédées d’un # sont des commentaires.

User-Agent est suivi d’un * ce qui veut dire que tous les robots d’indexation sont concernés (il est en effet possible de cibler des robots spécifiques).

Disallow interdit à ces robots de parcourir les répertoires listés qui sont en effet liés au fonctionnement de SPIP et non pas du contenu de votre site.

Attention : robots.txt est respecté par la plupart des moteurs de recherche légitime mais est naturellement ignorés par spammeurs et autres hackers. La présence de ce fichier ne vous dispense pas de prendre des mesures de sécurité pour empêcher l’accès aux répertoires que vous souhaitez protéger.

sitemap donne aux robots l’adresse du sitemap du site.

Et si je ne veux pas que mon site soit indexé ?

Vous pouvez modifier la configuration proposée soit en créant votre propre squelette robots.txt.html dans votre répertoire squelettes/ soit en créant à la racine du site un fichier robots.txt indiquant d’autres règles.

Par exemple, pour interdire l’indexation entière de votre site vous pouvez indiquer :

User-agent: *
Disallow: /

Discussion

5 ans 1 an 3 mois Sans limite

par date

8 discussions

3

mickamoi

Juillet 2012

Bonjour,

comment créer un url rewriting pour les liens suivants : « [(#URL_PAGEarticle|parametre_url’id_rubrique’,#ID_RUBRIQUE)] » ?

Je ne sais pas quel code integréer dans le robots.txt pour que mes urls soient propres.

Merci, Mickaël.
- mickamoi
  
  Juillet 2012
  
  Exactement :
  "[(#URL_PAGE{article}|parametre_url{'id_rubrique',#ID_RUBRIQUE})]"
- Valéry
  
  Juillet 2012
  
  La réécriture d’URL n’a rien à voir avec robot.txt qui consiste seulement à donner des indications sur les pages à indexer.
  
  Elle est gérée dans le .htaccess et dans le backoffice pour les mécanisme de réécriture prévus par SPIP : voir notamment http://www.spip.net/fr_article765.html
- mickamoi
  
  Juillet 2012
  
  Pardon, c’est une erreur de ma part je voulais dire le htaccess !
  Je suis allé voir votre article mais du coup je ne suis pas plus avancé ! Si qqn à déjà eu ce problème et peut me renseigner !
Répondre à ce message
Max

Juin 2012

A noter que le site The Web Robots Pages considéré comme étant la documentation officielle sur le fichier robots.txt n’est plus à jour depuis quelques années (même constat pour la page Wikipédia). Il existe un site d’aide mémoire en français et à jour : Robots.txt

Répondre à ce message
Coyote

Mai 2012

Je suis envahi par un navigateur bingbot/2 qui surcharge le serveur.
que faire ???
Quand ce n’est pas ce navigateur ce sont des requêtes en provenance d’IP de Microsoft ( 65.52.104.88 ) ?

note : spip est installé dans un sous répertoire, il n’est pas à la racine du site.

Répondre à ce message
bruno31

Novembre 2010
sitemap.xml génère une erreur d’analyse XML

Bonjour et Merci pour cet article.

Je viens d’activer robots.txt et sitemap.xml sur tous mes sites. Cela marche sur la majorité sauf sur deux :
- sur un des sites, lorsque j’accède à sitemap.xml avec FIREFOX, j’obtiens une erreur :
Erreur d’analyse XML : instruction de traitement XML ou texte pas au début d’une entité externe
Emplacement : http://www.holzterrasse-bauanleitung.com/sitemap.xml
Numéro de ligne 3, Colonne 1 :
```
<?xml version="1.0" encoding="UTF-8"?>
```
Avec IE, pas de message d’erreur.

Je regarde le source et le fichier est bien généré mais il y a trois lignes vides au début et je pense que l’erreur vient de là.
Je ne suis pas sûr que ces lignes vides soient interprétées en erreur par les robots mais dans le doute, j’aimerai tout de même corriger cela.

Avez-vous une idée ?
Répondre à ce message
1

vince

Septembre 2010

Bonjour,

J’ai activé le htacces sur mon site suite au passage en 2.0 et donc le robot.txt mais pas la moindre indexation des articles et même du site à vrai dire. Si je tape l’adresse du site dans google il ne trouve rien.
Faut-il bien laisser le squelette robot dans squelettes-dist ???
Et sinon que faire ???

Merci à vous

Vince
- Valéry
  
  Septembre 2010
  
  Le fichier robot.txt indique aux robots les répertoires à ne pas indexer et l’adresse du sitemap mais ne garanti pas l’indexation du site. Il faut soit attendre (en vérifiant qu’il existe des liens entrants vers le site, les robots ne vont pas le trouver tout seuls... un nouveau site en SPIP peut être par exemple déclaré sur spip.net) soit déclarer le site. Pour le leader français de la recherche ça se passe ici : http://www.google.com/addurl/?hl=fr&continue=/addurl
  
  Tu peux vérifier le bon fonctionnement en saisissant l’URL : http://[ton adresse]/robot.txt
  
  Les fichiers dans squelettes-dist sont trouvés par SPIP s’ils n’existe pas le même fichier dans squelettes, donc inutile de le dupliquer si tu ne le modifie pas.
Répondre à ce message
yffic

Mars 2010

Bonjour

J’ai des erreurs 404 sur le fichier win_width.htc
Je vois qu’il existe dans le dossiers squelettes-dist... Faudrait pas rajouter aussi une ligne dans le .htaccess ?

Répondre à ce message
2

Fabrice

Février 2010

Peut-on l’utiliser sans risque sans compétence approfondies ou est-il vraiment risqué de l’utiliser sans ces compétences ?
- Février 2010
  
  Les sources de SPIP sont publiques : nul besoin de ce fichier pour connaître la structure de ses répertoires.
- Fabrice
  
  Février 2010
  
  Merci. Me voilà rassuré ;-)
Répondre à ce message
Albert34

Octobre 2009

Bonjour,

Sans vouloir paraitre le moins du monde parano (ou autre ;)
le robots.txt est le premier fichier a etre lu par les vilains crackers
un fichier a utilisé avec prudence donc ;)

Répondre à ce message

Ajouter un commentaire

Avant de faire part d’un problème sur un plugin X, merci de lire ce qui suit :

Désactiver tous les plugins que vous ne voulez pas tester afin de vous assurer que le bug vient bien du plugin X. Cela vous évitera d’écrire sur le forum d’une contribution qui n’est finalement pas en cause.
Cherchez et notez les numéros de version de tout ce qui est en place au moment du test :
- version de SPIP, en bas de la partie privée
- version du plugin testé et des éventuels plugins nécessités
- version de PHP (exec=info en partie privée)
- version de MySQL / SQLite
Si votre problème concerne la partie publique de votre site, donnez une URL où le bug est visible, pour que les gens puissent voir par eux-mêmes.
En cas de page blanche, merci d’activer l’affichage des erreurs, et d’indiquer ensuite l’erreur qui apparaît.

Merci d’avance pour les personnes qui vous aideront !

Par ailleurs, n’oubliez pas que les contributeurs et contributrices ont une vie en dehors de SPIP.

Qui êtes-vous ?

Nom [Se connecter]

Courriel (non publié)

Pour afficher votre trombine avec votre message, enregistrez-la d’abord sur gravatar.com (gratuit et indolore) et n’oubliez pas d’indiquer votre adresse e-mail ici.

Ajoutez votre commentaire ici

Texte de votre message

Ce champ accepte les raccourcis SPIP {{gras}} {italique} -*liste [texte->url] <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Prévenez-moi de tous les nouveaux commentaires de cette discussion par email

Ajouter un document

Extensions autorisées : gif, jpg, png

Suivre les commentaires : |