SPIP-Contrib

SPIP-Contrib

عربي | Deutsch | English | Español | français | italiano | Nederlands

286 Plugins, 197 contribs sur SPIP-Zone, 328 visiteurs en ce moment

Accueil > Statistiques et référencement > Référencement, métadonnées et SEO > Le fichier robots.txt par défaut de SPIP

Le fichier robots.txt par défaut de SPIP

25 octobre 2009 – par Valéry – 14 commentaires

11 votes

SPIP 2 fournit désormais un fichier robots.txt par défaut afin de préciser aux moteurs de recherche comment votre site doit être indexé.

Qu’est-ce qu’un fichier robots.txt ?

Il s’agit d’un fichier texte installé à la racine d’un site web qui donne aux robots d’indexation des moteurs de recherche des instructions sur les pages à indexer ou non dans le site. cf. la page Wikipedia sur robot.txt.

N.B. : il est possible de donner aussi des instructions pour chaque page à l’aide d’une balide meta : <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Mise en oeuvre

Le fichier disponible dans le répertoire squelettes-dist est un squelette SPIP.

Sa mise en oeuvre implique de renommer htaccess.txt en .htaccess

Cette manipulation activera également le sitemap et le favicon par défaut.

Voici pour information le contenu du htaccess qui nous intéresse :

Contenu du robots.txt

Voici le contenu du squelette robots.txt.html :

  1. #HTTP_HEADER{Content-Type: text/plain; charset=#CHARSET}
  2.  
  3. # robots.txt
  4. # @url: #URL_SITE_SPIP
  5. # @generator: SPIP #SPIP_VERSION
  6. # @template: #SQUELETTE
  7.  
  8. User-agent: *
  9. Disallow: /local/
  10. Disallow: /ecrire/
  11. Disallow: /plugins/
  12. Disallow: /prive/
  13. Disallow: /squelettes-dist/
  14. Disallow: /squelettes/
  15.  
  16.  
  17. Sitemap: #URL_SITE_SPIP/sitemap.xml

Télécharger

La première ligne indique qu’il s’agit d’un fichier texte, et son encodage (en fonction du réglage dans l’espace d’administration).

Les lignes suivantes précédées d’un # sont des commentaires.

User-Agent est suivi d’un * ce qui veut dire que tous les robots d’indexation sont concernés (il est en effet possible de cibler des robots spécifiques).

Disallow interdit à ces robots de parcourir les répertoires listés qui sont en effet liés au fonctionnement de SPIP et non pas du contenu de votre site.

Attention : robots.txt est respecté par la plupart des moteurs de recherche légitime mais est naturellement ignorés par spammeurs et autres hackers. La présence de ce fichier ne vous dispense pas de prendre des mesures de sécurité pour empêcher l’accès aux répertoires que vous souhaitez protéger.

sitemap donne aux robots l’adresse du sitemap du site.

Et si je ne veux pas que mon site soit indexé ?

Vous pouvez modifier la configuration proposée soit en créant votre propre squelette robots.txt.html dans votre répertoire squelettes/ soit en créant à la racine du site un fichier robots.txt indiquant d’autres règles.

Par exemple, pour interdire l’indexation entière de votre site vous pouvez indiquer :

User-agent : *
Disallow : /

Dernière modification de cette page le 10 février 2010

Retour en haut de la page

Vos commentaires

  • Le 10 juillet 2012 à 10:27, par mickamoi En réponse à : Le fichier robots.txt par défaut de SPIP

    Bonjour,

    comment créer un url rewriting pour les liens suivants : « [(#URL_PAGEarticle|parametre_url’id_rubrique’,#ID_RUBRIQUE)] » ?

    Je ne sais pas quel code integréer dans le robots.txt pour que mes urls soient propres.

    Merci, Mickaël.

    Répondre à ce message

  • Le 21 juin 2012 à 13:47, par Max En réponse à : Le fichier robots.txt par défaut de SPIP

    A noter que le site The Web Robots Pages considéré comme étant la documentation officielle sur le fichier robots.txt n’est plus à jour depuis quelques années (même constat pour la page Wikipédia). Il existe un site d’aide mémoire en français et à jour : Robots.txt

    Répondre à ce message

  • Le 22 mai 2012 à 22:51, par Coyote En réponse à : Le fichier robots.txt par défaut de SPIP

    Je suis envahi par un navigateur bingbot/2 qui surcharge le serveur.
    que faire ???
    Quand ce n’est pas ce navigateur ce sont des requêtes en provenance d’IP de Microsoft ( 65.52.104.88 ) ?

    note : spip est installé dans un sous répertoire, il n’est pas à la racine du site.

    Répondre à ce message

  • Le 11 novembre 2010 à 22:26, par bruno31 En réponse à : Le fichier robots.txt par défaut de SPIP

    sitemap.xml génère une erreur d’analyse XML

    Bonjour et Merci pour cet article.

    Je viens d’activer robots.txt et sitemap.xml sur tous mes sites. Cela marche sur la majorité sauf sur deux :
    -  sur un des sites, lorsque j’accède à sitemap.xml avec FIREFOX, j’obtiens une erreur :
    Erreur d’analyse XML : instruction de traitement XML ou texte pas au début d’une entité externe
    Emplacement : http://www.holzterrasse-bauanleitung.com/sitemap.xml
    Numéro de ligne 3, Colonne 1 : <?xml version="1.0" encoding="UTF-8"?>

    Avec IE, pas de message d’erreur.

    Je regarde le source et le fichier est bien généré mais il y a trois lignes vides au début et je pense que l’erreur vient de là.
    Je ne suis pas sûr que ces lignes vides soient interprétées en erreur par les robots mais dans le doute, j’aimerai tout de même corriger cela.

    Avez-vous une idée ?

    Répondre à ce message

  • Le 20 septembre 2010 à 17:11, par vince En réponse à : Le fichier robots.txt par défaut de SPIP

    Bonjour,

    J’ai activé le htacces sur mon site suite au passage en 2.0 et donc le robot.txt mais pas la moindre indexation des articles et même du site à vrai dire. Si je tape l’adresse du site dans google il ne trouve rien.
    Faut-il bien laisser le squelette robot dans squelettes-dist ???
    Et sinon que faire ???

    Merci à vous

    Vince

    • Le 20 septembre 2010 à 17:57, par Valéry En réponse à : Le fichier robots.txt par défaut de SPIP

      Le fichier robot.txt indique aux robots les répertoires à ne pas indexer et l’adresse du sitemap mais ne garanti pas l’indexation du site. Il faut soit attendre (en vérifiant qu’il existe des liens entrants vers le site, les robots ne vont pas le trouver tout seuls... un nouveau site en SPIP peut être par exemple déclaré sur spip.net) soit déclarer le site. Pour le leader français de la recherche ça se passe ici : http://www.google.com/addurl/?hl=fr&continue=/addurl

      Tu peux vérifier le bon fonctionnement en saisissant l’URL : http://[ton adresse]/robot.txt

      Les fichiers dans squelettes-dist sont trouvés par SPIP s’ils n’existe pas le même fichier dans squelettes, donc inutile de le dupliquer si tu ne le modifie pas.

    Répondre à ce message

  • Le 1er mars 2010 à 13:18, par yffic En réponse à : Le fichier robots.txt par défaut de SPIP

    Bonjour

    J’ai des erreurs 404 sur le fichier win_width.htc
    Je vois qu’il existe dans le dossiers squelettes-dist... Faudrait pas rajouter aussi une ligne dans le .htaccess ?

    Répondre à ce message

  • Le 5 février 2010 à 19:28, par Fabrice En réponse à : Et alors... ? Info. ou intox. ?

    Peut-on l’utiliser sans risque sans compétence approfondies ou est-il vraiment risqué de l’utiliser sans ces compétences ?

    Répondre à ce message

  • Le 26 octobre 2009 à 17:31, par Albert34 En réponse à : Le fichier robots.txt par défaut de SPIP

    Bonjour,

    Sans vouloir paraitre le moins du monde parano (ou autre ;)
    le robots.txt est le premier fichier a etre lu par les vilains crackers
    un fichier a utilisé avec prudence donc ;)

    Répondre à ce message

Répondre à cet article

Qui êtes-vous ?

Pour afficher votre trombine avec votre message, enregistrez-la d’abord sur gravatar.com (gratuit et indolore) et n’oubliez pas d’indiquer votre adresse e-mail ici.

Ajoutez votre commentaire ici Les choses à faire avant de poser une question (Prolégomènes aux rapports de bugs. )
Ajouter un document

Retour en haut de la page

Ça discute par ici

  • Mailsubscribers

    16 janvier 2013 – 274 commentaires

    Ce plugin permet de gérer les inscriptions (ou abonnements) à la diffusion de contenu par email. Mailsubscribers permet de gérer les inscriptions par Opt-in simple ou double et la désinscription par URL. Ce plugin gère également plusieurs listes (...)

  • noiZetier v2

    9 novembre 2012 – 36 commentaires

    Le noiZetier offre une interface d’administration permettant d’insérer au choix des éléments modulaires de squelettes (noisettes) et de les ajouter ainsi à ses squelettes. Compatibilité La version 2 du noizetier fonctionne sous SPIP 3. Elle est (...)

  • cirr : plugin « rédacteur restreint »

    29 octobre 2010 – 60 commentaires

    Ce plugin « cirr : rédacteur restreint » permet d’affecter des rubriques aux rédacteurs et modifie les droits afin qu’un rédacteur restreint (ou un administrateur restreint) voit dans l’espace privé uniquement les rubriques qui lui sont affectées (et leur (...)

  • Un retour d’expérience d’utilisation de Formidable

    26 octobre – commentaires

    Il s’agissait de créer un formulaire d’inscription à un évènement modérer les inscriptions dans le privé publier les inscriptions dans le public Nous avons discuté de cette présentation lors de l’apéro SPIP du 15 février 2016 à la Cantine (...)

  • Métas +

    3 décembre – 14 commentaires

    Améliorez l’indexation de vos articles dans les moteurs et leur affichage sur les réseaux sociaux grâce aux métadonnées Dublin Core, Open Graph et Twitter Card. Installation Activer le plugin dans le menu dédié. Dans le panel de configuration, (...)

Ça spipe par là