Le fichier robots.txt par défaut de SPIP - commentairesLe fichier robots.txt par défaut de SPIP2012-07-11T21:54:19Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4591982012-07-11T21:54:19Z<p>Pardon, c'est une erreur de ma part je voulais dire le htaccess<small class="fine d-inline"> </small>! <br class="autobr">
Je suis allé voir votre article mais du coup je ne suis pas plus avancé<small class="fine d-inline"> </small>! Si qqn à déjà eu ce problème et peut me renseigner<small class="fine d-inline"> </small>!</p>Le fichier robots.txt par défaut de SPIP2012-07-10T10:40:48Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4591652012-07-10T10:40:48Z<p>La réécriture d'URL n'a rien à voir avec robot.txt qui consiste seulement à donner des indications sur les pages à indexer.</p>
<p>Elle est gérée dans le .htaccess et dans le backoffice pour les mécanisme de réécriture prévus par SPIP : voir notamment <a href="http://www.spip.net/fr_article765.html" class="spip_out" rel='nofollow external'>http://www.spip.net/fr_article765.html</a></p>Le fichier robots.txt par défaut de SPIP2012-07-10T08:36:59Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4591602012-07-10T08:36:59Z<p>Exactement :<br class="autobr"> <code class="spip_code spip_code_inline" dir="ltr"> "[(#URL_PAGE{article}|parametre_url{'id_rubrique',#ID_RUBRIQUE})]" </code></p>Le fichier robots.txt par défaut de SPIP2012-07-10T08:27:48Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4591592012-07-10T08:27:48Z<p>Bonjour,</p>
<p>comment créer un url rewriting pour les liens suivants : « [(#URL_PAGE<i>article</i>|parametre_url<i>'id_rubrique',#ID_RUBRIQUE</i>)] »<small class="fine d-inline"> </small>?</p>
<p>Je ne sais pas quel code integréer dans le robots.txt pour que mes urls soient propres.</p>
<p>Merci, Mickaël.</p>Le fichier robots.txt par défaut de SPIP2012-06-21T11:47:19Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4586252012-06-21T11:47:19Z<p>A noter que le site <a href="http://www.robotstxt.org/" class="spip_out" rel='nofollow external'>The Web Robots Pages</a> considéré comme étant la documentation officielle sur le fichier robots.txt n'est plus à jour depuis quelques années (même constat pour la page Wikipédia). Il existe un site d'aide mémoire en français et à jour : <a href="http://robots-txt.com/" class="spip_out" rel='nofollow external'>Robots.txt</a></p>Le fichier robots.txt par défaut de SPIP2012-05-22T20:51:20Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4574672012-05-22T20:51:20Z<p>Je suis envahi par un navigateur bingbot/2 qui surcharge le serveur.<br class="autobr">
que faire<small class="fine d-inline"> </small>???<br class="autobr">
Quand ce n'est pas ce navigateur ce sont des requêtes en provenance d'IP de Microsoft ( 65.52.104.88 )<small class="fine d-inline"> </small>?</p>
<p>note : spip est installé dans un sous répertoire, il n'est pas à la racine du site.</p>Le fichier robots.txt par défaut de SPIP2010-11-11T21:26:53Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4367652010-11-11T21:26:53Z<p><strong>sitemap.xml génère une erreur d'analyse XML</strong></p>
<p>Bonjour et Merci pour cet article.</p>
<p>Je viens d'activer robots.txt et sitemap.xml sur tous mes sites. Cela marche sur la majorité sauf sur deux :
<br>- sur un des sites, lorsque j'accède à sitemap.xml avec FIREFOX, j'obtiens une erreur : <br class="autobr">
Erreur d'analyse XML : instruction de traitement XML ou texte pas au début d'une entité externe<br class="autobr">
Emplacement : <a href="http://www.holzterrasse-bauanleitung.com/sitemap.xml" class="spip_url spip_out auto" rel="nofollow external">http://www.holzterrasse-bauanleitung.com/sitemap.xml</a><br class="autobr">
Numéro de ligne 3, Colonne 1 :</p>
<pre><code style="color:#000000;"><?xml version="1.0" encoding="UTF-8"?></code></pre>
<p>Avec IE, pas de message d'erreur.</p>
<p>Je regarde le source et le fichier est bien généré mais il y a trois lignes vides au début et je pense que l'erreur vient de là.<br class="autobr">
Je ne suis pas sûr que ces lignes vides soient interprétées en erreur par les robots mais dans le doute, j'aimerai tout de même corriger cela.</p>
<p>Avez-vous une idée<small class="fine d-inline"> </small>?</p>Le fichier robots.txt par défaut de SPIP2010-09-20T15:57:41Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4346672010-09-20T15:57:41Z<p>Le fichier robot.txt indique aux robots les répertoires à ne pas indexer et l'adresse du sitemap mais ne garanti pas l'indexation du site. Il faut soit attendre (en vérifiant qu'il existe des liens entrants vers le site, les robots ne vont pas le trouver tout seuls... un nouveau site en SPIP peut être par exemple déclaré sur spip.net) soit déclarer le site. Pour le leader français de la recherche ça se passe ici : <a href="http://www.google.com/addurl/?hl=fr&continue=/addurl" class="spip_url spip_out auto" rel="nofollow external">http://www.google.com/addurl/?hl=fr&continue=/addurl</a></p>
<p>Tu peux vérifier le bon fonctionnement en saisissant l'URL : http://[ton adresse]/robot.txt</p>
<p>Les fichiers dans squelettes-dist sont trouvés par SPIP s'ils n'existe pas le même fichier dans squelettes, donc inutile de le dupliquer si tu ne le modifie pas.</p>Le fichier robots.txt par défaut de SPIP2010-09-20T15:11:40Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4346632010-09-20T15:11:40Z<p>Bonjour,</p>
<p>J'ai activé le htacces sur mon site suite au passage en 2.0 et donc le robot.txt mais pas la moindre indexation des articles et même du site à vrai dire. Si je tape l'adresse du site dans google il ne trouve rien.<br class="autobr">
Faut-il bien laisser le squelette robot dans squelettes-dist<small class="fine d-inline"> </small>??? <br class="autobr">
Et sinon que faire<small class="fine d-inline"> </small>???</p>
<p>Merci à vous</p>
<p>Vince</p>Le fichier robots.txt par défaut de SPIP2010-03-01T12:18:47Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4270432010-03-01T12:18:47Z<p>Bonjour</p>
<p>J'ai des erreurs 404 sur le fichier win_width.htc<br class="autobr">
Je vois qu'il existe dans le dossiers squelettes-dist... Faudrait pas rajouter aussi une ligne dans le .htaccess<small class="fine d-inline"> </small>?</p>Et alors...<small class="fine d-inline"> </small>? Info. ou intox.<small class="fine d-inline"> </small>?2010-02-06T09:16:15Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4261052010-02-06T09:16:15Z<p>Merci. Me voilà rassuré<small class="fine d-inline"> </small>;-)</p>Et alors...<small class="fine d-inline"> </small>? Info. ou intox.<small class="fine d-inline"> </small>?2010-02-05T19:27:14Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4260942010-02-05T19:27:14Z<p>Les sources de SPIP sont publiques : nul besoin de ce fichier pour connaître la structure de ses répertoires.</p>Et alors...<small class="fine d-inline"> </small>? Info. ou intox.<small class="fine d-inline"> </small>?2010-02-05T18:28:07Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4260922010-02-05T18:28:07Z<p>Peut-on l'utiliser sans risque sans compétence approfondies ou est-il vraiment risqué de l'utiliser sans ces compétences<small class="fine d-inline"> </small>?</p>Le fichier robots.txt par défaut de SPIP2009-10-26T16:31:52Zhttps://contrib.spip.net/Le-fichier-robots-txt-par-defaut#comment4221862009-10-26T16:31:52Z<p>Bonjour,</p>
<p>Sans vouloir paraitre le moins du monde parano (ou autre<small class="fine d-inline"> </small>;)<br class="autobr">
le robots.txt est le premier fichier a etre lu par les vilains crackers<br class="autobr">
un fichier a utilisé avec prudence donc<small class="fine d-inline"> </small>;)</p>