La réécriture des URL « à la volée »

Le module Apache mod_rewrite

SPIP fournit en standard tout ce qu’il faut pour présenter des URL à l’apparence statique. Pour permettre au Webmaster de mieux comprendre le mécanisme de cette réécriture, découvrons ensemble la puissance du module Apache mod_rewrite, le « couteau Suisse de la manipulation »

Le module Apache mod_rewrite et la réécriture d’URL

Une des fonctions les plus puissantes permises par le fichier .htaccess est la réécriture « à la volée » des URL.
Sur le site officiel Apache, le module mod_rewrite est présenté à raison comme le couteau suisse de la manipulation.
Il est utile de préciser que certains hébergeurs n’ont pas activé le module de réécriture. Dans ce cas, vous n’avez malheureusement aucune possibilité de l’utiliser, à moins de casser le petit cochon en porcelaine qui traîne chez vous et changer d’hébergeur.

Si vous gérez votre propre serveur dédié, assurez-vous que le module mod_rewrite est activé en modifiant le cas échéant le fichier de configuration du serveur Apache (httpd.conf).
Vérifiez que les deux lignes suivantes ne soient pas mises en commentaire :

LoadModule rewrite_module modules/mod_rewrite.so
AddModule mod_rewrite.c


Si vous devez changer ces deux lignes, il vous faudra redémarrer Apache pour que vos modifications soient prises en compte.

On teste d’abord !

Avant de se lancer plus loin dans les explications, voici comment tester si le module mod_rewrite est actif chez votre hébergeur. Comme pour toutes manipulations qui peuvent impacter le bon fonctionnement de votre site, nous vous conseillons de faire ces essais en période creuse, en évitant par exemple la période de « full crawl » de Google.

1. Créez un fichier html simple, nommez le « trouve.html ».
2. Modifiez le fichier .htaccess en y ajoutant les 3 lignes suivantes. Faites très attention à utiliser la syntaxe précise ou mieux, utilisez le copier/coller :

Options +FollowSymlinks
RewriteEngine on 
RewriteRule   ^nexistepas.html$   trouve.html  [L]

Nous reviendrons plus tard sur l’explication de ces deux instructions

3. Télécharger le fichier .htaccess et le fichier trouve.html à la racine de votre site web, ou mieux encore dans un répertoire de test créé pour l’occasion. Laissez votre client FTP ouvert pour pouvoir enlever le fichier .htaccess au cas où cela ne fonctionne pas.
4. Lancez votre navigateur et entrez l’URL : http://www.votresite.com/nexistepas.html

Et là, deux solutions se présentent :

-  Soit votre page test « trouve.html » s’affiche c’est parfait, le module est activé.
-  Soit vous avez une erreur 404 ou encore plus probablement une erreur 500 et malheureusement il n’y a pas grand-chose à faire... si ce n’est retirer tout de suite le fichier .htaccess avec le client FTP (vous l’aviez bien laissé ouvert comme suggéré plus haut, non ?).

Si vous êtes face à ce deuxième cas, vous comprendrez mieux pourquoi nous vous avons suggéré de choisir une période creuse ainsi qu’un répertoire de test. Nous ne pouvons que répéter ici que toute modification du fichier .htaccess peut fortement impacter le fonctionnement de votre site web.

Heureusement, les problèmes rencontrés ne sont pas irréversibles et disparaissent avec la suppression du fichier ou des règles erronées. La prudence s’impose.

Quelques explications sur la règle précédente.

Dans les trois lignes de l’exemple ci-dessus, la première autorise le serveur Apache à suivre les liens symboliques dans ce répertoire. Son utilité permet de corriger un éventuel défaut de configuration dans le fichier httpd.conf.
La deuxième ligne est une instruction d’activation de la réécriture d’URL. Quelles que soient les règles de réécriture que vous voulez mettre en place, de la plus triviale à la plus complexe, l’instruction « RewriteEngine on » devra toujours être insérée dans le fichier .htaccess.
Elle donne simplement au serveur Apache l’instruction de lancer le moteur de réécriture.
La troisième ligne est la règle de réécriture proprement dite, analysons la plus en détail :

RewriteRule ce mot-clé introduit toute règle de réécriture, il est indispensable
^nexistepas.html$ c’est la première partie de la règle, celle qui determine la chaîne de caractères que le module devra rechercher pour la réécrire.
Elle contient deux caractères spéciaux marquant le début (^) et la fin ($) de la ligne
trouve.html la chaîne par laquelle il faudra remplacer celle trouvée à l’étape précédente. En règle générale, elle correspond au nom d’un fichier existant réellement dans votre espace Web.
[L] Un flag (drapeau) signifiant que cette règle est la dernière à appliquer dans ce cas ( L = last = dernier ) et que le module ne doit plus rechercher à réécrire cette chaîne.

Ce premier exemple est bien évidemment trivial mais vous servira de base à l’établissement de toutes les règles de réécriture que vous serez amené à rédiger.
Vous la trouvez trop simple ? Assurez-vous d’avoir parfaitement compris le mécanisme avant de passer aux étapes suivantes, cela va se corser !

Les pièges dans lesquels il ne faut pas tomber.

Nous l’avons déjà mentionné, mais jugeons utile de le répéter. La réécriture d’URL permet le meilleur comme le pire.
Imaginez 2 règles, la première réécrivant abc.html en def.html, la seconde réécrivant def.html en abc.html . Si aucune des deux règles ne comporte le flag [L], vous voilà face à une version informatisée du mouvement perpétuel. Vous avez créé une boucle de laquelle votre serveur ne pourrait pas sortir s’il n’avait ses propres mécanismes de sécurité.
L’aisance avec laquelle une règle mal écrite peut mettre un serveur « sur les genoux » est la raison principale de la non implémentation du module de réécriture chez certains hébergeurs.

Des règles plus utiles.

Il est clair que l’exemple précédent n’a pas de véritable utilité. Ce simple exemple aurait pu s’écrire beaucoup plus simplement avec une seule instruction « Redirect ».
Prenons un cas plus concret...
Les réécritures d’URL sont le plus souvent utilisées pour présenter aux visiteurs une URL plus mnémotechnique ou pour permettre à certains moteurs d’indexer des pages dynamiques avec de nombreux paramètres qu’ils n’auraient pas visité sans réécriture.
Pour les robots d’indexation, la raison en est simple.
Dans le cas d’une URL dynamique du type article.php?num=12 , un moteur ne peut pas déterminer s’il ne va pas tomber dans une boucle sans fin. Un script article.php mal écrit - volontairement ou non - peut l’entraîner vers une multitude de pages satellites ne différant que par leur URL. C’est pour la même raison qu’ils n’indexent pas les pages avec des identifiants de session PHP, une même page étant retournée au navigateur avec une multitude d’identifiants de session différents.

Vous avez un site sur lequel vous présentez un catalogue en ligne. Sur ce site, chaque article comporte 2 pages, par exemple une page commerciale et une fiche technique.
De plus, les informations concernant l’article sont extraites d’une base de données, en se basant sur le numéro d’article.
Les URL des deux pages de l’article 8125 seront donc sous la forme (si votre script se nomme article.php) :

http://www.votresite.tld/article.php?numero=8125&page=1
http://www.votresite.tld/article.php?numero=8125&page=2 

Vous préféreriez, et cela se comprend, que vos visiteurs accèdent à cet article par :

http://www.votresite.tld/article-8125-1.html 
http://www.votresite.tld/article-8125-2.html

Analysons point par point comment réécrire cette règle toujours simple.
Nous voyons dans ces URL qu’elles contiennent deux parties variables : le numéro d’article et le numéro de page, tout le reste étant fixe comme le nom du script et le nom des variables.
La règle s’écrirait comme ceci :

RewriteEngine on
RewriteRule ^article-([0-9]+)-([0-9]+)\.html$  article.php?numero=$1&page=$2  [L]

Cela vous semble compliqué ? Il n’en est rien, voici l’explication :

Nous ne reviendrons pas sur la ligne RewriteEngine on qui est, vous le savez, indispensable. Nous l’omettrons d’ailleurs de manière systématique pour la suite de nos exemples.

Nous retrouvons dans notre règle les parties constantes « article - - .html » et « article.php ?numero= &page= » que nous avons identifiées.
De même, les caractères de début (^) et fin ($) de ligne ont été expliqués précédemment.

Appliquons nous à remplir les blancs.

-  Partie gauche de l’expression

Dans cette partie, nous trouvons deux fois une même chaîne de caractères « ([0-9]+) » qui est basée sur les expressions régulières (regular expressions) familières aux utilisateurs Unix/Linux.
Les parenthèses carrées [ ] déterminent un intervalle, donc [0-9] détermine l’intervalle des nombres « 0 » à « 9 ».
Le signe « + » qui suit immédiatement l’intervalle signifie « une ou plusieurs occurrence(s) de l’expression qui précède », notre intervalle [0-9] dans cet exemple.
Ce qui signifie qu’avec l’intervalle suivi du signe « + », nous sommes en mesure de matérialiser tout nombre entier supérieur ou égal à 0 , ce qui correspond bien à la forme de notre numéro d’article.
Enfin, les parenthèses qui entourent le tout « ([0-9]+) » donnent instruction au moteur de réécriture de grouper la chaîne trouvée et la stocker dans une variable interne parce que nous souhaitons l’utiliser plus tard. Apache stockera donc ces chaînes dans les variables $1, $2, ... $n dans l’ordre dans lequel elles sont analysées, de gauche à droite et nous pourrons y faire référence dans la partie droite de notre règle.
Dans notre exemple, Apache aura stocké les chaînes « 8125 » dans la variable interne $1 et « 2 » dans la variable $2.
Le point décimal ayant une signification particulière dans les expressions, il est utile dans notre cas de le faire précéder par le caractère d’échappement « \. ». Nous verrons ceci plus en détail par la suite.

-  Partie droite de l’expression

Une fois compris ce qui précède, elle est vraiment triviale à comprendre.
Dans l’expression « article.php ?numero=$1&page=$2 » les variables $1 et $2 sont remplacées
respectivement par les chaînes « 8125 » et « 2 » ce qui nous donne bien l’URL avec les paramètres que notre script article.php s’attend à recevoir.
Le dernier élément « [L] » fait comprendre, comme expliqué précédemment que c’est la dernière règle qui s’applique pour cet élément.

Quelques expressions régulières à connaître :

. n’importe quel caractère
[abcd] n’importe lequel de cette liste de caractères
[^abcd] tout caractère non compris dans la liste (autre que a, b, c ou d)
blanc|noir alternative, soit « blanc », soit « noir »
+ Une ou N occurrence(s) de l’expression qui précède (N > 1)
* Zéro ou N occurrence(s) de l’expression qui précède (N>0)
(texte) Groupement permettant l’utilisation des références inverses ($1,... $n)
Est aussi utilisé pour délimiter une alternative comme dans (blanc|noir)
ancre de début de ligne
$ ancre de fin de ligne
\ permet d’échapper tout caractère qui suit et lui ôter sa signification particulière, par exemple \.

Quelques drapeaux (ou flags) utiles.

Voici quelques drapeaux utiles pour faciliter la maintenance d’un site :

[L] Celui-ci vous semble familier, comme nous l’avons vu dans notre précédent exemple. Il mérite toutefois une précision. Lorsque le module de réécriture est actif, les règles sont lues séquentiellement et l’URL est comparée ligne à ligne avec le premier argument de celles-ci jusqu’à la dernière.

Si une réécriture est effectuée, c’est la forme réécrite qui sera utilisée en entrée pour les règles suivantes.

Le flag [L] permet de sortir prématurément de la boucle.

Un autre exemple serait, en début d’une liste de règles :

RewriteRule ^.*\.gif$  -  [L]
RewriteRule ^.*\.jpg$  -  [L]
Nous introduisons ici un nouveau concept, à savoir un second argument vide (ou presque, car il consiste en un seul caractère « - » ) . Cette règle particulière implique qu’il n’y a pas de réécriture, l’URL étant passée sans modification aucune. Elle signale au serveur Apache de passer toutes les URL d’images gif ou jpg sans réécriture, ni traitement successif.
[R]

[R=code]

Dans ces deux formes une redirection est effectuée.

Si l’argument code n’est pas précisé, une redirection 302 (déplacé temporairement) est effectuée. Si vous souhaitez faire savoir au navigateur/robot qu’une page a été remplacée définitivement, utiliser le code 301 comme dans :

RewriteRule ^ancien\.html$ http://domaine.tld/nouveau.html [R=301,L]

Dans ce cas précis, une réécriture "externe" s’impose (utilisation de http://...)

Vous voyez ci-dessus que nous avons combiné deux flags en les séparant par une virgule.
[F] Forbidden - interdit. Retourne un code 403, par exemple :

RewriteRule ^secret.html$ - [F]

( pas de réécriture vu le deuxième argument - )

[NC] NoCase, ou « insensible à la casse ». La règle suivante :

RewriteRule  ^script\.php$  programme.php  [NC,L]

S’appliquera aussi bien à script .php, SCRIPT.PHP ou ScRiPt .PhP

[G] Gone. Cette page n’existe plus et retourne une entête http 410
[N] Force l’analyse et l’exécution de toutes les règles en repartant du début de la liste. Ici encore, comme expliqué plus haut ([L]), c’est l’URL modifiée après exécution de la dernière règle qui est utilisée en entrée, et non l’URL originelle. Attention aux boucles infinies !!
[C] Chain, chaînage avec la ou les règles suivantes jusqu’à la première règle ne se terminant pas par [C]

Apache interprète ce flag comme suit : s’il y a réécriture (la règle est vérifiée), la règle suivante est exécutée avec la chaîne réécrite en entrée.

Si la règle ne se vérifie pas, toutes les règles qui suivent jusqu’à la première ne comportant pas le flag [C] ne sont pas appliquées.

Cette liste n’est pas exhaustive, car il existe d’autres flags supportés. La liste complète est décrite dans la documentation du module mod_rewrite sur le site d’Apache.

Attention aux « répertoires virtuels »

Dans les exemples qui précèdent, nous avons effectué des réécritures qui n’impactaient pas l’arborescence apparente de vos pages, pour simplifier les exemples.

Si, au lieu de réécrire, en reprenant l’exemple précédent :
RewriteRule ^article-([0-9]+)-([0-9]+)\.html$  article.php?numero=$1&page=$2  [L]
nous utilisons
RewriteRule ^article/([0-9]+)/([0-9]+)\.html$  article.php?numero=$1&page=$2  [L]

L’URL apparente aurait la forme /article/8126/2.html au lieu de /article-8126-2.html
Dans ce cas, le navigateur « estime » que la page se trouve dans un répertoire /article/8126 qui n’a pas d’existence réelle sur votre site. Toute tentative de résolution de liens relatifs se fera donc à partir de ce répertoire inexistant et sera vouée à l’échec.

Pour éviter cela, deux solutions se présentent :

-  Utiliser des liens absolus, ou mieux...
-  Faire usage de la balise <base href="http://www.votresite.tld/repertoire/" > à mettre dans l'entête de votre page, entre <head> et  </head>

Les réécritures conditionnelles

Dans les quelques exemples qui précèdent, nous n’avons vu que des réécritures d’URL inconditionnelles, c.à.d. s’appliquant indépendamment du navigateur, de l’adresse IP ou du domaine émettant la requête.
Nous allons maintenant passer à l’étape suivante, à savoir la réécriture sous conditions, à travers quelques exemples concrets.

Une page d’accueil différente selon le navigateur

RewriteCond  %{HTTP_USER_AGENT}  ^Mozilla.*
RewriteRule  ^/$    /complexe.html  [L]
RewriteCond  %{HTTP_USER_AGENT}  ^Lynx.*
RewriteRule  ^/$    /simple.html  [L]
RewriteRule  ^/$    /standard.html  [L]
Un nouveau mot-clé fait son apparition ici : « RewriteCond » ou « condition de réécriture ».

La syntaxe est simple et de la forme :
RewriteCond variable_testée valeur_de_comparaison

Dans l’exemple, testons si l’identifiant du navigateur (%{HTTP_USER_AGENT}) commence par Mozilla (^Mozilla) et est suivi par une chaîne quelconque. (.*)
Si cette règle est vraie, nous réécrivons le répertoire racine du site(^/$ signifie « début de ligne/fin de ligne » ou simplement / seul sur la ligne)) en page « complexe.html » et arrêtons nos réécritures [L]
Procédons de meme pour Lynx, qui se satisfera d’une page simple vu ses fonctionnalités réduites et enfin, si aucune des 2 règles précédentes ne s’applique, soit pour tous les autres navigateurs, redirigons les vers notre page « standard.html »

Protégeons nos fichiers images

Evitons maintenant que d’autres sites ne fassent un lien direct vers nos images, en nous détournant de la bande passante :

RewriteEngine On
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://www.votredomaine.net/.*$ [NC]
ReWriteRule .*\.(gif|png|jpe?g)$ - [F]
En mettant plusieurs conditions à la suite, un ET logique est effectué entre elles. Pour que la règle de réécritue soit effectuée, il faut donc que toutes les conditions soient varies prises isolément. A la première condition FAUSSE, le moteur de réécriture branche directement après la règle et ne teste pas les conditions suivantes.
Si un OU logique est nécessaire, on rajoute le drapeau [OR] en fin de ligne, en le combinant aux autres le cas échéant [NC,OR]

Dans notre exemple, on compare la variable HTTP_REFERER au domaine du site.
Les conditions s’énonceraient en clair « Si la variable HTTP_REFERER n’est pas vide et n’est pas égale au nom de domaine http://www.votredomaine.net/ suivi de n’importe quelle chaîne de caractères (même vide) en faisant abstraction de la casse [NC], alors... »

Notez que le point d’exclamation inverse le test et signifie donc « n’est pas ».
Changez aussi le nom de domaine pour qu’il corresponde au vôtre.

La règle donne instruction de ne pas réécrire l’URL (grâce au signe - utilisé en second argument) mais de retourner une entête « 403 - Forbidden » pour tout fichier se terminant en .gif, .png , .jpeg et .jpg [F]

Le point d’interrogation suivant le « e » dans « jpe ?g » rend cette lettre facultative. Il y aura donc correspondance pour « jpg » et « jpeg ».

Un commentaire toutefois : Certains navigateurs permettent de masquer le HTTP_REFERER, et certains proxies ou firewall ne transmettent pas cette référence.
C’est la raison pour laquelle nous avons la première condition testant si HTTP_REFERER n’est pas vide. Sans cette règle, les visiteurs derrière certains firewall ou proxies ne verraient pas vos images.
Cette dernière limitation démontre bien qu’il n’est pas possible d’éliminer 100% des liens sauvages vers vos images puisqu’il suffit de masquer le HTTP_REFERER pour éviter l’interdiction. Une élimination de 95-98% des liens représente déjà une économie substantielle de bande passante.

Si vous souhaitez autoriser certains domaines amis à faire des liens directs, il suffit d’ajouter pour chacun d’eux une condition supplémentaire :

RewriteCond %{HTTP_REFERER} !^http://votredomaine.net/.*$ [NC]

Cet exemple permet d’accéder aux images dans le cas où votre domaine serait invoqué sans le sous-domaine « www ».

Débarrassons-nous des visiteurs indésirables

La condition s’écrira généralement sous une des formes suivantes :

RewriteCond %{REMOTE_HOST} ^badhost\.baddomain\.tld$
-  teste le nom d’un ordinateur hôte spécifique

RewriteCond %{REMOTE_HOST}  baddomain\.tld$
-  teste le domaine complet (se termine par..., notez l’absence du caractère ^)

RewriteCond %{HTTP_USER_AGENT}   ^VilainRobot.*
-  teste le nom du robot indésirable (HTTP_USER_AGENT commence par la chaîne « VilainRobot »)

RewriteCond %{REMOTE_ADDR}  ^123\.45\.67\.12[5-9]$
-  teste une plage d’adresses IP (de 123.45.67.125 à 123.45.67.129 inclus)

Pourquoi éviter certains robots ?

Tous les robots ne sont pas bénéfiques pour votre sites.
Certains d’entre-eux sont des aspirateurs de site, d’autres collectent les addresses email et finissent par remplir votre boîte aux lettres de courier non-sollicité (spam). Ils ont tous une caractéristique commune : utiliser les resources de votre serveur sans vous apporter aucun visiteur « utile ».
Tous ces robots « indélicats » ne respectent pas le protocole d’exclusion représenté sous la forme du fichier « /robots.txt ».

Soyez très attentifs dans l’écriture de vos règles d’exclusion, par exemple la condition :

RewriteCond %{HTTP_USER_AGENT}   Bot

est beaucoup trop générique et vous priverait du passage de GoogleBot, ce qui n’est sûrement pas ce que vous souhaitez.

Un exemple concret :

RewriteCond %{REMOTE_HOST}  \.laurion\.(com|net)$  [OR]
RewriteCond %{REMOTE_HOST} \.cn$ [OR]
RewriteRule ^.*$   -   [F]

La première condition interdit toute visite en provenance de laurion.com et laurion.net. Cela peut sembler un peu brutal comme règle mais ce robot ne respectant pas le protocole d’exclusion et ne se gênant pas pour « pomper » plus de 100 pages/minutes nous n’avons pas vraiment eu envie de mettre de gants le concernant.

Elle aurait pu s’écrire, en se basant sur le HTTP_USER_AGENT :

RewriteCond %{HTTP_USER_AGENT}  ^IPiumBot   [OR]

La deuxième condition élimine encore plus radicalement tout visiteur provenant de Chine.
Ces règles et conditions ne sont que des exemples et ne sont pas dictées par une quelconque xénophobie de la part de l’auteur. Elles ont néanmoins contribué à réduire de manière significative la bande passante utilisée.

Comment tester différents HTTP_USER_AGENT ?

Il est bien évident que nous ne pouvons pas installer tous les USER_AGENT possible, la liste est trop longue. Certains navigateurs tels que Opera permettent de choisir le USER_AGENT sous lequel on « butine »...
Certains sites Web permettent de vérifier les entêtes reçues très facilement, par exemple http://www.wannabrowser.com/
Cette page, combinée avec une analyse approfondie de vos fichiers logs, vous permettra de mettre au point vos conditions de réécriture pour les différents visiteurs de votre site.

Pour effectuer vos tests, il est judicieux de créer un répertoire temporaire sur votre site, dans lequel vous mettrez un fichier index.html et le fichier .htaccess sur lequel vous travaillez.
Une fois votre fichier .htaccess mis au point, déplacez le dans le répertoire que vous voulez protéger, ou à la racine de votre site.

Des règles différentes selon les répertoires

Un fichier .htaccess placé dans un répertoire régit l’accès à ce répertoire ainsi qu’à tous les sous-répertoires et fichiers de celui-ci.
Vous pouvez bien sûr avoir plusieurs fichiers .htaccess dans des répertoires différents, selon les différentes protections ou réécritures que vous désirez appliquer.

Dans le cas d’un fichier .htaccess situé dans un sous-répertoire du site, les règles et conditions remplacent celles définies à l’échelon supérieur.
Si votre souhait est d’ajouter des règles de réécriture à celles du niveau supérieur au lieu de les remplacer, ajoutez la ligne suivante juste après le « RewriteEngine on » :

RewriteOptions inherit

Cette instruction spécifie que toutes les règles et conditions définies au niveau supérieur sont héritées, en supplément à celles que vous rajouterez dans le fichier .htaccess

Discussion

49 discussions

  • Bonjour,
    comment créer un url rewriting qui fonctionne pour les liens suivants :

    "[(#URL_PAGE{article}|parametre_url{'id_rubrique',#ID_RUBRIQUE})]"

     ?

    Je ne suis pas très bon en code et votre aide serait vraiment bienvenue !
    Merci, Mickaël.

    Répondre à ce message

  • Bonjour

    j’ai un souci de référencement google

    ex :
    http://www.mondomaine.fr/Nouvel-atelier-de-transfo-de,338.html

    au lieu de
    http://www.mondomaine.fr/spip/Nouvel-atelier-de-transfo-de,338.html

    mon domaine pointe sur mon serveur sur une page index.html avec une anime flash
    puis le site (spip) ce trouve dans un sous dossier nommé « spip »
    ( j’utilise les url propre )

    sinon mon htaccess à la racine du site débute par ceci et je pense que mon problème vient de là

    ### Configuration sous-repertoire
    # Chez la plupart des hebergeurs il faut indiquer « RewriteBase / »
    # sinon modifiez cette ligne

    RewriteBase /spip/

    malheureusement il y as énormément de référencements du site
    avec le même problème

    j’ai donc ajouté

    Redirect permanent /-Espace-Grand-Public-.html http://www.mondomaine.fr/spip/-Espace-Grand-Public-.html

    et ça pour de multiples adresses ...
    Quelle est la solution pour redirigé l’ensemble des référencement google

    je ne voudrais pas faire de bourde

    merci pour toutes aide

    fabien

    Répondre à ce message

  • 2

    Bonjour

    Sur mon site SPIP, j’utilise les forums associés à chaque article mais aussi les forums de rubriques.

    Pour les forums de rubriques, je souhaiterai que les messages soient bien indexés par les moteurs de recherche.

    Et que donc, on y accède par des url propres au lieu d’url du type :

    www.monsite.info/spip.php?page=forum-message&id_rubrique=8&id_forum=2338

    Comment faire de l’url rewriting avec les pages des forums ?

    Merci

    • Salut Bruno, moi aussi je cherche à faire : « je souhaiterai que les messages soient bien indexés par les moteurs de recherche. » pour ne pas avoir ça :

      http://www.monsite.info/spip.php?page=forum-message&id_rubrique=8&id_forum=2338

      mais je ne trouve pas non plus - as tu trouvé depuis le temps ?

      merci

    • OUI, j’ai trouvé la solution. L’idée c’est de créer un format d’url spécial pour les forums. Et de réorienter vers un squelette thread.html avec le htaccess.
      Je te donne ce que j’ai fait mais c’est à adapter à ton site.

      Dans le htaccess, ajouter cette ligne :

      ###
      # Redirection des threads (forums)
      RewriteRule thread([0-9]+)/?(.+)?$	spip.php?page=thread&id_thread=$1 [QSA,L]

      et ajouter en l’adaptant le fichier thread.html dans le dossier squelette :

      #FILTRE{mini_html}
      [(#PARAMETRES_FORUM|?) Cette balise (invisible) provoque le recalcul du forum la premiere fois qu'un message est poste (cf. inc/invalideur). ]
      <BOUCLE_thread(FORUMS) {id_thread}>
      <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
      <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="#LANG" lang="#LANG" dir="#LANG_DIR">
      <head>
      <title>Question #ID_THREAD : [(#TITRE|textebrut)]</title>
      <meta name="description" content="[(#TEXTE|textebrut|couper{100})]" />
      <INCLURE{fond=inc-head}>
      <link rel="canonical" href="#URL_SITE_SPIP/thread#ID_THREAD/[(#TITRE|url_from_text)]" />
      </head>
      
      <body class="page_article">
      <div id="page">
      	[(#REM) Entete de la page + titre du site
      	-----------------------------------------]
      	<INCLURE{fond=inc-entete}>
      
      	[(#REM) Fil d'Ariane et traitement logo
      	---------------------------------------]
      	<BOUCLE_HIER_ART(ARTICLES){id_article=#ID_ARTICLE}>
      		<div id="hierarchie"><a href="#URL_SITE_SPIP/"><:accueil_site:></a><BOUCLE_ariane1(HIERARCHIE){id_article}> &gt; <a href="#URL_RUBRIQUE">[(#TITRE|couper{60}|supprimer_numero)]</a></BOUCLE_ariane1> &gt; <a href="#URL_ARTICLE">[(#TITRE|couper{60}|supprimer_numero)]</a>[ &gt; (#_thread:TITRE|couper{60}|supprimer_numero)]</div>
      			[(#LOGOTYPE|=={'1'}|?{' ',''})
      				[(#SET{image,[(#LOGO_ARTICLE_RUBRIQUE|logorond{100}|extraire_attribut{src})]})]
      			]
      			[(#LOGOTYPE|?{'',' '})
      				[(#SET{image,[(#LOGO_ARTICLE_RUBRIQUE|image_reduire{100,100}|extraire_attribut{src})]})]
      			]
      	</BOUCLE_HIER_ART>
      	</B_HIER_ART>
      		<BOUCLE_HIER_RUB(RUBRIQUES){id_rubrique=#ID_RUBRIQUE}>
      			<div id="hierarchie"><a href="#URL_SITE_SPIP/"><:accueil_site:></a><BOUCLE_ariane2(HIERARCHIE){id_article}> &gt; <a href="#URL_RUBRIQUE">[(#TITRE|couper{60}|supprimer_numero)]</a></BOUCLE_ariane2>[ &gt; (#_thread:TITRE|couper{60}|supprimer_numero)]</div>
      				[(#LOGOTYPE|=={'1'}|?{' ',''})
      					[(#SET{image,[(#LOGO_ARTICLE_RUBRIQUE|logorond{100}|extraire_attribut{src})]})]
      				]
      				[(#LOGOTYPE|?{'',' '})
      					[(#SET{image,[(#LOGO_ARTICLE_RUBRIQUE|image_reduire{100,100}|extraire_attribut{src})]})]
      				]
      		</BOUCLE_HIER_RUB>
      	<//B_HIER_ART>
      
      
      	<div id="conteneur">
      
      		[(#REM) Contenu principal : contenu de la thread
      		------------------------------------------------]
      		<div id="contenu">
      			[(#REM) Préparation infos auteur
      			-------------------------------- ]
      			<BOUCLE_TESTAUTEUR1(CONDITION) {si #ID_AUTEUR|>{0}}>
      				[(#REM) Auteur enregistré]
      				<BOUCLE_AUTEUR1(AUTEURS){id_auteur=#ID_AUTEUR}{tout}>
      					[(#SET{cartouche,<div class="cartouche"><a rel='nofollow' class='nopuce' href='[(#URL_AUTEUR)]'>	[(#LOGO_AUTEUR|=={''}|?{' ',''})<img src="[(#CHEMIN{auteur.png})]" alt='Membre' />] [(#LOGO_AUTEUR|!={''}|?{' ',''})[(#LOGO_AUTEUR|logorond{60})]] </a><p><small><abbr class="published" title="[(#DATE|date_iso)]">[(#DATE|affdate_jourcourt)][&nbsp;(#DATE|heures)][:(#DATE|minutes)]</abbr>[,<br/><:par_auteur:> <a rel='nofollow' class='nopuce notvisited' href='[(#URL_AUTEUR)]'>(#NOM)</a>][<br/>&#91;<a rel='nofollow' class='nopuce' href="/ecrire/?exec=auteur_infos&id_auteur=(#ID_AUTEUR)"><span class="notvisited">Profil</span></a>&#93;][<br/><a class="spip_out" href="#URL_SITE">(#NOM_SITE)</a>]</small></p></div>})]
      				</BOUCLE_AUTEUR1>
      			</BOUCLE_TESTAUTEUR1>
      				[(#REM) Auteur anonyme]
      				[(#SET{cartouche,<div class="cartouche"><img src="[(#CHEMIN{anonyme.png})]" alt='Non-Membre' /><p><small><abbr class="published" title="[(#DATE|date_iso)]">[(#DATE|affdate_jourcourt)][&nbsp;(#DATE|heures)][:(#DATE|minutes)]</abbr>[,<br/><:par_auteur:> (#NOM)]</small></p></div>})]
      			<//B_TESTAUTEUR1>
      
      			[(#INCLURE{fond=box_start}{boxtype=3}
      				{img1-file=#GET{image}} {img1-class=img-article}
      				{text-title=<big>[(#TITRE|supprimer_numero|textebrut)]</big>} {text-class=#EDIT{titre} titre text-title-article #EDIT{titre}}
      				{text-subtitle=[(#SOUSTITRE)<br />][(#GET{cartouche})]} {text-subtitle-class=soustitre}
      				{text-tag=h1}
      			)]
      				<div class="article">
      					[<p class="#EDIT{hyperlien} lien"><:voir_en_ligne:> : <a href="(#URL_SITE)" class="spip_out">[(#NOM_SITE|sinon{[(#URL_SITE|couper{80})]})]</a></p>]
      					[<div id="texte" class="#EDIT{texte} #EDIT{fichier} forum-texte">(#TEXTE*|accordeon|autoriser_php|br|propre|liens_ouvrants|image_reduire{560,0})</div>]
      
        					[(#REM) Document lié au message
      						--------------------------------]
      						<BOUCLE_doc_lien(spip_documents_liens) {id_objet=#ID_FORUM} {objet=forum} >
      							<BOUCLE_doc(DOCUMENTS) {id_document=#ID_DOCUMENT}>
      								 [(#LOGO_DOCUMENT|#URL_DOCUMENT)]
      							</BOUCLE_doc>
      						</BOUCLE_doc_lien>
      
      
      						[<p class="#EDIT{hyperlien} forum-lien"><:voir_en_ligne:> : <a href="(#URL_SITE)" rel="nofollow" class="spip_out">[(#NOM_SITE|sinon{[(#URL_SITE|couper{80})]})]</a></p>]
      
      						<p class="forum-repondre-message"><a class="spip_in notvisited" href="#repondre"><:repondre_message:>&nbsp;&#40;#NOM&#41;</a></p>
      
      
      
      [(#REM) prépare une partie du formulaire de déplacement du message qui est inclu dans inc_deplacer_forum
      pour que le calcul ne soit fait qu'une seule fois et pas pour chaque message du forum
      uniquement pour l'administrateur]
      <BOUCLE_test_session1(CONDITION){si #SESSION{statut}|=={0minirezo}|oui}>
      	ADMIN
      	#SET{select_rub,<select name="rubrique_dest" style="width:200px;">}
      	<BOUCLE_depforum_rubriques(RUBRIQUES){tout}{par titre}>
      		[(#SET{select_rub,#GET{select_rub} <option value="#ID_RUBRIQUE">[(#TITRE|supprimer_numero)]</option>})]
      	</BOUCLE_depforum_rubriques>
      	#SET{select_rub,#GET*{select_rub}</select>}
      
      	#SET{select_art,<select name="article_dest" style="width:200px;">}
      	<BOUCLE_depforum_articles(ARTICLES){tout}{par titre}>
      		[(#SET{select_art,#GET{select_art} <option value="#ID_ARTICLE">[(#TITRE|supprimer_numero)]</option>})]
      	</BOUCLE_depforum_articles>
      	#SET{select_art,#GET*{select_art}</select>}
      </BOUCLE_test_session1>
      
      					[(#SESSION{statut}|=={0minirezo}|oui)
      					<INCLURE{fond=inc_supprimer_forum}{id_forum=#ID_FORUM}>
      					<INCLURE{fond=inc_deplacer_forum}{id_forum=#ID_FORUM}{select_rub=#GET{select_rub}}{select_art=#GET{select_art}}>
      					]
      
      
      
      
      
      					<div class='forum-fil'>
      						<B_forums_fils>
      							[(#REM)	le bandeau de pub au début de l'article
      							------------------------------------------------]
      							[(#CONFIG{'article/pub2'}|=={'0'}|?{'',' '})
      								[(#NO_PUB|=={'oui'}|?{'',' '})
      									[(#INCLURE{fond=inc-pub2}{id_article})]
      									<br clear='all'>
      								]
      							]
      
      							<ul class='forum'>
      						<BOUCLE_forums_fils(FORUMS){id_parent}{par date}>
      
      						<li>
      							<div class="forum-message" >
      								<div class="forum-chapo">
      									[(#REM) Infos Auteur
      									--------------------]
      									<BOUCLE_TESTAUTEUR2(CONDITION) {si #ID_AUTEUR|>{0}}>
      										[(#REM) Auteur enregistré]
      										<BOUCLE_AUTEUR2(AUTEURS){id_auteur=#ID_AUTEUR}{tout}>
      											<a rel='nofollow' href="#URL_AUTEUR">
      												[(#LOGO_AUTEUR|!={''}|?{' ',''})[(#LOGO_AUTEUR|logorond{60})]]
      												[(#LOGO_AUTEUR|=={''}|?{' ',''})<img src="[(#CHEMIN{auteur.png})]" alt='Membre' />]
      											</a>
      											<div class="#EDIT{titre} forum-titre"><a href="#forum#ID_FORUM" name="forum#ID_FORUM" id="forum#ID_FORUM">#TITRE</a></div>
      											<small>[(#DATE|affdate_jourcourt)][&nbsp;(#DATE|heures)][:(#DATE|minutes)][, <:par_auteur:> <a href="#URL_AUTEUR"><span class="#EDIT{qui} notvisited">(#NOM|couper{80})</span></a>]&nbsp;[<a rel='nofollow' href="/ecrire/?exec=auteur_infos%26id_auteur=#ID_AUTEUR"><span class="notvisited">Profil</span></a>]&nbsp;<a class="spip_out" href="#URL_SITE">#NOM_SITE</a></small>
      										</BOUCLE_AUTEUR2>
      									</BOUCLE_TESTAUTEUR2>
      										[(#REM) Auteur anonyme]
      										<img src="#CHEMIN{anonyme.png}" alt='Non-Membre' />
      										<strong class="#EDIT{titre} forum-titre"><a href="#forum#ID_FORUM" name="forum#ID_FORUM" id="forum#ID_FORUM">#TITRE</a></strong>
      										<small>[(#DATE|affdate_jourcourt)][&nbsp;(#DATE|heures)][:(#DATE|minutes)][, <:par_auteur:> <span class="#EDIT{qui}">(#NOM|couper{80})</span>]</small>
      									<//B_TESTAUTEUR2>
      								</div>
      
      								<div class="#EDIT{texte} forum-texte">
      									[(#TEXTE|lignes_longues)]
      									[<p class="#EDIT{hyperlien} forum-lien"><:voir_en_ligne:> : <a href="(#URL_SITE)" rel="nofollow" class="spip_out">[(#NOM_SITE|sinon{[(#URL_SITE|couper{80})]})]</a></p>]
      
      									<br class='nettoyeur' />
      									[(#REM) Document lié au message
      									--------------------------------]
      									<BOUCLE_doc_lien_fils(spip_documents_liens) {id_objet=#ID_FORUM} {objet=forum} >
      										<BOUCLE_doc_fils(DOCUMENTS) {id_document=#ID_DOCUMENT}>
      											 [(#LOGO_DOCUMENT|#URL_DOCUMENT)]
      										</BOUCLE_doc_fils>
      									</BOUCLE_doc_lien_fils>
      
      
      									[(#SESSION{statut}|=={0minirezo}|oui)
      										<INCLURE{fond=inc_supprimer_forum}{id_forum=#ID_FORUM}>
      										<INCLURE{fond=inc_racine_forum}{id_forum=#ID_FORUM}>
      									]
      
      									[<p class="forum-repondre-message"><a class="spip_in notvisited" href="(#PARAMETRES_FORUM|url_reponse_forum|parametre_url{'url_retour',#SELF})"><:repondre_message:>&nbsp;&#40;#NOM&#41;</a></p>]
      								</div>
      							</div>
      							<BOUCLE_Forums_Boucle(boucle_forums_fils)></BOUCLE_Forums_Boucle>
      						</li>
      
      						</BOUCLE_forums_fils>
      							</ul>
      						</B_forums_fils>
      					</div> <!-- forum-message -->
      
      					[(#REM)	la pub en fin d'article
      					--------------------------------]
      					[(#CONFIG{'article/pub3'}|=={'0'}|?{'',' '})
      						[(#NO_PUB|=={'oui'}|?{'',' '})
      							[(#INCLURE{fond=inc-pub3}{id_article})]
      						]
      					]
      
      					<br class='nettoyeur' />
      				</div> <!-- article -->
      			[(#INCLURE{fond=box_end}{boxtype=3})]
      
      			<p id="repondre"></p>
      			#FORMULAIRE_FORUM{#SELF#forum#ID_FORUM}
      
      			[(#REM) Abonnement Ó la lettre d'informations
      			---------------------------------------------]
      			<br class='nettoyeur' />
      			[(#CONFIG{'article/newsletter'}|=={'1'}|?{' ',''})
      				#FORMULAIRE_SPIP_LISTES_INSCRIPTION{#CONFIG{'article/newsletter_num'}}
      			]
      
      
      			[(#REM) Affiche une formulaire de devis KELTRAVO
      			------------------------------------------------]
      			[(#INCLURE{fond=inc-keltravo}{id_rubrique})]
      
      		</div> <!-- contenu -->
      
      		[(#REM) Menu de navigation laterale
      		-----------------------------------]
      		<div id="navigation">
      
      
      			[(#REM) Navigation THELIA
      			-------------------------]
      			[(#INCLURE{fond=inc-thelia-nav})]
      
      			[(#REM) Affiche un tÚmoignage alÚatoire.
      			L'option peut Ûtre dÚs/activÚe globalement dans CFG Article
      			Si c'est le cas, l'option peut Ûtre dÚs/activÚe pour chaque article
      			-------------------------------------------------------------------]
      			[(#NO_TEMOIN|=={'oui'}|?{'',' '})
      				[(#CONFIG{'article/temoin'}|=={'0'}|?{'',' '})
      					<INCLURE{fond=inc-temoignage}{id_article}>
      				]
      			]
      
      
      			[(#REM) Capture des prospects
      			-----------------------------]
      			[(#NO_SQUEEZE|=={'oui'}|?{'',' '})
      				[(#INCLURE{fond=inc-squeeze})]
      			]
      
      			[(#REM) Affiche un encart pour inscription Artisans KELTRAVO
      			-----------------------------------------------------------]
      			[(#INCLURE{fond=inc-keltravo-artisan})]
      
      		</div><!-- fin navigation -->
      	</div><!-- fin conteneur -->
      
      	[(#REM) Pied de page ]
      	[(#INCLURE{fond=inc-pied})]
      
      </div><!-- fin page -->
      
      </body>
      </html>
      
      </BOUCLE_thread>
      <//B_thread>

    Répondre à ce message

  • Pascal Boulerie

    L’article ne parle pas de la directive RewriteBase , essentielle quand le site est hébergé dans un sous-répertoire et non pas à la racine.

    L’adresse http://immo.wildcroft.com/publication/article27.html est obsolète et ne permet plus d’accéder à l’article consacré au fichier .htaccess. Cet article semble toutefois être disponible ici-même :
    http://www.spip-contrib.net/Le-fichier-htaccess

    Répondre à ce message

  • Bonjour,

    J’ai cherché sur le Net, mais n’ai point trouvé. Y aurait-il moyen que l’URL rewriting de SPIP convertisse toutes ses URLs en minuscules ? C’est tout simple, on est culturellement habitué aux minuscules dans les URLs, et SPIP respecte la casse du titre d’origine. Existe-t-il un moyen simple de convertir et d’utiliser des URLs toutes en minuscules ?

    Je précise, j’utilise SPIP 1.9.2 et bientôt — dès que j’ai trouvé des équivalences de plugins — SPIP 2.0.

    Je vous remercie d’avance.

    Répondre à ce message

  • Bonjour,
    J’ai mis en place sur mon site la réécriture d’URL. J’utilise pour cela le fichier inc-urls-html.php3 et j’ai mis dans .htacces ceci :

    RewriteEngine on

    # urls spip

    RewriteRule ^article([0-9]+)\.html$ /article.php3 ?id_article=$1 [L]

    RewriteRule ^rubrique([0-9]+)\.html$ /rubrique.php3 ?id_rubrique=$1 [L]

    RewriteRule ^breve([0-9]+)\.html$ /breve.php3 ?id_breve=$1 [L]

    Cela marche sauf pour deux choses :

    -  le surlignage dans le moteur de recherche : j’obtiens une url du type article55.html ?var_recherche=xxx mais sans surlignage du mot cherché

    -  la découpe d’un article en pages et le sommaire (voir http://www.spip-contrib.net/article175.html) : j’obtiens une url du type article55.html ?artsuite=2#sommaire_1 mais je n’arrive pas à changer de page.

    Bref tout se passe comme si ce qui suit articlexx.html n’était pas interpreter.

    Merci d’avance pour votre aide.

    Répondre à ce message

  • Juste une chose que personne ne dit ! Et en local histoire de tester tout ca avant de le mettre en exploitation comment on fait ? Bon en cherchant j’ai fini par comprendre mais j’ai du changer tout mes liens de par exemple
    index.php ?id=untexte
    en
    index-untexte.html

    Sinon est-ce normal de ne pas avoir eu a écrire

    AddModule mod_rewrite.c

    dans le fichier httpd.conf

    Répondre à ce message

  • pl4tipus

    Bonjour à tous !
    Juste au sujet des dossiers virtuels, (arrêtez moi si je me goure), l’ajout de la balise <base /> n’est pas forcement necessaire dans l"hypothese ou l’on insererait un « \ » juste avant le slash, pour enlever au caractere sa signification veritable au sein d’une expression, ce qui donnerait un truc du genre :

    Options +FollowSymlinks

    RewriteEngine on

    RewriteRule ^(.+)\/([0-9]+)\.html$ index.php ?page=$1&id=$2 [F]

    Répondre à ce message

  • Je viens de découvrir les variantes de squelette, c’est Génial !
    Les réécriture d’url c’est génial !!!!
    Mais est ce que quelqu’un saurait combiner les deux ??????
    merci d’avance !

    Répondre à ce message

  • Excellent article ! très pédagogique :-)

    j’ai quelques peu modifié les lignes « Protégeons nos fichiers images »

    RewriteCond %{HTTP_REFERER} !^$
    RewriteCond %{HTTP_REFERER} !^http://www.domaine.net/.*$ [NC]
    RewriteRule .*\.(gif|png|jpe?g)$ http://www.domaine.net/stop_vol.img [R=301,L]

    le fichier « stop_vol.img » étant en fait une image (renommée) GIF ou autre ...

    c’est un peu « bourrin » mais je ne trouve pas comment faire mieux :

    -  empêcher toutes les images sauf celle qui viendra en remplacement, qui pourra donc afficher un message, une bombe, un truc fun ...

    si vous trouvez ça m’intéresse,
    merci :-)

    Répondre à ce message

Ajouter un commentaire

Avant de faire part d’un problème sur un plugin X, merci de lire ce qui suit :

  • Désactiver tous les plugins que vous ne voulez pas tester afin de vous assurer que le bug vient bien du plugin X. Cela vous évitera d’écrire sur le forum d’une contribution qui n’est finalement pas en cause.
  • Cherchez et notez les numéros de version de tout ce qui est en place au moment du test :
    • version de SPIP, en bas de la partie privée
    • version du plugin testé et des éventuels plugins nécessités
    • version de PHP (exec=info en partie privée)
    • version de MySQL / SQLite
  • Si votre problème concerne la partie publique de votre site, donnez une URL où le bug est visible, pour que les gens puissent voir par eux-mêmes.
  • En cas de page blanche, merci d’activer l’affichage des erreurs, et d’indiquer ensuite l’erreur qui apparaît.

Merci d’avance pour les personnes qui vous aideront !

Par ailleurs, n’oubliez pas que les contributeurs et contributrices ont une vie en dehors de SPIP.

Qui êtes-vous ?
[Se connecter]

Pour afficher votre trombine avec votre message, enregistrez-la d’abord sur gravatar.com (gratuit et indolore) et n’oubliez pas d’indiquer votre adresse e-mail ici.

Ajoutez votre commentaire ici

Ce champ accepte les raccourcis SPIP {{gras}} {italique} -*liste [texte->url] <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Ajouter un document

Suivre les commentaires : RSS 2.0 | Atom