La principale vocation du plugin Levenshtein est de proposer des corrections de mots lors de la recherche.
Dépendance
Pour fonctionner le plugin a besoin d’un lexique dans lequel faire les recherches et comparaisons.
Pour cela, il dispose du pipeline levenshtein_calculer.
Ce pipeline fournit 2 paramètres :
- mot : les mots qui sont candidats à être des corrections du mot.
- term : le mot à rechercher.
Exemple dans le plugin Vocabulaire :
function vocabulaire_levenshtein_calculer($flux) {
$get_lev = sql_allfetsel('mot', 'spip_vocabulaires', 'SOUNDEX(mot) = SOUNDEX('.sql_quote($flux['term']).')');
$flux['mot'] = array_merge($flux['mot'], $get_lev);
return $flux;
}
Ensuite, le plugin va calculer la distance de levenshtein et filtrer pour ne garder que les mots les plus proches.
L’affichage
L’affichage des propositions de correction se fait via la balise #LEVENSHTEIN. Si aucun paramètre n’est passé à la balise, elle utilisera automatiquement le contenu de la recherche (_request(’recherche’)).
Si un paramètre est passé à la balise, il sera utilisé à la place de ’recherche’ (_request(’mon_truc’))
Les SOUNDEX
L’utilisation des SOUNDEX de mysql est un précieux allié quand on travaille sur les corrections de mots.
Le plugin Vocabulaire référence 336531 mots français. Impossible de tester chaque mots avec la distance de Levenshtein, les serveurs classiques ne le supporteraient pas.
C’est là qu’interviennent les SOUNDEX, cela filtre les mots d’une base de donnée pour renvoyer les mots qui « sonne » comme les autres. Cela fait directement moins de mots à tester.
Ce plugin est installé sur le moteur de recherche de mon site personnel. N’hésitez pas à jouer avec !
Discussions par date d’activité
4 discussions
Bonjour,
J’obtiens cette erreur sur la page de configuration en spip3.1 :
1 Filtre levenshtein_spip non défini ../plugins/auto/levenshtein/v1.0.1/prive/squelettes/contenu/configurer_levenshtein.html
ainsi qu’un string(8) « broeutte »
Je réinstalle pour voir si dès fois...
J’ai la meme erreur. Avez-vous resolu ce probleme ?
Oui : j’ai désinstallé. :)
Est-ce que ce plugin est toujours d’actualité et fonctionnel en Spip 4.1 ?
Répondre à ce message
Merci pour ce plugin. Toutefois, puis-je suggerer de calculer la distance Levenshtein entre les mots en lowercase ? Car pour ma part, j’aime avoir les mots en lowercase dans mon URL (surtout que mon terme se trouve dans le path de l’URL et non pas en parametre), mais les titres des mots ont la premiere lettre en majuscules dans ma base de donnees.
exemple d’URL :
/recherche/toto/
Et mon titre dans la table spip_mots :
Toto
Ce cas donne une distance Levenshtein de 1, donc le plugin suggere a nouveau la recherche actuelle.
Aussi j’ai du modifier le code pour l’adapter a mon systeme d’URL. Un petit pipeline pour definir soi-meme les URLs a creer pour la suggestion serait pratique.
Répondre à ce message
Bonne nouvelle, Je ne savais pas que soundex avait une version française.
Quand je l’utilisais sous oracle, le résultat était assez cocasse, la prononciation anglaise étant différente de la française pour une même orthographe .
On a fini par me demander de l’enlever de mes programmes.
J’avoue que je ne me suis pas trop posé la question, j’ai testé soundex sur la base de donnée FR et ça fonctionnait, j’en ai fait un plugin.
Après c’est peut être simplement que MySQL supporte mieux soundex que Oracle... Ou alors ça fonctionne juste parce que j’ai de la chance :)
En faite, tu as complètement raison, les soundex MySQL ne fonctionnent bien qu’avec l’Anglais : http://dev.mysql.com/doc/refman/5.5/en/string-functions.html#function_soundex
Du coup, l’utilisation de Soundex est discutable, il faudrai un autre moyen de filtrer les mots...
Crotte !
Du coup, c’est moi qui suis déçu :-)
Après, comme tu as pu le constater, cela fonctionne quand même.
Il faut juste que l’utilisateur accepte de n’avoir -parfois- que des résultats sans rapport avec la saisie.
Répondre à ce message
Hello,
bravo pour cette initiative qui promet !
Là je galère un peu : j’ai installé les deux plugins : Levenshtein et Vocabulaire, importé fr.txt.
Mais le plugin ne semble pas prendre en compte la base installée dans spip_vocabulaires.
Du coup, à des fins de tests, j’ai désinstallé Vocabulaire et j’ai exactement les mêmes propositions
Qu’est ce que j’ai raté ?
Peetdu
ps : Et je n’ai pas compris comment / où utiliser la balise #LEVENSHTEIN ?
Je ne comprend pas trop, si tu n’as pas placer la balise levenshtein, il est impossible que le plugin renvoie des mots dans tes recherches.
Tu dois mettre la balise levenshtein dans ton squelette de recherche, par exemple sur mon site perso, j’ai fait ça : https://github.com/phenix-factory/p.henix.be/blob/master/squelettes/content/recherche.html
Répondre à ce message
Ajouter un commentaire
Avant de faire part d’un problème sur un plugin X, merci de lire ce qui suit :
Merci d’avance pour les personnes qui vous aideront !
Par ailleurs, n’oubliez pas que les contributeurs et contributrices ont une vie en dehors de SPIP.
Suivre les commentaires : |