Readability est au départ un javascript développé par la société arc90 qui permet de retirer tout le superflu d’une page Web, et d’en afficher le contenu essentiel, sans la navigation, la pub etc.
Ce script a depuis été porté par ses auteurs sous forme de service Web (www.readability.com). Apple l’a également installé en standard dans son navigateur Safari. Il en existe un portage en PHP, développé par Keyvan Minoukadeh. C’est ce dernier que nous incluons dans ce plugin.
Utilisation dans un plugin
Ce plugin offre au programmeur la fonction readability($url)
, laquelle renvoie la page web demandée, mais débarrassée du superflu.
Exemple d’usage :
<?php
$url = 'http://zzz.rezo.net/Utiliser-CouchDB-avec-SPIP.html';
include_spip('inc/readability');
$html = readability($url);
echo $html;
?>
À noter : dans le résultat renvoyé par la fonction, le titre de la page figure dans un <h1>
au dessus du contenu.
Il existe aussi une fonction readability_html($html)
si l’on veut passer un contenu en HTML (par exemple un fichier local).
Dans un squelette
La fonction est également disponible sous forme de filtre |readability
.
Exemples d’utilisation :
1. afficher le contenu d’un article distant dont l’URL a été obtenu par syndication :
<BOUCLE_s(SYNDIC_ARTICLES){id_article}>
[(#URL_ARTICLE|readability)]
</BOUCLE_s>
L’article ainsi « téléchargé » depuis le site distant s’affichera sur notre site (attention aux conditions de réutilisation du contenu initial).
2. récupérer le contenu d’une page précise et lui appliquer un filtre avant de l’afficher dans son propre site.
[(#VAL{http://zzz.rezo.net/Utiliser-CouchDB-avec-SPIP.html}
|readability
|supprimer_tags|mb_strlen) caractères]
[(#VAL{http://zzz.rezo.net/Utiliser-CouchDB-avec-SPIP.html}
|readability
|extraire_balise{img})]
L’exemple 2. affichera le nombre de caractères de l’article, et la première grande image appartenant à son contenu (et pas une petite image de l’interface du site ZZZ).
TODO
1. Un modèle pourrait certainement être pratique, pour « piker » un article directement dans un autre.
On peut imaginer <readability|url=....>
mais aussi <readability_title|url=....>
qui n’afficherait que le title de la page, et <readability_content|url=....>
qui n’afficherait que le contenu.
2. Les surtitre, sous-titre, chapo et notes de bas de page de SPIP sont perdus quand on applique readability, qu’il s’agisse de la version JS, de la version Apple ou de cette version PHP. Il faut donc trouver comment modifier les squelettes de la dist pour éliminer ce problème. D’après https://www.readability.com/publishers/guidelines/ si on veut contrôler le résultat, il faut passer en HTML5 et/ou utiliser le microformatage hNews.
Aucune discussion
Ajouter un commentaire
Avant de faire part d’un problème sur un plugin X, merci de lire ce qui suit :
Merci d’avance pour les personnes qui vous aideront !
Par ailleurs, n’oubliez pas que les contributeurs et contributrices ont une vie en dehors de SPIP.
Suivre les commentaires : |