Readability

Extraire le contenu pertinent d’une page Web.

Readability est au départ un javascript développé par la société arc90 qui permet de retirer tout le superflu d’une page Web, et d’en afficher le contenu essentiel, sans la navigation, la pub etc.

Ce script a depuis été porté par ses auteurs sous forme de service Web (www.readability.com). Apple l’a également installé en standard dans son navigateur Safari. Il en existe un portage en PHP, développé par Keyvan Minoukadeh. C’est ce dernier que nous incluons dans ce plugin.

Utilisation dans un plugin

Ce plugin offre au programmeur la fonction readability($url), laquelle renvoie la page web demandée, mais débarrassée du superflu.

Exemple d’usage :

<?php
$url = 'http://zzz.rezo.net/Utiliser-CouchDB-avec-SPIP.html';
include_spip('inc/readability');
$html = readability($url);
echo $html;
?>

À noter : dans le résultat renvoyé par la fonction, le titre de la page figure dans un <h1> au dessus du contenu.

Il existe aussi une fonction readability_html($html) si l’on veut passer un contenu en HTML (par exemple un fichier local).

Dans un squelette

La fonction est également disponible sous forme de filtre |readability.

Exemples d’utilisation :

1. afficher le contenu d’un article distant dont l’URL a été obtenu par syndication :

<BOUCLE_s(SYNDIC_ARTICLES){id_article}>
[(#URL_ARTICLE|readability)]
</BOUCLE_s>

L’article ainsi « téléchargé » depuis le site distant s’affichera sur notre site (attention aux conditions de réutilisation du contenu initial).

2. récupérer le contenu d’une page précise et lui appliquer un filtre avant de l’afficher dans son propre site.

[(#VAL{http://zzz.rezo.net/Utiliser-CouchDB-avec-SPIP.html}
   |readability
   |supprimer_tags|mb_strlen) caractères]
[(#VAL{http://zzz.rezo.net/Utiliser-CouchDB-avec-SPIP.html}
   |readability
   |extraire_balise{img})]

L’exemple 2. affichera le nombre de caractères de l’article, et la première grande image appartenant à son contenu (et pas une petite image de l’interface du site ZZZ).

TODO

1. Un modèle pourrait certainement être pratique, pour «piker» un article directement dans un autre.

On peut imaginer <readability|url=....> mais aussi <readability_title|url=....> qui n’afficherait que le title de la page, et <readability_content|url=....> qui n’afficherait que le contenu.

2. Les surtitre, sous-titre, chapo et notes de bas de page de SPIP sont perdus quand on applique readability, qu’il s’agisse de la version JS, de la version Apple ou de cette version PHP. Il faut donc trouver comment modifier les squelettes de la dist pour éliminer ce problème. D’après https://www.readability.com/publishers/guidelines/ si on veut contrôler le résultat, il faut passer en HTML5 et/ou utiliser le microformatage hNews.

updated on 2 October 2019

Discussion

Aucune discussion

Comment on this article

Who are you?
  • [Log in]

To show your avatar with your message, register it first on gravatar.com (free et painless) and don’t forget to indicate your Email addresse here.

Enter your comment here

This form accepts SPIP shortcuts {{bold}} {italic} -*list [text->url] <quote> <code> and HTML code <q> <del> <ins>. To create paragraphs, just leave empty lines.

Add a document

Follow the comments: RSS 2.0 | Atom