Yahoo Pipes – Un agrégateur puissant pour le recueil et le traitement de l’information

Cet article s’insère dans un ensemble destiné à montrer le cheminement nécessaire pour construire une plateforme de veille à partir d’outils gratuits. Logo Yahoo Pipes

Yahoo Pipes (lancé en 2007) constitue l’ossature d’un système de veille « dans les nuages », grâce à ses diverses fonctionnalités de collecte, de traitement des flux et de diffusion (badges pour insertion sur site ou blog, mail, agrégateurs,…). Cette véritable « colonne vertébrale d’une plateforme de veille » (selon Terry Zimmer), permet de combiner et de traiter du contenu provenant de plusieurs types de sources et de générer en sortie un flux unique.

Il est possible de regrouper les sources autour de sujets prédéfinis en fonction de thématiques de Veille (concurrents, fournisseurs, marchés, outils logiciels, …). Yahoo Pipes fournit alors en sortie des flux thématiques centrés sur ces sujets, qui sont ensuite dirigés sélectivement vers les personnes concernées. Afin de parvenir à cet objectif une logique de traitement de l’information basée sur 5 niveaux est mise en place : la collecte de flux à partir de sources présélectionnées, le groupage, le filtrage, le dédoublonnage et le tri.

On constate dans l’exemple simplifié ci-dessus que les 249 résultats (items) une fois traités, débouchent sur une sélection de 44 résultats.

Notons que Yahoo Pipes accepte ou identifie les flux RSS proposés par les sources et permet d’en créer pour les pages n’en possédant pas. Il offre entre autre, la possibilité d’accéder à des sites requérant une authentification, de géo-localiser des données, de modifier le contenu des flux RSS, de permettre à un utilisateur de filtrer lui-même ses données,… Voir les excellents tutoriels mis en ligne par Etienne Cavalié « Liste des tutoriels de Yahoo Pipes ».

Ci-dessous, la description fonctionnelle des modules utilisés – ils seront décrit de façon plus opérationnelle ultérieurement voir Les modules de Yahoo Pipes : fonctionnalités.

Collecte. La fonction collecte est assurée essentiellement par Fetch Feed mais aussi, en fonction des contraintes liées au type de source utilisée, par les modules : Find First Site Feed, Feed Auto-discovery. Nous avons ajouté les fonctionnalités récentes (depuis mai 2012) apportées par le module XPath Fetch Page et Create RSS dont l’association permet de créer des flux RSS sur des pages n’en possédant pas.

Groupage. Il est évident qu’il est plus intéressant de réaliser des opérations de traitement sur un flux unique que de réaliser ce traitement de manière individuelle sur chacun des flux surveillés. Dans un second temps, nous réalisons donc une étape de groupage grâce au module Union. Cette action peut être reconduite à plusieurs niveaux du traitement des flux.

Dégroupage. Il est parfois nécessaire de réaliser simultanément diverses fonctions de traitement sur un même flux : tels est le rôle du module Split. C’est le cas par exemple lorsqu’on cherche à réaliser plusieurs type de filtrage (voir ci-dessous).

Filtrage. Pour diminuer le bruit dans les résultats de la collecte il est nécessaire de filtrer les flux à l’aide de mots-clés qui vont permettre de « bloquer » ou « autoriser » les articles selon leur adéquation avec ces mots : rôle du module Filter.

Dédoublonnage. Les résultats sont souvent inutilement encombrés par des doublons. Ce dédoublonnage est réalisé à l’aide du module Unique. Il peut être appliqué sur tout ou partie des champs (titre, description, lien, date, auteur, …) en fonction des nécessités. Pour notre part, nous utilisons essentiellement les champs titre et description. La pratique montre que le dédoublonnage a une efficacité limitée du fait qu’il porte sur une chaîne de caractères et non pas sur sa sémantique.

Tri. Enfin dans une dernière étape, un tri est nécessaire afin de présenter les résultats selon certains critères présélectionnés. Ce tri, effectué avec le module Sort, peut être réalisé par ordre chronologique ou sur du texte par ordre alphabétique et inverse. Afin d’assurer l’efficacité du module Sort il est parfois nécessaire de reformater les données relatives aux résultats à l’aide du module Regex qui permet de rechercher et de remplacer des caractères. Par exemple : les dates ne sont pas toujours au même format ce qui peut entrainer une confusion lors du traitement des données par le module Sort. Notons que le module Date Formatter assure également cette fonction.

Sans entrer dans le détail de la mise en œuvre des divers modules utilisés,  l’architecture générale qui présente la logique d’enchaînement des fonctions est schématisée ci-dessous (grâce au logiciel de cartographie conceptuelle Cmap Tools – voir dans ce blog l’article 9 « Visualisation de l’information : partie 1 et 2 »).

Prise de contact avec les interfaces de Yahoo Pipes

L’interface « My Pipes » accessible  en page d’accueil après la nécessaire phase de login, présente la liste des Pipes créés par l’utilisateur. Voir tutoriel vidéo Comment utiliser Yahoo Pipes pour gérer votre veille ou l’article : Yahoo Pipes, comment ça marche ?

L’interface de sortie « Run a pipe » présentée ci-dessous est accessible après la création et la sauvegarde d’un pipe ou par un clic sur le pipe concerné dans « My pipes ». « Run a Pipe » permet de visualiser la sortie du Pipe sélectionné, de lui affecter des tags, de le publier et d’accéder aux différents mode de diffusion du Pipe.

Yahoo Pipes - Interface Run PipeComme Marie Armand l’évoque dans l’article « Yahoo pipes : des infos dans le tuyau », l’interface de Yahoo Pipes est austère et peu familière au premier abord. Si les fonctionnalités permises sur le canevas sont nombreuses (l’interface de construction du pipe accessible soit en cliquant sur Edit Source – dans la barre d’onglets située sous le titre du Pipe – soit sur le schéma de canevas en bas de la colonne de gauche), celles de l’interface « Run Pipe » font l’objet d’un certain nombre d’insatisfactions qu’il serait souhaitable que Yahoo Pipes prennent en considération :

  • Amélioration de la lisibilité,
  • Ajout de fonctionnalités que l’on retrouve sur les agrégateurs  plus spécialisés dans la consultation (Netvibes, Google Reader,…) : tags par articles par exemple. En ce qui concerne les actions (tris, classements, …) sur les articles, Yahoo Pipes ne permet que l’accès à la page de l’article via un clic sur le titre,
  • Ergonomie améliorée, ainsi par exemple la consultation des différents flux stockés dans « My pipes » n’est possible qu’en ouvrant chacun des pipes l’un après l’autre.

Pour remédier à ces inconvénients, tout en gardant la richesse des fonctionnalités opérationnelles de Yahoo Pipes, il est souhaitable d’utiliser un deuxième agrégateur mieux adapté à la consultation des flux. Voir Article 6 – Google Reader et Feedly : consultation des flux et mise en page.

 

Ce contenu a été publié dans Méthodes et outils, Outils logiciels pour l'exploitation de l'information, Outils logiciels pour la gestion de l'information, Veille métier, avec comme mot(s)-clé(s) , , , , , , , , , , , . Vous pouvez le mettre en favoris avec ce permalien.

4 réponses à Yahoo Pipes – Un agrégateur puissant pour le recueil et le traitement de l’information

  1. Merci pour ce billet complet et pour votre mention 🙂

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *