Les modules de Yahoo Pipes : fonctionnalités – Niveau 2, 3 et 4 : du Groupage au Dédoublonnage

Cet article s’insère dans un ensemble destiné à montrer le cheminement nécessaire pour construire une plateforme de veille à partir d’outils gratuits.

Yahoo Pipes pour la veille

Yahoo Pipes_Plateforme de Veille

Différents modules peuvent être utilisés pour insérer des sources dans un Pipe. Nous présentons ci-dessous ceux utilisés couramment. Les niveaux 2-3-4 présentés ci-après s’insèrent entre le niveau 1 et le niveau 5.

Une carte générale, cliquable, est accessible à partir du schéma ci-dessous.

Schéma fonctions Yahoo Pipes filtrage

Yahoo Pipes_Fonctions filtrage

Niveau 2 : Groupage / dégroupage

  • Modules Union et Split (catégorie : Operators)

Le module union permet de réunir jusqu’à 5 modules pour n’obtenir qu’un seul flux. Split fonctionne exactement de manière opposée, il permet de séparer un flux en 5 sorties différentes.
Yahoo Pipes - Union et Split
La combinaison des modules Split et Union autorisent une agrégation ou une séparation d’un flux de manière plus pertinente que si nous mettions l’un derrière l’autre les modules concernés par ces fonctionnalités (quel que soit le module considéré).

Ainsi dans l’exemple présenté ci-dessus, le flux va être traité grâce au module Filter selon les critères autoriser (Permit) et arrêter (Block) simultanément, alors que la succession de ces deux modules aboutirait à un résultat tronqué : l’article dont l’auteur est Zimmer mais qui contient justice dans sa description ne passerait pas. Ce qui n’est pas le résultat souhaité.

Le module Union va permettre de respecter ces deux filtres tout en créant un flux unique pertinent.

 Niveau 3 : Filtrage

  • Module Filter (catégorie : Operators)

Le module Filter va permettre de bloquer ou d’autoriser la présence d’articles (items) selon différents critères.
Yahoo Pipes - FilterLe module Filter à gauche, bloque les flux qui contiennent :

  • dans leur titre le terme « fondamentaux »
  • OU dans leur lien le terme « piratage »
  • OU dans leur description le terme « justice »
  • OU qui ne contiennent pas dans leur description le mot « veille ».

Le module Filter à droite, autorise les flux qui contiennent :

  • dans leur titre le terme « moteur de recherche »
  • ET dont l’auteur est Zimmer
  • ET dont la description contient les mots « veille stratégique » .

Ce module va donc permettre de réaliser un filtrage précis des flux RSS sur les champs titre, lien, description, auteur, date de publication,… ou autres champs.

Nota : Usuellement il semble préférable de mettre le module block en premier afin d’exclure tous les articles possédant les mots-clés indésirables puis de travailler le solde des articles avec le module Permit afin de n’autoriser que les articles possédant les mots-clés recherchés (ceci évite tout conflit entre des articles possédant à la fois les mots-clés indésirables et ceux qui sont souhaités).

  • Module Regex (catégorie : Operators)- Généralités

Le module Regex permet de rechercher et de remplacer des chaînes de caractères en utilisant les expressions régulières. Dans le cadre de l’étape filtrage il va permettre d’améliorer la mise en forme des articles.
Yahoo Pipes - RegexAvec ce module il est possible de définir de multiples règles. Chacune a le format : «Dans [le champ remplacer [expression régulière] avec [texte] ». Ci-dessus, le module Regex a été utilisé pour remplacer Facebook par « FACEBOOK » et pour attribuer un titre à chaque article (item) grâce à l’opérateur (*) qui sélectionne dans ce cas la totalité du titre (l’ensemble des caractères) pour le remplacer par une autre expression.

  • Module String Regex (catégorie : String)

Le module String Regex fonctionne exactement de la même manière que le module Regex, il ne permet cependant pas la spécification d’un champ sur lequel effectuer une recherche-remplacement. Ce module est utilisé lorsque la recherche et le remplacement doivent s’effectuer sur l’ensemble des champs de l’article.
String Regex

  • Les modules Users Inputs (catégorie User Input)

Les modules Users Inputs (six en tout) permettent à un utilisateur d’entrer des données sur l’interface « run » d’un Pipe, mais également de transférer des chaines de caractères dans d’autres modules. Ainsi par exemple, pour effectuer une recherche sélective directement sur l’interface de sortie du pipe :

Ce pipe permet d’affiner une recherche à partir de diverses sources présélectionnées en entrant un mot clé, une date et/ ou une ville, etc.
Yahoo Pipes - Users InputNiveau 4 : Dédoublonnage

  • Module Unique (catégorie : Operators)

Le module Unique permet le dédoublonnage des flux RSS. Comme le montre l’exemple ci-dessous les doublons peuvent devenir envahissants.

Yahoo Pipes - Unique

Ce contenu a été publié dans Méthodes et outils, Outils logiciels pour l'exploitation de l'information, Outils logiciels pour la gestion de l'information, Veille métier, avec comme mot(s)-clé(s) , , , , , , , , . Vous pouvez le mettre en favoris avec ce permalien.

5 réponses à Les modules de Yahoo Pipes : fonctionnalités – Niveau 2, 3 et 4 : du Groupage au Dédoublonnage

  1. Ping : Les modules de Yahoo Pipes : fonctionnalités – Niveau 1 | Stratieo

  2. Ping : Les modules de Yahoo Pipes : fonctionnalités – Niveau 5 : Tri | Stratieo

  3. Marc dit :

    Le module filter semble limité à 10 éléments. Et on ne peut apparemment pas relier 2 modules filter / permit (ça ne génère plus rien en sortie).
    Du coup je ne vois pas d’autre solution que de faire autant de pipes que d’ensemble de 10 filtres, et de les relier entre eux. J’ai bon ? Ou il y a une subtilité ?
    Merci en tout cas pour toute cette doc qui m’a été bien utile.

  4. Marc dit :

    *Edit : J’ai trouvé la solution, via « Matches regex » qui permet donc d’inclure plusieurs mots séparés par des « | »

Répondre à Paul Annuler la réponse.

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *