Les modules de Yahoo Pipes : fonctionnalités – Niveau 1 : Collecte

Cet article s’insère dans un ensemble destiné à montrer le cheminement nécessaire pour construire une plateforme de veille à partir d’outils gratuits.

Yahoo Pipes pour la veille

Yahoo Pipes_Plateforme de Veille

Nous allons commenter ici les 5 niveaux  de traitement de l’information que propose Yahoo Pipes:
- Niveau 1 : Collecte – décrit ci-dessous
-Niveau 2-3-4: Groupage/dégroupage, Filtrage, Dédoublonnage
– Niveau 5 :  Tri et Formatage

Dans un soucis de complémentarité voici quelques tutoriels présentant en partie les modules ci-dessous : Tutoriel vidéo Learn How to Build a Pipe in Just a Few Minutes in Yahoo !; Tutoriel vidéo How to Translate a Feed Using Pipes on Yahoo !; Pipes tutorial ; Pipes utilisateurs.

Niveau 1 : Collecte

Différents modules peuvent être utilisés pour insérer des sources dans un Pipe. Nous présentons ci-dessous ceux utilisés couramment.

Une carte générale, cliquable, est accessible à partir du schéma ci-dessous.

  • Module Fetch Feed (catégorie : Sources)
    Le module Fetch Feed permet d’insérer un flux RSS dans le Pipe.Yahoo Pipes - Fetch Feed
  • Module Find First Site Feed (catégorie : sources)
    Le module Find First Site Feed recherche dans une page Web (format HTML) l’existence d’un flux RSS (utile lorsque celui-ci n’est pas visible au premier coup d’œil). Cependant il ne sélectionne que le premier flux RSS détecté. Il faut donc savoir que dans le cas de certains sites, tels que 01net qui propose plusieurs fils RSS, Find First Site Feed propose un signalement tronqué.
  • Module Feed Auto-discovery (catégorie : Sources)
    Ce module examine le code de la page HTML et trouve les URL relatives aux flux RSS afin d’éviter la recherche fastidieuse des flux.
    Yahoo Pipes - Feed 1 Auto-DiscoveryPour extraire le contenu des flux identifiés, nous devons passer par l’intermédiaire d’un nouveau module : le module Loop. Car Feed Auto Discovery et Fetch Feed étant deux modules ”Sources‟ de Yahoo Pipes ils ne peuvent être connectés directement entre eux.
  • Module Loop (catégorie : Operators)
    Ce module permet d’encapsuler un autre module (ou un Pipe), dans le cas ci-dessous Fetch Feed. Si dans le module Loop, on coche la case « emit results », la sortie de Loop produit le contenu du module encapsulé.
    Yahoo Pipes - Loop et Fetch Feed
  • Après avoir connecté une source d’entrée, les menus déroulants attachés aux cases à cocher sont dynamiquement mis à jour pour fournir des critères supplémentaires parmi lesquels il est nécessaire de faire un choix.Yahoo Pipes - Feed Auto-Discovery, Loop et Fetch FeedCi-dessus, un exemple de l’utilisation de module Auto-discovery couplé au module Loop et Fetch Feed dans le but d’extraire tous les flux RSS de 01.net.
  • Le module XPath Fetch Page (catégorie : Source) et  Create RSS (catégorie : Operators)

Yahoo Pipes met à disposition des modules qui peuvent s’avérer très utiles pour créer des fils RSS pour une page n’en proposant pas.

Le module XPath Fetch Page remplace le module Fetch Page depuis mai 2012 (voir rubrique Deprecated – obsolète).

Il faut tout d’abord insérer l’URL de la page pour laquelle on cherche à créer un flux RSS dans le module XPath Fetch Page. Exemple à partir de la page d’Internet Actu (concernant les moteurs de recherche) :

Yahoo Pipes - XPath Fetch PageIl est alors nécessaire d’identifier dans le debugger les bdeprivationalises contenant les informations à transformer (les articles), puis il faut retranscrire ce code en utilisant les commandes XPath.

Retour sur quelques notions de base :

Un flux RSS est un fichier en langage XML (Extensible Markup Language), c’est-à-dire composé de balise <item>……….…</item>.

Il est composé de divers éléments dont 3 sont fondamentaux :

  • Le titre (<title>…</title>) : Définit le titre du flux RSS
  • La description (<description>…</description>) : Résume le contenu du flux
  • Le lien (<link>…</link>) : Contient l’URL de la page sur laquelle on cherche à créer un flux

 Afin de créer un flux RSS, il faut donc repérer les éléments titre, description et lien dans le code source de la page à transformer. Le plus couramment les pages du Web sont écrites en HTML (Hypertext Markup Language) qui est tout comme le XML, un langage à balises. La structure d’un document HTML est invariablement composée d’un Doctype et de 3 balises structurelles :

  • Le Doctype (Document Type Declaration) : apparaît en première position dans le document car il sert à déclarer quelle version de (X)HTML est utilisée.
  • <html>……….</html> : cette balise sert à définir la totalité du document (excepté le doctype). Elle est donc ouverte au début du code du document (en la plaçant en tête) et fermé à la fin (en la plaçant en dernière ligne).
  • <head> ……. </head> : cette balise constitue l’entête d’un document. Elle contient le titre du document qu’elle introduit, généralement une description de la page, mais également les déclarations des feuilles de style ainsi que les fonctions Javascript.
  • <body>…….</body> : cette balise contient le corps du document, c’est-à-dire l’ensemble du contenu de la page : texte, images, liens,…

Pour retrouver les articles du contenu que l’on veut mettre sous forme de flux, il faut donc se référer au contenu situé entre les balises <body> et </body>.

XPath Fetch Page permet d’extraire le code de la page HTML sous forme d’éléments DOM (document Object Model element) ou de chaîne de caractères et d’extraire telle ou telle partie de la page sélectionnée en fonction de la requête formulée avec XPath.

Avec ce langage, les éléments constitutifs du code sont décomposés en nœuds reliés par des relations. Ci-après quelques éléments de la syntaxe XPath.

Yahoo Pipes - Syntaxe XPathIl faut ensuite exprimer ces nœuds en fonction de la syntaxe XPath :

Nodename : (ex : paragraphe ou body) sélectionner tous les nœuds enfants du nœud nommé.

/ : Sélectionner à partir du nœud racine

// : Sélectionner les nœuds présents dans le document qui correspondent quel que soit leur emplacement à la sélection

. : Sélectionner le nœud courant

.. : Sélectionner le parent du nœud courant

@ : Sélectionner des attributs

◦  //* : Sélectionner tous les éléments

//p : Sélectionner tous les éléments de p

P>* : Sélectionner tous les nœuds enfants de p

//*[@id=’page’] : Sélectionner tous les éléments par id

//*[@title] : Sélectionner les éléments avec attributs

Reprenant l’exemple ci-dessus, pour créer le flux il est nécessaire de repérer dans le debugger où se trouvent les balises contenant les informations à transformer en flux RSS. Pour ce faire dérouler l’arborescence à partir de ► 0 :

  • Yahoo Pipes - XPath Fetch Page vue du débuggerL’emplacement des balises contenant les articles ayant été repéré, il est désormais nécessaire de les sélectionner en formulant une requête XPath :
    Yahoo Pipes - XPath Fetch Page requête XPath
  • Dans un second temps, on glisse et dépose le module Create RSS en aval de XPath Fetch Page, en indiquant dans les champs title, description and link (introduit par href) les balises auxquelles ils correspondent dans le debugger.
    Yahoo Pipes - Create RSS
  • Le résultat obtenu est présenté dans le canevas où l’on retrouve les 2 modules utilisés et le debugger de Yahoo Pipes.

    • Yahoo Pipes - XPath Fetch Page et Create RSS

    • Modules URL Builder  (catégorie : URL) et Module Fetch Feed (catégorie : Sources)
      L’utilisation du module URL Builder pour construire un flux RSS : il permet de transformer l’URL d’un site par exemple ici : https://news.google.com/newsen un format RSS. Pour ce faire, il suffit de copier-coller l’adresse dans le champ « Base » d’URL Builder (voir exemple ci-dessous). Puis Fetch Feed sert dans un second temps de réceptacle au flux RSS ainsi créé.Cette manipulation permet d’accéder directement dans Yahoo Pipes aux actualités de Google News.Yahoo Pipes - URL Builder et Fetch Feed

  • Modules String Builder (catégorie : String), URL builder  (catégorie : URL) et Fetch Feed  (catégorie : Sources)

    Dans l’exemple ci-dessous, le module String builder permet de construire deux strings (chaînes de caractères) : intelligence economique (tag) et .rss (format) qui permettent de construire l’url au format RSS de l’adresse contenu dans le champ « Base » d’URL Builder : http://www.youtube.com/rss/tag.
    L’utilisation simultanée de ces deux modules permet de recomposer une nouvelle URL. Ces deux modules sont ensuite rattachés à  Fetch Feed qui sert de réceptacle au flux RSS.
    Cette manipulation permet de rechercher directement dans Yahoo Pipes (dans l’exemple ci-dessous) des vidéos Youtube d’intérêts.

    Yahoo Pipes - String Builder, URL Builder et Fetch Feed

Cette entrée a été publiée dans Méthodes et outils, Outils logiciels pour l'exploitation de l'information, Outils logiciels pour la gestion de l'information, Veille métier, avec comme mot(s)-clef(s) , , , , , , . Vous pouvez la mettre en favoris avec ce permalien.

6 réponses à Les modules de Yahoo Pipes : fonctionnalités – Niveau 1 : Collecte

  1. Ping : Les modules de Yahoo Pipes : fonctionnalités – Niveau 1 | La vie numérique - François MAGNAN - Formateur Consultant - | Scoop.it

  2. Ping : Les modules de Yahoo Pipes : fonctionnalités – Niveau 1 | Freewares | Scoop.it

  3. Taiati dit :

    Grand merci pour ses explications ….j’espere que vous allez continuez a partager vos connaissances avec nous…bonne continuation

  4. Ping : Yahoo! Pipes : contourner l’absence de flux RSS (tuto) « Veille « Le blog de Voyelle.fr

  5. Ping : Les modules de Yahoo Pipes : fonctionnalités – Niveau 5 | Stratieo

  6. Ping : Les modules de Yahoo Pipes : fonctionnalités – Niveau 2, 3 et 4 : du groupage au dédoublonnage | Stratieo

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>