OSBI.FR - Open Source Business Intelligence

Kettle 3.1

Une nouvelle version de Kettle (3.1) est disponible depuis début Septembre.

C’est une release vraiment très riche en nouveautés, je la qualifierai même de majeure au vu des évolutions et des améliorations apportées.

En effet, depuis la création de Kettle, cette version est celle qui comporte le plus grand nombre de lignes de codes supplémentaires par rapport à la version précédente.

En voici pour preuve le graphique ci-dessous :


Vous trouverez la liste exhaustive de toutes les nouvelles fonctionnalités sur le site officiel de Kettle, à l’adresse suivante :

http://wiki.pentaho.com/display/EAI/What%27s+new+in+PDI+version+3.1

En ce qui me concerne, voici une petite synthèse de toutes les nouveautés qui m’ont vraiment plu… En effet, certaines nouvelles étapes me « manquaient » véritablement dans les versions précédentes, alors je vais m’empresser d’utiliser Kettle 3.1 pour mes futurs besoins, mais aussi (et surtout) ceux de nos clients 😉

Amélioration de l’interface

L’ergonomie du panneau latéral gauche de Spoon a été revue

Désormais, on dispose de 2 onglets bien séparés dans le panneau latéral.

  • L’onglet « Explorateur » qui permet de gérer l’ensemble des paramètres d’une transformation ou d’un job (connexions, étapes utilisées…) :

  • L’onglet « Palette de création » dans lequel on peut venir piocher tous les steps nécessaires à l’élaboration des traitements. A noter que la gestion en « tree » par catégorie d’étape (Alimentation, Extraction,…) est vraiment beaucoup plus ergonomique. Par exemple, la branche qu’on vient de quitter pour une autre se referme automatiquement.

Une fonction de zoom pour avoir une vision d’ensemble de traitements avec un grand nombre d’étapes.

Très pratique lorsqu’on veut visualiser globalement une transformation avec un grand nombre d’étapes. Un petit coup de molette centrale de la souris et c’est bon…

L’ergonomie de la zone de design des jobs et d’exécution

Chaque transformation (ou job) dispose désormais de son propre «espace de travail ».

Dans Kettle 3.0.x, l’écran d’exécution d’une transformation ressemblait à ceci :

Un premier onglet permettait de visualiser les étapes de la transformation :

Un second onglet permettait de visualiser les traces d’exécution de la transformation :

Tout change désormais dans Kettle 3.1, et c’est beaucoup plus ergonomique

L’ensemble des objets d’une transformation sont « encapsulés » dans le même onglet avec toutes les actions liées : exécution, prévisualisation, sauvegarde, débuggage…

Un panneau à 4 onglets sous le panneau de design qui permet de bien séparer :

  • Les statistiques d’exécution par étape :

  • Un diagramme de performance (nouveauté) :

  • La log d’exécution détaillée

Focus sur le nouveau step : « décomposition ligne »

Cette nouvelle étape n’a l’air de rien, mais depuis que j’utilise Kettle (2 ans et demi environ), je l’aurai volontiers employé en lieu et place d’une étape Javascript avec laquelle j’utilisais la méthode de clonage de lignes (qui d’ailleurs à évolué lors du passage Kettle 2.5 vers 3.0).

En gros, cette nouvelle étape permet de décomposer en plusieurs lignes un champ multivalué, quelque soit le nombre de valeurs stockées dans ce champ (1, 2, 3,…, n)

La transformation ci-dessous permet de comprendre facilement l’intérêt et la puissance de cette étape. On réalise l’extraction d’un fichier CSV qui liste les voitures appartenant à des VIP, et on remet à plat la liste des voitures dans un champ unique (en créant de nouvelles lignes).

On voit bien que chaque VIP possède un nombre différent de voitures, d’où l’intérêt de cette nouvelle brique.

Bien sûr, cela fonctionne aussi si on a 2, 3, …, n colonnes avec des champs multivalués, pour peu que le nombre de valeurs soient identiques sur toutes les colonnes. Il faudra juste ajouter un séquenceur pour bien retrouver les lignes qui vont ensembles

Cela donne quelque chose de ce style :

Voilà , j’espère que cet article vous aura donné l’envie de tester Kettle 3.1 !

Il suffit juste de le télécharger par ici.

Encore un grand coup de chapeau à Matt Casters pour son ETL si simple et pragmatique d’utilisation 🙂

A la prochaine… 😉

2 Comments

  1. Je suis 100% d’accord, la 3.10 apporte des fonctions clés, c’est une réelle belle version, directement utilisable (comparée à la première version de la série 3 sur laquelle nous avions eu quelques regressions). Merci beaucoup pour cette synthèse des nouveautés … il te reste à regarder Talend 3.0 et mettre à jour ton étude ? Ma fonction préférée reste la décomposition d’une ligne … tellement utile !

    Juste une interrogation sur les 10 000 lignes de codes supplémentaires … comment est-ce possible compte tenu de l’organisation du projet et du nombre de commiters ? Que cela concerne le nombre de lignes de codes total, comme le nombre de lignes commitées (nombre qui dépend du nombre de commit par jour, des contraintes de commit, etc …), ce sont des indicateurs très complexes à interpréter … il n’y a que ohloh pour convertir cela en USD sans prendre aucun recul sur l’indicateur annoncé !

    Pour finir, je trouve intéressant l’évolution de Kettle « version commerciale », cela clarifiera les positions entre ceux qui ne veulent utiliser que la version Open Source et ceux qui sont prêt à investir pour des fonctions complémentaires et du support. Dans Vanilla, nous avons créé un composant qui permet de dialoguer avec un serveur « Carte », et de poser/démarrer/stopper des jobs Kettle … j’espère qu’on pourra ajouter facilement le « suspend »

    Patrick

  2. Salut Patrick,

    Je vois que tu restes fidèle à toi même et que tu occupes ton dimanche soir à parcourir le web (au lieu de regarder Michel Drucker à la télé..) 😉

    Pour ce qui est du nb de lignes de codes supplémentaires, je fais confiance à Matt au vu de la commande linux qu’il lance pour compter le nb de lignes dans ses fichiers Java:
    find . -name « *.java » -exec wc -l {} \; | awk ‘{ sum+=$1 } END { print sum }’

    Enfin pour Talend Open Studio, bien sûr je vais revenir faire un focus sur la version III, mais pour cela je vais attendre la formation que Talend vient nous faire fin Novembre…

    Bon début de semaine sur Lyon

    Sylvain

Les commentaires sont fermés.