OSBI.FR - Open Source Business Intelligence

Pentaho Labs : Dataset Plugin

Lors de la 3ème édition du Pentaho Day, nous avons eu le plaisir de voir Matt Casters nous présenter ses derniers développements sur Kettle dans le cadre de ses travaux au Pentaho Labs :

Une de ses toutes dernières créations est désormais disponible sous la forme d’un nouveau plugin : « Pentaho Data Integration Dataset plugin »

Objectif du plugin

L’objectif du plugin est tout simple : faciliter le développement et la maintenance de vos projets ETL !

De façon pragmatique, quand on engage un développement avec Pentaho Data Integration, on dispose le plus souvent des données sources (bases de données, fichiers..), ou tout du moins d’un jeu de test suffisant pour travailler… Mais parfois, ce n’est pas le cas !

Et à cause du fonctionnement intrinsèque de Kettle qui récupère les méta-données (les structures des flux) à partir des données elles-mêmes, ça devient assez compliqué, car le mapping entre les diverses étapes d’une transformation devient plus que pénible. Ceux qui ont déjà essayé de modifier un traitement sans aucune donnée source (SGBD notamment) savent de quoi il retourne… 😉

Le « Dataset plugin » a vocation à combler ce défaut de PDI mais aussi apporter d’autres nouvelles possibilités telles que :

  • le développement de transfos PDI sans aucune données sources (comme vu au-dessus),
  • la validation des résultats attendus pour les transformations avec la mise en place de tests unitaires et de « golden datasets » ,
  • la mise en place de tests quotidiens automatisés pour vérifier les impacts éventuels de modifications des structures sources/cibles sur les traitements ETL (et donc les adaptations à effectuer rapidement : un truc tout bête, un champ d’une table à changé de nom et on ne vous a pas prévenu !),
  • la désactivation temporaire d’un ensemble d’étapes (ou branches) d’un traitement à des fins de débuggage et/ou d’analyse.

En savoir plus

  • La présentation de Matt sur ce sujet au Pentaho Day 2017, avec également une démo de WebSpoon (donc Spoon disponible en client léger) :

Et du coup j’en profite également pour placer la présentation de Sébastien Cognet sur les nouveautés Pentaho 7 (BigData et IoT) :

Très bel été à tous, et à bientôt 🙂

Soyez le premier à commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*