OSBI.FR - Open Source Business Intelligence

Un livre blanc sur les ETL Open Source

Après plusieurs semaines de travail, de recherche et de tests comparatifs, j’ai le plaisir de vous annoncer que le livre blanc :

« Les ETL Open Source – Une réelle alternative aux solutions propriétaires » est depuis hier disponible sur le site d’Atol Conseils & Développements.

Disponible sous licence Creative Commons ce livre blanc est librement téléchargeable ? l’adresse suivante : http://www.atolcd.com/actualites/detail-actualite/actualite/2/comparatif-etl-open-source-1.html

Après un bref rappel des fonctionnalités d’un ETL, ce document traite essentiellement des 2 ETL Open Source qui sont actuellement les plus reconnus : Talend et Kettle (Pentaho Data Integration). Un benchmark (modeste certes) de ces 2 outils permet notamment de se faire une idée des temps de traitements dans des cas d’utilisations volontairement simples.

Les enseignements que j’ai déj? pu retirer de cette étude sont les suivants :

  • Talend et Kettle sont des outils qui présentent toutes les fonctionnalités nécessaires d’un ETL, et qui n’ont donc pas ? rougir face ? des solutions propriétaires… 🙂
  • Ces 2 outils, pourtant d’une conception et d’une utilisation très différente, procurent une grande satisfaction ? l’utilisation. Personnellement, j’ai tout de même une petite préférence pour Kettle qui est d’une facilité de prise en main éblouissante… 😉
  • Au niveau des temps de traitement, la rapidité des 2 ETL varie selon la typologie de ceux-ci. Il semble que Talend Open Studio soit beaucoup plus performant que Kettle 3 en ce qui concerne les calculs d’agrégation de données, alors que Kettle se débrouille un peu mieux pour du chargement fichier plat vers SGBD ou encore du Slow Changing Dimension

Bien sûr, j’attends vos diverses réactions sur ce livre blanc, ainsi que d’autres comparatifs éventuels !

PS: Au passage un grand merci ? Nicolas qui avait travaillé déj? en amont sur le benchmark et l’analyse fonctionnelle comparative entre Kettle et Talend

Ci-dessous 2 graphes comparatifs extraits du whitebook :

  • Filtrage de données & lookup: Talend est plus rapide que Kettle !

lookup_filtrage.jpg

  • Slow Changing Dimension: Kettle plus rapide que Talend !

scd.jpg

6 Comments

  1. Bonjour Sylvain!

    > Filtrage de données + lookup:

    Serait-il possible de vérifier les 3 étapes « Recup echange_id » (Produits cartésiens)?
    Je veut savoire si les « Etaps sources » sont spécifiés et si les mémoires caches sontes asser large pour les fichiers XLS.

    > Slow Changing Dimension: Kettle plus rapide que Talend

    Ils m’ont dit que Talend charge tous en mémoire. Es-ce que c’est vrai?

    Aux niveau des connecteurs, Kettle évidemment a d’autres aussi:

    http://wiki.pentaho.org/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Ins

    Merci d’avance!

    Cordiallement,

    Matt

  2. Bonjour Sylvain,

    En complément de mon mail, je glisse aussi un grand remerciement pour cet excellent opus.

    Pour les tests de vitesse, mon sentiment est qu’il faudrait tester Kettle en mode cluster … et l? , je pense que les vitesses de traitement de tes lookups vont décroitre … et donc que tes résultats pourraient être réactualisés.

    Après, ? lire déj? les demandes de Matt dans ce mail, je pense qu’il serait intéressant que tes tests – indépendants – puissent recevoir l’aide des 2 communautés – Kettle et Talend – et que tu refasses tes propres tests après avoir reçu les conseils de chacun … ce serait aussi un juste retour qui te permettrait d’optimiser tes propres connaissances sur le sujet du tuning

    Patrick

  3. Bonjour Matt, Samatar et Patrick !

    Je vois que les plus rapides ? commenter ce post sont des « Kettle-fans »…
    Pour que vous puissiez refaire les mêmes tests que moi et les enrichir (clustering, tuning), je vais mettre ? disposition l’ensemble des jobs Talend et Kettle sur un serveur de fichier, probablement en fin de semaine…(Lundi et Mardi, je suis en ballade en Alsace 😉 )

    En attendant, merci pour toutes vos remarques et commentaires, ce serait sympa de discuter de tout cela autour d’une bonne bière un de ces jours…

    Sylvain

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*