OSBI.FR - Open Source Business Intelligence

Les ETL Open Source, par Forrester Research

Comme je l’ai indiqué dans un post précédent, je suis tombé via pentaho.org sur un document publié par Forrester Research au début Novembre 2007: Market Overview, Open Source ETL Tools: an attractive alternative to custom code.

Ce document est d’un grand intérêt, d’une très bonne qualité, mais aussi ? mon sens très objectif et réaliste sur le positionnement actuel des ETL Open Source. Je me propose donc d’en faire une synthèse ici. Pour ceux qui souhaitent lire directement le document original (in english of course), vous trouverez un lien de téléchargement ? la fin de cet article…

– – – – – Début de la synthèse – – – – – – – – – – – – – – – – – –

Avantages (et inconvénients) des ETL commerciaux (modèle propriétaire)

Les ETL propriétaires de référence sur le marché, tels que ceux des sociétés AB Initio, Business Objects, IBM, Informatica et SAS (…) , sont des outils véritablement conçus pour répondre aux problématiques complexes suivantes des entreprises:

  • être en mesure de s’exécuter sur un multitude de plates-formes hétérogènes
  • être capables de se connecter ? une multitude de sources de données
  • répondre ? des exigences de performances et de déploiement ? grande échelle

Ces ETL sont coûteux , le « ticket d’entrée » se situant entre 45 000 et 100 000 $.

Des ETL moins coûteux sont proposés par d’autres sociétés (Microsoft Sql Server Integration Service, Oracle Warehouse Builder, mais avec certaines fonctionnalités plus restreintes (périmètre moins large des sources de données possibles).

C’est donc un vrai challenge pour les architectes d’intégration de choisir un ETL qui soit capable de traiter les données en provenance de toute l’hétérogénité des systèmes de stockage disponible dans l’entreprise.

Le modèle Open Source: une alternative ?

Le modèle Open Source présente des caractéristiques intéressantes :

L’apport de la communauté :

L’approche Open Source, donc la contribution de la communauté pour l’ajout de nouvelles fonctionnalités,? est particulièrement? adaptée aux ETL. En effet, une des caractéristiques principales? des ETL est de nécessiter une multitude de? connecteurs permettant de récupérer les données? depuis des sources très diverses. La répartition et la mutalisation des développements bénéficie ainsi ? la communauté, mais est également synonyme d’une? source d’économie? (une contribution est un? don !)

Le respect des standards :

Les standards? jouent un rôle crucial dans la description du stockage de données (XML, HIPAA, SWIFT…). Ces formats permettent la standardisation des échanges de données ainsi que leur validation.? Le modèle? Open Source garantit l’accès au code et le grand nombre de testeurs permet de suivre l’évolution de ces standards. Quand les standards évoluent, il est facile de faire évoluer le code de l’ETL Open Source traitant des données en s’appuyant sur ces standards.

Des coûts moindres

Les ETL Open Source disponibles actuellement sur le marché ont des coûts nettement moins importants que les ETL propriétaires (pas de licence d’installation). On peut même disposer totalement gratuitement de ces outils,? les enrichir (fork), pour peu qu’on? dispose dans l’entreprise de développeurs ayant les compétences adéquates (développement, maintenance du code).

Forrester Research ne recommande pas cette démarche, mais? cela peut être une option viable pour les sociétés ayant les ressources, les compétences et une politique globale favorisant le support en interne (ce qui n’est pas possible avec des produits commerciaux). Sur du long terme, des développeurs qui participent activement aux communautés Open Source ont tout intérêt ? ce que leurs contributions soient testées, corrigées et enrichies par la communauté.

A noter tout de même que? ces ETL Open Source étants des outils très récents, le nombre de contribution reste modéré? pour le moment.Les divers motifs? d’adoption des ETL Open Source

Les raisons d’adoption d’un ETL Open Source

Pour des éditeurs indépendants de logiciels :

L’intégration de? composants Open Source permet déj? aux éditeurs de réduire le coûts de leurs solutions (par ex. utilisation de bases de données Open source comme Mysql ou Postgresql). De nombreux éditeurs dans les domaines de la Business Intelligence, du? Data Management et des applications d’entreprises proposent des fonctions intégrées d’intégration, de migration et de transformation de données. Les ETL Open Source sont ainsi une alternative attrayante qui leur permettent d’avoir des solutions mieux packagées.

Pour des intégrateurs :

De nombreux intégrateurs systèmes implémentent des solutions complexes de gestion de données pour leurs clients. Ces solutions nécessitent souvent des développements spécfiques? d’intégration de données et uiliser des ETL commerciaux? ne serait pas toujours possible avec le budget? client. L’utilisation des ETL Open Source permet ainsi aux intégrateurs de délivrer des fonctionnalités d’intégration plus rapidement et avec une plus grande qualité qu’ils n’auraient pu les réaliser eux-mêmes.

Pour des services informatiques internes :

Les chefs de projets dans les grandes entreprises considèrent souvent l’utilisation des ETL Open Source pour des besoins très spécifiques propres ? leur service ou entité. Quand un traitement de données implique au plus une ou 2 sources de données et une cible, le code spécifique développé peu s’avérér inefficace et peu soigné. Acquérir une licence ETL commerciale pour satisfaire le besoin? peut s’avérer un processus long, handicapant au vu de la non transversalité du projet.

L’alternative dans ce cas est donc utiliser un ETL Open Source qui reste la solution la plus adaptée en terme de qualité et de performance.

Pour des sociétés de tailles moyenne aux budgets limités

Des sociétés moyennes sont plus susceptibles? d’utiliser des ETL Open Source pour leurs besoins que d’acheter un ETL commercial. D’ailleurs, certaines de sociétés regardent également leurs besoins d’applications décisionnelles au travers de plates-formes BI Open Source,? comme Jaspersoft ou Pentaho.

Quels ETL Open Source ?

Il existe des douzaines de projets Open source qui proposent des fonctionnalités de type ETL. Mais seulement un nombre restreint de projets est capable de fournir l’ensemble des fonctions essentielles et indispensables ? un ETL:

Forrester Research en liste quatre :

clover.ETL :

Le projet clover.ETL est conduit par la société tchèque OpenSys. Il s’agit d’un framework Java qui comporte une licence double: LGPL ou commerciale. Le code est identique quelque soit la version, mais la version commerciale propose du support et une garantie.

Clover.ETL offre une faible empreinte mémoire, qui permet ainsi aux éditeurs une intégration dans leurs solutions.

La partie open Source de clover.ETL consiste en une librairie de fonctions de mapping et de transformations.

La version entreprise server et clover.GUI (Graphical user interface) sont proposées en version payante (bien que clover.GUI est proposée gratuitement dans le cadre de projets non commerciaux)

KETL :

KETL est un projet sponsorisé par Kinetic Networks, une société de services.

A l’origine, il s’agissait d’un outil spécifique mis en oeuvre pour un client car l’utilisation d’un ETL commercial s’était avéré trop coûteux.? Le noyau est sous licence LGPL alors que le serveur est sous GPL

Le code est actuellement développé par les développeurs de Kinetic, bien que des contributions externes sont attendues dans le futur. Kinetic a également développé des modules additionnels non open source comme du data quality et un composant de profiling.

A l’origine, KETL a été développé pour remplacer du code spécifique PLSQL utilisé pour déplacer de gros volumes de données. C’est un outil Java, conduit par un environnement de développement XML avec des possibilités de configuration accessibles ? des développeurs java expérimentés.

Une grosse limitation de KETL est de ne pas proposer une interface de développement graphique, tout se défini en XML au travers de l’interface Eclipse

Kettle (Pentaho) :

Pentaho se positionne comme un fournisseur de solution de BI qui propose également un ETL comme brique d’intégration de données. Cet ETL est basé sur le projet Kettle, qui est sous licence LGPL.

Pentaho commercialise des souscriptions qui incluent: support, outil de management et d’identification.

Kettle a déj? intégré plusieurs contributions de la communauté, principalement axées sur la connectivité, le chargement bulk et les transformations. On peut citer par exemple le chargement Bulk Oracle, un web service lookup, un connecteur SAP (plugin commercial développé par PRORATIO)

Talend :

Talend est une société française qui se positionne uniquement sur son produit ETL. Licence GPL V2, mais Talend a aussi une licence OEM pour les éditeurs qui souhaiteraient utiliser Talend comme solution embarquée. Par exemple, JasperSoft a embarqué TOS dans sa solution de BI, dans le but de devenir un concurrent réel? de Pentaho.

Talend est une société commerciale qui vit grâce ? la formation, support et consulting

Talend propose une interface de modélisation graphique (basée sur l’IDE Eclipse) qui offre a la fois l’approche ETL mais aussi l’approche ELT pour la gestion de la performance

Les limitations des ETL open source

Actuellement les ETL Open source sont parfaitement utilisables, pour peu qu’on connaisse quelles sont leurs limites :

  • Connectivité aux applications d’entreprises : une exigence courante d’un ETL implémenté dans une entreprise est d’extraire des donnés en provenance d’Oracle, PeopleSoft, SAP. Aucun des ETL Open Source cités ci-dessus n’inclue ces connecteurs sans surcoût (dans certains ils existent mais sont payants)
  • Connectivité aux systèmes non SDGBR : il n’est pas toujours évident que l’ensemble des données critiques de l’entreprise soient stockées dans des bases de données relationnelles qui peuvent être accédées via ODBC ou JDBC. La connexion ? des mainframes, des applications legacy, des queues de messages (tibco, jms, mqseries) et des formats de fichiers industriels standards (HIPAA, SWIFT, ACCORD) sont uniquement possibles aves des ETL commerciaux avancés
  • Gros volumes de données et courtes fenêtres de traitement : Si on gère un flux de données d’une centaine de gigabits pour lesquels les traitements doivent être réalisés dans un intervalle de temps très court, il est judicieux de considérer une plate-forme ETL qui a déj? fait ses preuves sur ce type de contraintes. Bien sûr, les éditeurs d’ETL Open source indiquent que leurs outils peuvent supporter des volumes de données extrêmes, et c’est certainement le cas dans certains cas d’utilisation. Mais il n’y a encore pas assez de recul et d’experience sur ces outils pour affirmer cela de façon probante. Si vous envisagez d’utiliser une solution open source qui nécessite un haut niveau de performance, il faut être très rigoureux dans les tests de haute disponibilité ainsi que l’évaluation des temps de traitements.
  • Travail collaboratif : un bénéfice significatif des ETL propriétaires est leur capacité de proposer aux architectes, concepteurs et? developeurs de collaborer et? partager les métadonnées,? réutiliser les différents mappings et transformations sur plusieurs projets transverses. Si votre équipe d’intégration de données est constituée d’un ou 2 développeurs, cet aspect collaboratif ne présente que peu d’intérêt. Ce n’est pas forcément le cas dans des équipes plus importantes avec la nécessité de partage des travaux.
  • Exigences de transformations complexes : La plupart des ETL open source nécessitent du scripting ou du code spécifique pour définir et configurer des règles de transformations complexes. Les produits ETL propriétaires (les plus coûteux) proposent des assistants de règles plus intuitives ainsi que des librairies de transformations robustes, qui présentent une réelle plus value pour des besoins de gestion de nombreuses règles métiers complexes.

Conclusion de l’étude Forrester :

Les fonctionnalités actuelles manquantes des ETL Open Source concernent les connecteurs avancés, les techniques d’intégration en tps réel comme l’intégration d’information d’entreprises (EII) et la capture du changement des données, l’aspect collaboratif, la gestion de la qualité des données intégrées et le profiling.

Ceci étant dit, de nombreux entreprises (petites et grandes), éditeurs et intégrateurs, recherchent des soltuions d’intégration peu couteuses et efficaces.

C’est dans ce cadre que les ETL Open Source présentent une réelle alternative ? du code spécifique ou ? des ETL propriétaires

Note: les 4 projets Open source mentionnés ici ne sont pas vraiment des projets open source conduits par une communauté. La majeure partie des développement et la roadmap est mise en oeuvre par les sociétés qui gèrent ou sponsorisent ces outils d’ETL. Un investissement croissant est nécessaire de leur part pour fournir de nouveaux connecteurs, en s’appuyant? sur une communauté de développeurs de plus en plus large.

– – – – -? Fin de la synthèse – – – – – – – – – – – – – – – – – –

Cliquer sur le lien ci-dessous? pour télécharger l’étude complète réalisée par Forrester : forrester_research_market_overview_open_source_etl1

Juste un petit commentaire sur tout cela : depuis 6 mois, les ETL Open Source n’ont cessés de progresser, notamment Kettle et Talend… donc le gap entre ETL propriétaires et Open Source ira en se rétrecissant ! (pour le bonheur de tous)

1 Comment

  1. Petit message perso en passant :

    Un grand bonjour ? un Lyonnais qui a franchi l’Atlantique cette semaine, direction San Fransisco … 😉

    Yeah

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*