Mondrian en action ! (le livre)

Le Livre du Mois

Ce mois-ci, la revue de presse technique est remplacée par la revue d’un livre à paraître prochainement chez Manning Publications :  Mondrian in Action

Cet ouvrage, intégralement consacré au moteur OLAP open source Mondrian, permet de comprendre tous les aspects liés à la mise en place d’un projet d’analyse multidimensionnelle avec Mondrian, depuis la conception de l’entrepôt de données jusqu’à la configuration avancée (dans la nouvelle version 4.0)

Ce livre s’adresse à un large public : du débutant qui veut utiliser Mondrian pour la première fois, jusqu’à l’utilisateur expérimenté qui souhaite approfondir ses connaissances sur certains sujets (sécurité, performance).

Comme vous le savez sans doute, Mondrian est le moteur OLAP embarqué dans les principales solutions OSBI du marché, mais c’est Pentaho qui continue de conduire ce projet en assurant l’essentiel des évolutions et des correctifs de bugs.

Les personnes qui comme moi ont pré-commandé « Mondrian in Action » ont déjà pu apprécier la qualité technique de cet ouvrage écrit par Julian Hyde (le créateur de Mondrian), Willam D. Back et Nicholas Goodman.

Voici donc un petit aperçu des 11 chapitres de ce livre.

Note: J’invite les néophytes à lire en préambule l’article « Cube OLAP avec Mondrian » pour mieux comprendre ce qui suit…

Détail des Chapitres

1. Beyond reporting: Business Analytics

Ce chapitre permet d’introduire Mondrian et de comprendre son objectif premier : aller « au delà » de la rigidité du reporting statique afin de permettre une plus grande liberté dans l’analyse et l’exploration des données.

Tout cela grâce à l’approche OLAP (On Line Analytical Processing), qui regroupe pas mal de concepts et une technologie dédiée

2. Mondrian: a first look

Ce chapitre permet de se familiariser avec les fonctionnalités de Mondrian au travers du serveur décisionnel Pentaho.

Une VM préconfigurée disponible au téléchargement (non testée) permet d’analyser les différents contextes d’utilisation de Mondrian dans Pentaho (Saiku, Analyzer, CDF) et de se familiariser avec le langage MDX.

Des élements théoriques sont également introduits à propos de la modélisation dimensionnelle : schéma en étoile (Star Schema), méthode d’alimentation d’un entrepôt de données avec un ETL comme Kettle (Pentaho Data Integration)

3. Creating the data mart

Ce chapitre détaille la mise en place effective d’un schéma en étoile dans une base de données relationnelle avec les notions suivantes :

  • Table de faits
  • Tables de dimensions
  • Dimensions à évolutions lentes (SCD)
  • Dimensions temporelles
  • Intérêt du schéma en flocons
  • Dimensions dégénérées et dimensions « junks »

4. Multidimensionnal modeling: making analytics data acessible

Ce chapitre décrit comment définir un schéma Mondrian en version 4.

Tous les éléments du schéma XML sont passés en revue et détaillés au travers d’exemples : Schema, Cube, Dimension, Hierarchies, Levels, Mesure…

Les habitués de Mondrian seront curieux de découvrir la nouvelle implémentation v4 (et notamment ses atouts !).

Dans ce chapitre, on apprend également que Mondrian dispose d’un chargeur automatique de dimension temporelle (au cas où vous ne souhaiteriez par traiter ça avec l’ETL)

5. How schema grows

Ce chapitre permet de comprendre comment faire évoluer un schéma mondrian lorsqu’il faut gérer une plus grande complexité métier.

Sont ainsi explicitées les dimensions partagées, les hiérarchies récursives (parent-enfant), les mesures calculées, l’intégration de calculs et d’expressions MDX dans le schéma.

6. Securing data

Comment sécuriser l’accès aux éléments d’un cube ?

Ce chapitre détaille la puissance (et la finesse) du mécanisme de gestion des droits d’accès (Security Grants) dans Mondrian avec les éléments suivants : SchemaGrants, CubeGrants, DimensionGrants, HierarchyGrants, MemberGrants, Measure grants

7. Maximizing Mondrian performance

Ce chapitre permet de détailler les méthodes pour obtenir des temps de réponse satisfaisants avec Mondrian, même lorsque l’entrepôt de données contient des millions d’enregistrements. De nombreux aspects sont abordés: tuning de la base de données, mise en place de tables d’agrégation, utilisation et configuration des différents caches de Mondrian.

Bref, un chapitre à ne pas rater !

8. Dynamic security

Comment gérer la sécurité dans Mondrian lorsque les rôles sont trop complexes et/ou nombreux ?

Ce chapitre montre un exemple de « Dynamic Schema Processor », qui permet une génération dynamique du schéma Mondrian en fonction de l’utilisateur connecté.

Attention pour ce chapitre, on passe nécessairement par la case « Développement Java » (public averti donc)

9. Working with mondrian and Pentaho

Ce chapitre détaille comment utiliser les données d’un cube Mondrian avec les différents modules de Pentaho :

  • Pentaho Analyzer (version commerciale uniquement)
  • Saiku
  • Community Dashboard Framework (CDF)
  • Report Designer
  • Pentaho Data Integration

10 . Developping with mondrian

Ce chapitre illustre les diverses possibilités d’interrogation de Mondrian à partir d’application tierces, et cela avec 2 méthodes:  XML/A et OLAP4J

11. Advanced analytics

Ce dernier chapitre démontre la puissance du langage MDX dans un contexte d’analyse de données : calculs de ratios et tendances, opérateurs temporels (Year To Date), classement (top 10, bottom 20…).

Le livre se termine par l’utilisation des scénarios dans Saiku (simulation budgétaire) et une ouverture vers d’autres thématiques (en vogue) :

  • datamining (projets Weka et R)
  • BigData  (Hadoop, Hive, NoSql)
  • bases de données analytiques.

Pour conclure

« Mondrian in Action » est tout simplement le livre de référence à posséder si vous souhaitez mettre en place une solution OLAP open source !

N’oubliez pas de consulter également le blog de Julian Hyde (ce sera donc le blog du mois…)

A bientôt pour un peu plus de technique ;-)

 

Déposer des fichiers bureautiques dans Pentaho

Voilà une question qui est revenue très fréquemment à mes oreilles :

« Peut-on publier des documents de type bureautique (fichiers PDF, Excel, Word ou autre) sur le serveur Pentaho ?

Réponse :

« Non, pas pour l’instant, il n’y a pas de fonction d’envoi de fichiers dans la console utilisateur Pentaho… »

Désormais, je vais pouvoir répondre oui à cette question, grâce à une contribution menée conjointement avec l’un de nos clients.

Bientôt, vous en saurez plus sur ce plugin développé par Atol Conseils & Développements.

Naturellement vous pourrez télécharger celui-ci librement, esprit « open source » oblige !

En attendant, regardez à quoi ça ressemble :

 

A bientôt pour plus d’explications !

La revue de presse technique – Avril 2013

Les liens du Mois

  • Découvrez la nouvelle version de GeoTribu, le portail d’information de référence sur les SIG open source :

  •  Téléchargez gratuitement le livre blanc de Smile « Le décisionnel open source ». Un document de référence pour ceux qui découvrent les solutions Open Source BI. Cette version 2013 permet de prendre en compte les nouveautés des solutions open source: SpagoBI 3.6, Pentaho 4.8, JasperSoft 5.0, Jedox 4.0, Talend 5.2 et BIRT 4.2. A noter (enfin) la mention de 2 nouveaux outils dans ce livre blanc, dont je parle ici-même depuis bientôt 2 ans : Saiku et CTools.

  • Initiez-vous à R avec le guide de prise en main « An introduction to R »  (R est un langage de développement pour le calcul statistique et le datamining)

Le blog du Mois

BIRT World

Le blog de Jason Weathersby (évangéliste chez Actuate) qui regorge d’infos, de trucs et astuces sur le moteur de reporting open source BIRT (Business Intelligence and Reporting Tools).

A placer dans vos favoris si vous utilisez BIRT ;-)

 

Pentaho rachète Webdetails

En ce lundi 22 Avril 2013, voici une nouvelle qui fait un gros buzz  sur Twitter et les sites d’information spécialisés comme Decideo, LMI, ou encore Silicon.fr :

Pentaho vient d’acquérir la société Webdetails !

Mais certains d’entre vous ne connaissent peut-être pas Webdetails (est-ce possible ?) :  il s’agit d’une société basée au Portugal, partenaire intégrateur de Pentaho de longue date.

Les membres de Webdetails et notamment son fondateur Pedro Alves sont très actifs dans la communauté Pentaho. Leur renommée est principalement due aux Ctools, une palette complète de plugins librement téléchargeables et utilisables dans la version communautaire de Pentaho.

Ceux-ci sont d’une qualité et d’une efficacité remarquable pour la mise en place de tableaux de bords :

A noter que la version payante de Pentaho (Enterprise Edition) repose également sur le framework développé par Webdetails (Pentaho CDF). En fin d’année dernière, une douzaine de plugins de « Data-Visualization » pour Pentaho Analyzer avaient ainsi été proposés gratuitement en téléchargement.

Le partenariat entre Pentaho et Webdetails existe en fait déjà depuis longtemps et à mes yeux ce rachat n’est pas si surprenant que cela. Ce dernier va surtout permettre à Pentaho de mettre un gros coup d’accélérateur sur son interface utilisateur, en profitant pleinement du savoir-faire de l’équipe de Webdetails (une vingtaine de collaborateurs).

Voilà qui risque surtout de porter un coup sévère au principal concurrent de Pentaho, à savoir JasperSoft.

Pedro Alves, le fondateur de la société, devient par la même occasion vice-président senior de la communauté Pentaho, en plus d’être nommé directeur de Pentaho pour le Portugal.

Il est désormais l’interlocuteur privilégié des contributeurs actifs à la plateforme dans sa version Open Source. Une valeur sûre vu son niveau de connaissance concernant le développement de plugins pour Pentaho BI Server !!

Toutes mes félicitations à l’équipe de Webdetails pour cette nouvelle aventure. Gageons que la plate-forme Pentaho sera enrichie prochainement de belles fonctionnalités, comme Webdetails en a le secret..

Pour en savoir plus, vous pouvez prendre connaissance du billet de Pedro sur son blog, ou encore lire l’annonce officielle sur le site de Pentaho (version française)

A bientôt ;-)

La revue de presse technique – Mars 2013

Les liens du mois

Le blog du mois

Anonymous Business Intelligence

Un blog entièrement dédié à la plate-forme Pentaho et renfermant quelques très bons articles, notamment les tutoriels « Hadoop sur Ubuntu » et « MDX et PDI Datasources for CDE »

Suivre également le compte twitter associé @pentaho_fan

 

Saiku Chart Plus

Quel dynamisme dans la communauté Pentaho en ce moment !

Après Pivot4J, voici un nouveau plugin pour le serveur Pentaho: Saiku Chart Plus.

Développé par la société brésilienne IT4Biz (Sao Paulo), ce plugin ajoute un nouveau type de rendu graphique à Saiku OLAP (le plugin développé par Analytical Labs).

On peut ainsi désormais obtenir des graphiques avec la librairie Javascript HighCharts (celle implantée d’ailleurs depuis quelque temps dans SpagoBI), mais aussi avec GoogleMaps :

Démonstration :

Pour en savoir plus…

Rendez-vous sur le site du projet : Saiku Chart Plus

Vous pouvez aussi télécharger le plugin pour une installation rapide dans Pentaho :

SaikuChartPlus Plugin 2.4 RC1 (105 downloads)

Point à noter :

Saiku Chart Plus est en réalité un plugin de plugin (plutôt sympa comme concept non ?)

Donc si vous avez déjà Saiku OLAP sur votre serveur, il suffit d’enrichir celui-ci avec SaikuChartPlus comme décrit dans la section « For developer or advanced installation ».

 

Voilà donc encore une belle contribution Pentaho avec ce projet.

Personnellement je reste un peu sur ma faim avec l’intégration GoogleMaps, mais je suis vraiment séduit par le potentiel de la librairie HighCharts. Il ne reste maintenant plus qu’à intégrer celle-ci dans Pentaho CDE…

Des amateurs ? ;-)

 

La revue de presse technique – Février 2013

Les liens du mois :

  • Il arrive parfois que dans Pentaho Data Integration, une transformation tourne indéfiniment. La plupart du temps il s’agit d’une erreur de conception ! Consultez donc l’article Transformations Deadlocks sur le wiki de Pentaho pour mieux comprendre la problématique et y apporter une solution…
  • La matrice de compatibilité de Pentaho est un document fondamental : il permet de savoir quelle version d’outil de conception doit être utilisée pour une version de serveur précise (ça évite bien des problèmes). Par exemple pour un serveur 4.5.0 GA, la version de Pentaho Report Designer (PRD) devant être utilisée est la 3.9.0 GA
  • Jedox est une solution un peu à part dans les solutions OSBI… mais tellement intéressante ! Tout repose sur un client « Excel like » et une techologie MOLAP supportant le write-back, permettant ainsi d’effectuer des simulations budgétaires. Découvrez cette suite dans ce webinar « Jedox Suite Overview » en attendant la version 5.0 prévue en Avril et un changement de Business Model (versions Base et Premium).
  • Il existe de multiples possibilités pour créer des tableaux de bords dans Pentaho. Découvrez l’une d’entre elle avec ce webinar proposé par Xpand IT (et Fusion Charts).

En introduction, Sébastien Cognet (Pentaho France) vous présente la roadmap 2013 de Pentaho Business Analytics avec ses 2 versions (5.0 et 5.1)

 

  • Pas toujours simple de s’y retrouver dans la jungle des licences open source. Voici un site permettant de ne pas s’égarer : http://www.tldrlegal.com

Le blog du mois :

interestingittips.wordpress.com

Tout est dans le titre !

De très bon articles, notamment l’intégration du Bullet Graph dans Pentaho CDE ou encore un guide de migration en Pentaho CE 4.8

Rendez-vous le mois prochain ;-)

 

Pivot4J, (encore) un autre successeur à JPivot

Petit rappel…

En Octobre 2011, j’annonçais ici la mort du navigateur JPivot, avec l’arrivée de Saiku, un client web pour d’analyse OLAP disponible en tant que plugin du serveur Pentaho ou comme composant « standalone ».

Depuis la version 4,  Pentaho a également confirmé la mort programmée de JPivot par un message affiché en bas de chaque vue analytique (sic) :

« JPivot est désormais remplacé par Pentaho Analyzer.

Il est encore fourni pour des raisons de commodité, mais il n’est officiellement plus supporté par Pentaho »

Et voilà maintenant le coup de grâce avec le projet Pivot4J qui enterre définitivement ce bon vieux JPivot…

Pourquoi Pivot4J ?

Pendant un (très) long moment, JPivot a été (et est resté) la référence open source pour la création d’interfaces web de type « Pivot Grid »  et pour des applications Java bâties au-dessus de serveurs OLAP,  essentiellement Mondrian.

Pas étonnant donc de retrouver encore JPivot comme le client OLAP de pas moins de 3 éditeurs OSBI (JasperSoft, SpagoBI, Pentaho).

Malheureusement, le projet JPivot n’est plus maintenu depuis fort longtemps et l’avancement des technologies web a rendu son approche basée sur JSP (Java Server Pages) complètement obsolète

De plus, il y a quelque temps, le projet OLAP4J a ouvert de nouveaux horizons : il a imposé une API moderne pour la connexion à des bases OLAP via JAVA, un peu à l’image de JDBC pour les bases de données OLTP.

Pivot4J se proclame donc être un assemblage cohérent d’OLAP4J avec une version de JPivot entièrement réactualisée.

Au final, Pivot4J n’impose aucune technologie spécifique pour la construction de l’interface utilisateur : sa couche d’abstraction permettra ainsi de développer un client graphique avec n’importe quelle technologie web (JSP, JSF, GWT) ou client lourd Java (SWT, SWING).

La volonté de Pivot4J est également de reprendre toutes les fonctionnalités qui ont fait le succès de JPivot (et qui manquent encore pour certaines d’entre elles dans Saiku) :

  • Ergonomie et facilité d’utilisation
  • Drill-down, drill-through, pivot, tri, affichage hiérarchique, sous-totaux par niveaux…
  • Support de toute source OLAP (pour laquelle un driver Olap4J est disponible)
  • Export Excel et PDF
  • Interface par défaut basée sur JSF (Java Server Faces)

Alors, à quoi ça ressemble ?

On a de la chance, un plugin Pivot4J est déjà disponible pour le serveur Pentaho (en version beta)

Je l’ai donc testé pour vous, et j’ai vraiment été séduit par cette toute première version !

Regardez cette vidéo, et appréciez surtout la nouvelle ergonomie de l’outil :

 

 Testez-vous même !

Si vous aussi vous souhaitez tester par vous même, suivez les instructions suivantes :

  • Téléchargez et installez la version de développement du Pentaho BI Server Community Edition 5.0 (les plus curieux remarqueront au passage que dans Pentaho 5 la console d’administration est réintégrée dans la console utilisateur : enfin !)
  • Téléchargez le plugin Pivot4J et décompressez l’archive dans le répertoire biserver-ce/pentaho-solutions/system
  • Après avoir lancé le serveur, connectez vous avec « joe » puis définissez une nouvelle source OLAP (voir la manip au début de la vidéo)
  • Lancez Pivot4J en cliquant sur le bouton dans la barre de menu
  • Amusez-vous ;-)

 

 

Initiez-vous aux SIG avec PostGIS, GeoKettle et QGIS

Ceux qui les ont vécu s’en souviennent: les premiers pas dans le domaine des Systèmes d’Information Géographiques (SIG) ne sont pas toujours faciles !

Il y a en effet quelques concepts de bases à connaître pour être en mesure de mettre en place une application informatique – décisionnelle ou non – intégrant la composante spatiale.

Il y a peu de temps, je suis tombé sur un guide très complet qui d’après moi constitue un excellent tutoriel d’initiation aux SIG.

Celui-ci permet en effet de découvrir et de comprendre les fondamentaux d’un SIG, avec la mise en œuvre pratique de solutions SIG open source qui sont actuellement des références en la matière :

Un petit livre plutôt utile donc, que vous pouvez télécharger gratuitement (juste après avoir renseigné un formulaire en ligne) :

GIS Succintly (Peter Shaw) (205 downloads)

 

Celui-ci est divisé en 5 Chapitres :

  • Chapitre 1: Qu’est-ce qu’un SIG ?

- Qu’est-ce que l’OGC ?

- Quelles bases de données peuvent stocker des données spatiales ?

- Quels sont les différents types d‘objets géométriques ?

- Qu’est-ce qu’un système de projection ?

- Qu’est-ce que le SRID ?

- A quoi servent les tables geometry_columns et spatial_ref_sys ?

 

  • Chapitre 2 : Les Softwares pour le SIG

Ce chapitre permet d’effectuer un tour d’horizon de quelques logiciels SIG :

- Bases de données spatiales : PostGIS, Oracle Spatial, MySQL, SQL Server…

- Outil clients : ArcGIS, MapInfo, Open Jump, Quantum GIS, GeoKettle…

 

  • Chapitre 3 : Charger une base spatiale

Un guide pratique expliquant :

- Comment créer et configurer une base spatiale PostGIS

- Charger dans PostGIS des points depuis un ShapeFile avec QGIS

- Charger dans PostGIS des polygones depuis un ShapeFile avec GeoKettle

 

  • Chapitre 4 : Traiter de la donnée spatiale en SQL

Ce chapitre permet de découvrir quelques unes des fonctions spatiales SQL les plus utilisées:

ST_Area, ST_Perimeter, ST_Transform, ST_Distance, ST_Buffer, etc…

 

  • Chapitre 5 : Création d’une application en dot Net

Un exemple de création d’une application en .Net avec SharpMap

 

Au final, ce guide est une excellente occasion pour découvrir la toute nouvelle version de GeoKettle !

Testez donc vite et dès maintenant les nouveautés de l’ETL spatial GeoKettle 2.5 en le téléchargeant depuis le site de Spatialytics ;-)

 

 

Le carré magique Gartner 2013 pour les plates-formes BI

Le Magic Quadrant for Business Intelligence Platforms 2013 est arrivé.

Voici pour information et en vis-à-vis les versions 2012 et 2013 du Magic Quadrant :

On notera deux nouveaux entrants dans le carré des leaders: les excellentes solutions (propriétaires) de Data Visualization Tableau Software et Tibco Spotfire.

Côté open source, Actuate est toujours en tête et poursuit gentiment sa montée vers les challengers.

JasperSoft et Pentaho, au coude à coude, affichent également une belle progression.

Jedox et SpagoBI sont encore absents du Magic Quadrant, mais cités dans la note de synthèse du Gartner que je vous invite à lire. Comme l’année dernière, celle-ci est plutôt pertinente en ce qui concerne les solutions open source…

PS: Liens vers les carrés magiques précédents : 20112010, 2009, 2008