Qu'est-ce que Google Data Studio ?
Google Data Studio est l'un des outils de BI les plus populaires sur le marché, créé par Google.  Il vise à la simplicité, et ses capacités sont donc assez limitées. Data Studio a l'air sympa en apparence, mais en fait, ses fonctions sont fragmentées et peu abouties.
Google Data Studio fonctionne mieux si l'organisation utilisait déjà BigQuery de Google (entre autres outils Google) pour l'entreposage des données et disposait d'un flux de travail pour le nettoyage et la transformation des données.
Il y a également un tableau récapitulatif d'évaluation à la fin du post qui résume bien notre évaluation de Data Studio.
Ă qui s'adresse Data Studio ?
D'aprĂšs notre Ă©valuation de Google Data Studio, l'outil semble cibler un ensemble d'utilisateurs semi-techniques, qui travaillent avec des chiffres et connaissent trĂšs bien Excel. Ils peuvent mĂȘme connaĂźtre un peu de langage de script (Python, JS), mais ne sont pas assez techniques pour travailler sur l'infrastructure des donnĂ©es ou pour crĂ©er des rapports complets Ă partir de zĂ©ro, ou encore pour Ă©laborer des analyses complexes qui nĂ©cessitent des acrobaties SQL.
Il s'agit essentiellement de ce que les gens appellent des "analystes d'entreprise". Ils comprennent bien les problÚmes de l'entreprise, peuvent parler le langage de l'entreprise et un peu le langage des données, et ont besoin d'un outil pour rassembler et présenter de jolis rapports aux clients ou aux parties prenantes internes.
Fonctionnalités
Google Data Studio comporte 4 concepts importants : Dataset, Connector, Data Source, Report.
Les concepts de Google Data Studio et leurs liens
L'ensemble de données est la couche "physique" qui sous-tend tout (et stocke les données), tandis que la source de données est la couche "logique" avec des propriétés et des fonctionnalités supplémentaires. Un connecteur est le "tuyau" qui relie ces deux couches.
Un ensemble de donnĂ©es peut ĂȘtre bien plus qu'un simple tableau ou un fichier Excel. Quelques exemples :
- Vues de rapports Google Analytics
- Feuilles de calcul Google Sheets, fichiers CSV téléchargés sur Drive
- Bases de données MySQL, PostgreSQL
- etc...
La source de données est créée au-dessus de l'ensemble de données avec des fonctionnalités supplémentaires :
- Partageable : bien que vous soyez le seul Ă avoir accĂšs Ă votre ensemble de donnĂ©es sous-jacent, la source de donnĂ©es peut ĂȘtre partagĂ©e de la mĂȘme maniĂšre que n'importe quelle autre ressource Google (avec des autorisations de propriĂ©taire, de modification et de visualisation...).
- Configurable : vous pouvez modifier les noms des champs, le type d'agrégation, créer des champs calculés, désactiver des champs...
Connecteur : La Google Data Studio n'importe pas vos données - elle utilise un connecteur pour avoir accÚs à vos données sous-jacentes réelles. Outre les connecteurs officiels de Google, il existe des connecteurs partenaires et des connecteurs open-source permettant d'accéder aux données d'autres plateformes telles que Facebook, GitHub ou Twitter.
Bien qu'il dispose d'un grand nombre de connecteurs qui facilitent la connexion des données, les connecteurs fournis par la communauté ne sont pas toujours stables car ils ne sont pas toujours bien entretenus.
Google Data Studio prend en charge un grand nombre de connecteurs, certains fournis par Google, d'autres par des partenaires et des communautés.
Enfin, un rapport est la présentation finale et visuelle des données provenant de différentes sources de données. Nous parlerons davantage d'un rapport dans la section ci-dessous.
Prenons un exemple simple oĂč vous voulez analyser les donnĂ©es d'une transaction de vente dans un fichier Excel que vous stockez dans GDrive.
- Vous démarrez Google Data Studio, et utilisez leur connecteur Google Drive pour vous connecter à Google Drive (jeu de données).
- Vous créez ensuite une source de données basée sur ce fichier Excel particulier dans Google Drive. Vous ajoutez ensuite une formule personnalisée (calculer la marge brute sur la base du prix de vente et du coût), ou supprimez les champs/données inutiles dans la source de données.
- Ensuite, vous créez un rapport avec plusieurs visualisations pour présenter différents aspects de vos données dans la source de données. Vous pouvez partager ce rapport avec différentes parties prenantes. C'est fait !
1. Rapports
Google Data Studio s'articule autour du concept de "rapport". Un rapport dans Google Data Studio a une ressemblance frappante avec Google Drawing ou Google Slides. Google Data Studio n'a pas le concept de tableau de bord.
ComparĂ© Ă d'autres outils de BI, oĂč les rapports sont gĂ©nĂ©ralement constituĂ©s d'un graphique ou d'un tableau, et oĂč le tableau de bord est constituĂ© de plusieurs graphiques, avec un concept de mise en page basĂ© sur une grille trĂšs fixe, nous pensons que c'est l'un des aspects les plus agrĂ©ables de Google Data Studio.
Du cĂŽtĂ© de l'Ă©dition, l'outil offre une interface glisser-dĂ©poser trĂšs interactive, oĂč l'utilisateur peut librement redimensionner et aligner les graphiques. Cela donne plus de libertĂ© aux concepteurs, mais peut irriter ceux qui ne veulent que des graphiques rapides et agrĂ©ables qui sont arrangĂ©s automatiquement.
Cette approche s'aligne bien sur les analystes d'affaires semi-techniques qui ont l'habitude d'embellir les diapositives Powerpoint.
Filtrage des données dans Google Data Studio
Le filtrage des données dans Google Data Studio est fragmenté. Il existe différents types de filtres dans Google Data Studio : Plage de dates, ContrÎle des filtres, ContrÎle des données, Filtres spécifiques aux cartes.
Un filtre est lié à une source de données et prend le contrÎle de certains champs/dimensions de cette source de données.
Lorsque la valeur du filtre est modifiĂ©e, cette modification se rĂ©percute sur la source de donnĂ©es, gĂ©nĂ©rant de nouvelles requĂȘtes qui sont envoyĂ©es au jeu de donnĂ©es sous-jacent. Les rĂ©sultats sont stockĂ©s dans le cache des requĂȘtes, puis les graphiques sont mis Ă jour en consĂ©quence.
Modélisation des données
Dans une source de données, nous pouvons ajouter un nouveau champ et spécifier son type. Les champs de type catégorique comme le texte, la date, le booléen... seront classés comme Dimension, tandis que les nombres sont classés comme Métriques. Chaque métrique est liée à une méthode d'agrégation par défaut.
La syntaxe de Formula est une version simplifiĂ©e de la syntaxe SQL standard de BigQuery. Les fonctions prises en charge rĂ©pondent Ă la plupart des cas d'utilisation populaires, mais elles sont un peu insuffisantes dans les cas limites oĂč vous souhaitez une formule plus compliquĂ©e :
En bref, il semble facile au début de s'habituer à cette fonctionnalité, mais elle comporte quelques bizarreries. En outre, elle ne permet pas actuellement de définir des relations (jointures) entre différentes sources de données, ce qui est trÚs limitatif comme vous le lirez ci-dessous.
Exploration
Google Data Studio a récemment introduit la fonction Explorer (encore en mode Labs/beta) qui permet à l'utilisateur d'explorer une seule source de données dans une version simplifiée de Data Studio. Il s'agit probablement d'un moyen pour Google de répondre aux besoins de certains utilisateurs en matiÚre d'interface d'exploration de données rapide et sale.
Cependant, nous pensons qu'avec une couche d'abstraction de données limitée (sans relations entre les sources de données), le développement de cette fonctionnalité sera limité, à moins que la couche de modélisation sous-jacente soit suffisamment complexe.
Combinaison de données
La combinaison de données provenant de sources multiples est l'une des caractéristiques les plus importantes d'un outil de BI. Nous examinons ci-dessous comment la Google Data Studio vous aide à le faire.
Google Data Studio a introduit la fonctionnalité de Data blending qui permet aux utilisateurs de combiner différentes sources de données en une seule. Cette fonctionnalité est à la fois similaire et différente d'une JOIN SQL. Comme Google l'a défini, il s'agit d'un LEFT JOIN et Google Data Studio permet de combiner jusqu'à 5 sources en une seule opération.
à notre avis, cette fonctionnalité est sous-développée et n'est utile que pour un petit nombre de cas d'utilisation spécifiques.
Examinons les différents scénarios de jointure suivants :
- Mélange de deux sources de données
- MĂ©lange de 3 sources de donnĂ©es ou plus avec les mĂȘmes clĂ©s de jointure
- Mélange de 3 ou plusieurs sources de données avec des clés de jointure différentes
Les sources de donnĂ©es mĂ©langĂ©es sont appelĂ©es "vues de donnĂ©es" et ne sont disponibles que dans le rapport crĂ©Ă©, ce qui signifie qu'elles ne peuvent pas ĂȘtre partagĂ©es ou rĂ©utilisĂ©es. En d'autres termes, l'idĂ©e du mĂ©lange de donnĂ©es semble excellente, mais l'exĂ©cution n'est pas Ă la hauteur. S'il est dĂ©veloppĂ© davantage, le Data Blending sera un excellent compagnon du mode Explorer.
ContrÎle d'accÚs et partage des données
Les rapports et les sources de donnĂ©es ont le mĂȘme mĂ©canisme de partage, de permission et de propriĂ©tĂ© qu'un document sur Google Drive, mais sans structure de dossier. Lorsqu'ils sont crĂ©Ă©s, ces objets sont enregistrĂ©s en tant que "fichier inconnu" dans le dossier principal de Google Drive, ce qui est assez dĂ©sordonnĂ©.
Le partage des données est facile pour les individus, mais pour les groupes, Google Data Studio s'appuie sur Google Groups, ce qui ajoute des frictions à l'expérience. En fait, le mécanisme est assez restrictif pour les grandes organisations qui ont besoin d'un contrÎle complexe des autorisations.
Par exemple, lorsqu'un utilisateur quitte une organisation, le processus de transfert de propriĂ©tĂ© dans Data Studio est actuellement maladroit. Il arrive que le compte Gmail d'un utilisateur soit dĂ©sactivĂ© avant qu'il ne puisse transfĂ©rer la propriĂ©tĂ© de ses rapports et sources de donnĂ©es, ce qui entraĂźne la dĂ©sactivation de centaines de sources de donnĂ©es qui doivent ĂȘtre reconnectĂ©es Ă l'ensemble de donnĂ©es. Ce processus est assez long, fastidieux et parfois ingĂ©rable.
Intégrations
Google Data Studio s'intÚgre bien avec les autres produits de l'écosystÚme Google, principalement les produits de base de données (BigQuery, Spanner, Cloud SQL...), les produits de gestion des annonces et des campagnes (Google Analytics, Adwords, Youtube Analytics...) et Google Sheets.
- BigQuery : Google Data Studio peut facilement se connecter aux tables et aux vues de BigQuery, et il prend Ă©galement en charge le SQL personnalisĂ© pour aider les utilisateurs Ă optimiser les performances des tableaux de bord et le coĂ»t des requĂȘtes. Chaque table, vue et SQL personnalisĂ© agit comme un ensemble de donnĂ©es.
- Google Sheets : Chaque feuille d'une feuille de calcul Google est un ensemble de donnĂ©es sĂ©parĂ©, ce qui signifie que chaque source de donnĂ©es ne se connectera qu'Ă une seule feuille d'une feuille de calcul. Les donnĂ©es de la feuille doivent ĂȘtre sous forme de tableau pour que Google Data Studio fonctionne correctement.
- Applications (GA, Youtube, Google Ads) : Google Data Studio dispose de connecteurs officiels Ă Google Analytics, Youtube Analytics et autres. En se connectant Ă ces sources, Google Data Studio reconnaĂźt automatiquement les dimensions et mĂ©triques disponibles. Il existe Ă©galement des modĂšles Google Data Studio conçus pour fonctionner instantanĂ©ment avec Google Ads ou Youtube Analytics, et il existe mĂȘme un filtre dĂ©diĂ© pour contrĂŽler les sources de donnĂ©es GA dans Google Data Studio. Cependant, les donnĂ©es obtenues via ces connecteurs officiels ne sont que des donnĂ©es agrĂ©gĂ©es (et Ă©ventuellement Ă©chantillonnĂ©es).
- Travailler avec une stack non-Google : Comme indiqué ci-dessus, outre les connecteurs officiels vers les produits Google, Google Data Studio propose des centaines de connecteurs écrits par des partenaires de Google, ainsi que quelques connecteurs open source. Ces connecteurs vous aident à explorer les données publiques (ou parfois privées) d'autres sites Web, dont les connecteurs de médias sociaux et de plateformes publicitaires représentent la plus grande partie.
Tarifs
Pour l'instant, Google Data Studio est proposé gratuitement par Google dans le cadre de son offre Google Cloud Platform.
Il est probable que Google commence Ă faire payer ce service (ou une version premium de celui-ci) Ă l'avenir, Ă l'instar de Google Analytics (avec Google Analytics 360).
Avis Final
Dans l'ensemble, nous pensons que Google Data Studio est un outil de BI décent, idéal pour les rapports dont la structure des données est simple, mais dont les exigences de formatage sont complexes (c'est-à -dire que les données ne sont pas complexes, mais que les utilisateurs finaux ont besoin de rapports sophistiqués).
Quelques points clés sont mis en évidence ci-dessous :
- Conçu pour les utilisateurs semi-techniques, c'est-à -dire les analystes commerciaux.
- Plusieurs connecteurs de données qui prennent en charge de nombreuses intégrations, mais aucune garantie de connecteurs contribués par la communauté.
- Leur vue des rapports avec une expérience de type Powerpoint est unique et se démarque des autres outils que nous connaissons.
- Leur modélisation des données est faible et trÚs basique, ce qui les rend incapables d'effectuer des opérations compliquées et des rapports en libre-service. Il n'y a pas d'exploration et les capacités de filtrage sont standard.
- Le mélange de données a du potentiel, mais il est encore trÚs limité et il est difficile pour les utilisateurs de manipuler et de joindre les données (ce qui prend généralement 80 % du temps).
- Conçu pour compléter la stack Google Cloud et fonctionne bien avec elle. Recommandé uniquement si vous utilisez déjà (ou décidez de le faire) les services de Google et de GCP.