Anne Devillers

View Original

Pourquoi la donnée est-elle différente dans Google Analytics 4 entre les rapports standards, l’API, Explorer et BigQuery ?

Note : à peine ce tutoriel mis en ligne que la communauté autour de GA4 a remarqué des changements, non documentés encore sur le support de Google, qui ont nécessité une mise à jour : l’échantillonnage semble désormais pouvoir s’appliquer également aux rapports standards, et la cardinalité à Explorer.

Note 2 : Suite à une annonce du 8 décembre, les Signaux Google seront retirés de l’Identité de reporting le 12 février 2024. A partir de cette date, terminée la possibilité de rencontrer des seuils de confidentialité appliqués automatiquement à vos rapports.

Il y a pas mal de subtilités à connaître dans Google Analytics 4. Non seulement il y a de nombreuses différences dans le modèle de données et le calcul des indicateurs clefs avec Universal (sessions, rebond, etc.), mais au sein même de ce que GA4 appelle les surfaces de reporting vous constaterez des écarts de données.

On peut comprendre une surface de reporting comme une interface dans laquelle les données sont présentées et analysées. Google mentionne comme surfaces de reporting (1) les rapports standards, (2) l'API, (3) les explorations ou les rapports d’Explorer et (4) BigQuery.

Ces surfaces de reporting présentent les données de manière distincte, principalement en raison de variation dans les méthodes d'agrégation et de traitement des données.

Par exemple, les rapports standards et l'API utilisent des données agrégées, tandis que les explorations et BigQuery utilisent des données brutes. Cette divergence dans les sources de données contribue - en partie - aux différences observées.

Le tableau ci-dessous donne un bon aperçu des disparités dans le traitement des données auquel chaque surface est soumise (dans la version gratuite de GA4) :

Les seuils de confidentialité avec les Signaux Google

Les seuils de confidentialité touchent toutes les surfaces de reporting à l’exception de BigQuery.

Ils se produisent lorsque la fonctionnalité des Signaux Google est activée et s'appliquent à certaines dimensions pour protéger la confidentialité des utilisateurs.

Ils sont définis par le système et ne peuvent pas être ajustés, et ont comme conséquence la suppression de lignes avec de faibles volumes dans les rapports, source / support par exemple pour l’acquisition, ou chemin de la page dans “Pages et écrans”.

Les Signaux s’activent dans l’Administration:

Ils permettent à Google d’identifier des utilisateurs qui sont connectés à leur compte Google qu’ils soient sur mobile ou desktop, et ont gardé activée la personnalisation des annonces dans ce dernier. La fonctionnalité des Signaux facilite la création de rapports multi-appareils, le remarketing (retargeting à la sauce Google) et la possibilité d'exporter les conversions vers Google Ads.

Pour savoir si vos rapports sont affectés par ces seuils, direction la section Identité pour le reporting de votre Administration:

💡 “Basé sur l'appareil” n'apparaît pas comme une option immédiatement. Pour l’afficher l'option, vous devez cliquer sur “Afficher tout” dans le coin inférieur droit, sous les options “Mélangée” et “Observée”.

L’identité de reporting vous permet de spécifier à Google Analytics comment vous souhaitez que l’outil comptabilise vos utilisateurs :

  • “Basé sur l’appareil” fait référence à l’ID Client parfois appelé ID de l’appareil = cookie.

  • Avec l’option “Observée”, vous indiquez à GA4 d'utiliser le meilleur identifiant disponible. Si votre utilisateur s'est authentifié et qu'un ID Utilisateur existe, cette méthode sera utilisée car elle est la plus précise. Dans le cas contraire, la méthode des Signaux Google sera utilisée. Enfin, s'il n'y a pas d'autre option, le dernier recours sera l'ID de l'appareil / ID Client autrement dit le cookie.

  • Avec ”Mélangée” - l’option par défaut quand vous créez une propriété, une surcouche de modélisation des données est ajoutée lorsque le Mode de Consentement Google est activé dans les tags (Google imagine le comportement des utilisateurs qui refusent les cookies analytics en partant de ceux qui les acceptent) et que vous avez suffisamment de trafic.

Le choix que vous faites comme Identité pour le reporting est rétroactif : vous pouvez donc le modifier autant de fois que souhaité et comparer vos données entre “Basé sur l’appareil” et “Mélangé” ou “Observé” qui incluent les Signaux, pour voir si le nombre de lignes de vos rapports (source / support par exemple pour l’acquisition, ou chemin de la page dans “Pages et écrans”) diminue.

💡 Vous pouvez aussi utiliser l'icône de qualité des données pour savoir quand des seuils de données sont appliqués à un rapport. Vous trouverez l'icône à côté du titre d'un rapport :

La bonne nouvelle, c’est que si votre propriété utilise l'identité pour le reporting mixte ou observée, il est désormais possible (depuis Octobre 2023) d’en exclure les Signaux pour éviter le problème de seuil de données s’il vous concerne, tout en conservant les autres avantages de la fonctionnalité (partage des audiences et conversions vers Google Ads notamment).

Direction l’Administration, à l’endroit où on active les Signaux :

C’est l’option à privilégier, qui ne semble par contre pas rétroactive : les données enregistrées précédemment seront toujours soumises aux seuils.

Mais vous pouvez également :

  • Sélectionner “Basé sur l’appareil” dans l’identité pour le reporting comme choix par défaut,

  • Désactiver carrément la collecte des Signaux dans l’Administration si leur apport (meilleure comptabilisation des utilisateurs cross-devices, rapports âge et sexe et audiences pour Google Ads) ne vous concerne pas,

  • Augmenter la période d’analyse de votre rapport pour collecter plus de données, mais cette recommandation est pertinente uniquement pour les sites à fort trafic.

La cardinalité dans GA4

La cardinalité touche uniquement les rapports standards et l’API et depuis novembre 2023 les rapports Explorations également - pas BigQuery.

La cardinalité fait référence au nombre de valeurs uniques attribuées à une dimension.

Certaines dimensions (Catégorie d’appareil, par exemple) présentent un nombre fixe de valeurs uniques (3 : ordinateur, tablette, mobile).

En revanche, les dimensions associées à plus de 500 valeurs uniques (chemin de la page) dans une journée sont considérées comme des dimensions à cardinalité élevée.

Les dimensions à cardinalité élevée augmentent le nombre de lignes d'un rapport. Dans ce cas Analytics agrège une partie des données dans une ligne (other) :

💡 Utiliser là aussi l'icône de qualité des données pour savoir quand des données condensées sont intégrées à un rapport.

💡 La limite de lignes pour la plupart des rapports est de 50K pour un GA4 standard et de 1 million pour GA4 360. Lorsque vous modifiez le rapport par défaut, par exemple en ajoutant des comparaisons ou une dimension secondaire, la limite de lignes est de 2 millions.

Pour se débarrasser d’un problème de cardinalité :

  • Utiliser Explorer,

  • Prioriser les données importantes pour votre entreprise. La limite de cardinalité s'applique à toutes les données collectées dans la propriété pour la plage de dates spécifiée dans le rapport, et pas uniquement au rendu des données dans un rapport. Par exemple, évitez de collecter des dimensions personnalisées à cardinalité élevée, comme un identifiant unique pour chaque utilisateur,

  • Passer par BigQuery, non sujet à la cardinalité, mais se rappeler que les données ne matcheront pas (c’est tout le sujet de ce tutoriel) avec les autres surfaces de reporting.

L’échantillonnage dans GA4

Vous rencontrerez de l’échantillonnage dans Explorer et depuis novembre 2023 les rapports standards et l’API semblent également être concernés :

💡 Utiliser là aussi l'icône de qualité des données pour savoir quand des données échantillonnées sont intégrées à un rapport.

L'échantillonnage des données est utilisé lorsque le nombre d'événements renvoyés par une exploration dépasse la limite d’un million : au lieu d’aller chercher toutes les données concernées sur ses serveurs, Google Analytics en prend un échantillon qu’il estime représentatif (un certain pourcentage), puis extrapole les résultats du rapport.

Lorsque vous utilisez des données échantillonnées, le ratio entre la taille de la population globale et celle de l'échantillon peut avoir un impact sur la justesse des résultats. En règle générale, plus l'échantillon est grand (en pourcentage), plus les résultats sont précis.

Les façons les plus simples pour se débarrasser d’un échantillonnage :

  • Réduire la période d’analyse de votre rapport,

  • Réduire le nombre de dimensions et de métriques utilisées,

  • Passer par BigQuery, non sujet à l’échantillonnage.

La modélisation des conversions dans GA4

Comme les seuils de confidentialité, la modélisation des conversions touche toutes les surfaces de reporting à l’exception de BigQuery.

Le but de la modélisation des conversions - utilisée depuis juillet 2021 et appliquée par défaut à tous les rapports à partir du moment où un trafic suffisant permet d’alimenter le modèle - est de combler les lacunes dans les données créées par les restrictions de certains navigateurs sur les cookies tiers et / ou propriétaires, l’ATT (App Tracking Transparency) d’Apple, le consentement, les comportements multi-appareils, etc.

💡 Cette modélisation ne modifie pas le nombre de conversions enregistré mais réattribue les conversions normalement assignées au Direct à d’autres canaux (ce qui veut dire notamment que BigQuery enregistrera le même nombre de conversions, mais ne les attribuera pas aux mêmes canaux).

Cette modélisation fonctionne en analysant le sous-ensemble des utilisateurs qui ont généré des données de conversion dites de haute qualité (via les Signaux Google notamment) pour identifier corrélations et tendances, puis en utilisant ces données pour combler les lacunes dans la plus grande population.

💡 La modélisation des conversions ne porte que sur les dimensions d’acquisition de portée événement qui se trouvent notamment dans les rapports standards "Conversions", “Publicité” et “Explorer” (sous Attribution) et s'appellent groupe de canaux par défaut, source, support.

💡 Lorsque vous consultez les rapports Google Analytics, gardez à l'esprit que les données de conversion attribuées à chaque canal peuvent être mises à jour jusqu'à 7 (9?) jours après l'enregistrement de la conversion. Pour une précision accrue, Google recommande de sélectionner une plage de dates antérieure à la semaine précédente.

💡 Il n’est pas certain que cette modélisation nécessite le mode Consentement des tags Google pour fonctionner (il n’y a actuellement pas de documentation claire sur ce sujet) mais le Consent Mode aide - si activé - la modélisation. Lire l’article du support Mode Consentement sur les sites Web et dans les applications mobiles.

Vous ne trouverez finalement aucun warning côté icône de qualité (à l’heure en tous cas où je rédige ce tutoriel) qui vous permettrait de savoir si la modélisation des conversions est activée pour votre propriété.

Pour désactiver la modélisation des conversions, votre seule option est via l’identité de reporting, en sélectionnant “Observée”. Choix rétroactif, je le rappelle.

La modélisation du comportement dans GA4

Comme la modélisation des conversions, la modélisation du comportement est disponible dans les rapports standards (sauf pour les audiences, les segments incluant une séquence, les rapports de rétention et les métriques prédictives), l'API et Explorer (uniquement avec l’analyse de Format libre), mais pas dans BigQuery.

La modélisation du comportement est spécifiquement utilisée pour modéliser les données des utilisateurs qui refusent les cookies analytics sur le bandeau de collecte.

Afin d’activer cette modélisation dans votre propriété, vous devez mettre en place le mode de Consentement des tags Google et répondre aux critères de modélisation.

Le mode Consentement permet de gérer les informations envoyées aux serveurs de Google en fonction de l’accord de l’utilisateur ou non au dépôt de cookies sur son navigateur avec de nouveaux paramètres : analytics_storage, ad_storage, personalization_storage.

Comment ça fonctionne ?

  1. Les tags Google se déclenchent au chargement de la page avec des paramètres de consentement par défaut en denied et des informations anonymes sont envoyées aux serveurs de Google.

  2. La popin de consentement s’affiche.

  3. En fonction du choix de l’utilisateur quant aux cookies, les paramètres du tag sont automatiquement mis à jour > Les informations habituelles peuvent être envoyées aux serveurs, dont l’ID Client ou numéro de cookie.

Il est important de noter que le refus des cookies analytics n'empêchera donc pas le déclenchement des tags / l'envoi des appels aux serveurs de GA, mais empêchera en revanche GA de stocker ou de lire des données à partir de cookies de navigateur de l’utilisateur. Ces appels n’apparaissent pas du tout dans les rapports, mais servent à la modélisation.

Les critères suivants doivent par ailleurs être remplis pour que la modélisation comportementale soit présente dans GA4 :

💡 Il doit y avoir 1 000 refus par jour pendant 7 jours consécutifs des cookies analytics via votre bandeau de collecte de consentement, et 1 000 acceptations par jour pendant au moins 7 des 28 derniers jours). Vous trouverez cette information sur la page Modélisation du comportement pour le mode Consentement du support Google.

💡 Cela signifie que le nombre d'utilisateurs ou de sessions sera plus élevé dans BigQuery que dans les autres surfaces. En effet, les données BigQuery contiennent Les appels ou pings sans cookie collectés par Google Analytics lorsque le mode consentement est activé.

💡 Utiliser là aussi l'icône de qualité des données pour savoir quand des données de comportement modélisées sont intégrées à un rapport.

La modélisation du comportement commence à la date à laquelle une propriété donnée devient éligible, et les données ne seront pas disponibles si la propriété ne répond plus aux critères d'éligibilité.

Pour désactiver cette modélisation, les utilisateurs peuvent sélectionner l'identité de reporting “Observée”, ce qui supprimera les données non observées. Ce processus est rétroactif – on l’a dit plusieurs fois – et peut être rétabli à “Mélangé” à tout moment.

Maintenant que nous avons passé en revue les disparités dans le traitement des données existantes, direction le récapitulatif concernant chaque surface de reporting.

Les surfaces de reporting dans Google Analytics 4

Les rapports standards

Le but principal de ces rapports est de fournir rapidement des données : ces dernières sont donc déjà agrégées.

Elles sont potentiellement soumises à des seuils de confidentialité si les signaux Google sont activés dans l’Administration et que ces signaux ne sont pas exclus de l’identité de reporting.

La cardinalité avec l’apparition de la ligne (other) peut également être un facteur problématique dans les rapports standards. Dans le cas où cette cardinalité devient un problème et que des données plus détaillées sont nécessaires, on l’a dit précédemment : vous pouvez utiliser Explorer ou il vous reste BigQuery.

Les données ne rencontraient pas d'échantillonnage mais depuis novembre 2023, ça peut être le cas.

La modélisation des conversions s’applique si les conditions sont remplies.

La modélisation du comportement peut finalement s’appliquer à condition d’avoir le Mode de Consentement des tags Google activé, assez de trafic et l’identité de reporting sur “Mélangée” (sauf pour les audiences, les segments incluant une séquence, les rapports de rétention et les métriques prédictives).

L’API Data

Les API GA4 ouvrent la voie à une gestion automatisée de vos comptes.

Il y a plusieurs APIs pour GA4, et dans cette section, nous nous concentrons sur l'API de Données ou Data API, qui permet d’accéder aux données de reporting de GA4.

💡 De nombreux utilisateurs ne réalisent probablement pas qu'ils utilisent l'API de collecte de données. Si vous utilisez un connecteur Google Analytics 4 dans des outils comme Looker Studio ou Tableau, les données seront importées via l'API de données → Prenez le temps de vérifier comment les données sont importées dans votre outil de data visualisation / BI si vous n’en êtes pas sûrs, car elles peuvent également être importées via un connecteur BigQuery par exemple.

Vous l’aurez probablement noté via le tableau, les données disponibles dans l'API de données reflètent celles des rapports standards et sont soumises aux mêmes limitations : seuils de confidentialité possible, de même que l’apparition de la ligne (other) en cas de cardinalité élevée sur certaines de vos dimensions (souvent les URLs pour les gros sites). Les données ne rencontraient pas d'échantillonnage mais depuis novembre 2023, ça peut être le cas.

Les données extraites via l'API Data sont également soumises à la modélisation des conversions et à la modélisation du comportement si les conditions nécessaires sont réunies.

💡 Pour plus d’informations sur les dimensions et métriques disponibles via l’API, rendez-vous sur ce lien de la documentation pour développeurs API Dimensions and Metrics.

Explorer

Le module Explorer n’était disponible que pour les clients de la version 360 d’Universal, mais est devenu accessible à tous dans Google Analytics 4.

Il regroupe un ensemble de techniques d'analyse avancées (ou explorations) qui vont au-delà des rapports standards afin de vous aider à obtenir des insights plus précis sur le comportement de vos visiteurs et clients, et permet une flexibilité et une personnalisation importantes pour vos analyses ad-hoc.

Le module se trouve dans la section Explorer du panneau de navigation :

Les rapports Explorer sont basés sur les données brutes (événements et utilisateurs) et, en tant que tel, les requêtes peuvent renvoyer des résultats quelque peu différents de ceux des rapports standards ou de l’API.

Les explorations, comme les rapports standards et l'API, peuvent être soumis à des seuils de confidentialité si les signaux Google sont appliqués.

Elles ne rencontraient pas de cardinalité mais depuis novembre 2023, ça peut être le cas.

L’échantillonnage est par ailleurs peu probable, si le nombre d'événements retourné par votre rapport dépasse la limite de 10 millions. Les propriétés payantes (360) ont l’avantage supplémentaire de pouvoir ajuster la taille des échantillons pour fournir des résultats plus rapides.

Les explorations sont également soumises à la modélisation des conversions et du comportement (mais partiellement pour cette dernière, seule l’analyse de format libre est concernée).

BigQuery

Historiquement, le seul moyen pour les utilisateurs de Google Analytics d'accéder et d'exporter des données brutes à partir de GA vers BigQuery était la version entreprise payante, GA360. Avec l'introduction de GA4, cette fonctionnalité est disponible pour tous les utilisateurs.

BigQuery est une plateforme de données hébergée dans le cloud, permettant de stocker et d’interroger rapidement des ensembles de données volumineux.

Exporter de Google Analytics 4 vers BigQuery vous permet d’accéder à toutes les données brutes de l’outil, événement par événement, au fur et à mesure où GA les reçoit, puis d’interroger ces données à l’aide d’une syntaxe de type SQL.

L'exportation BigQuery peut être activée à partir de l’Administration de Google Analytics.

Étant donné que BigQuery contient des données brutes, les chiffres présentés dans ce contexte peuvent différer de ceux disponibles dans l'interface utilisateur.

Aucune restriction n'est imposée à BigQuery en termes de cardinalité (pas de limite sur le nombre de valeurs uniques d’une dimension) ou d'échantillonnage.

Noter également qu'il n'y a aucune donnée relative aux signaux Google dans BigQuery. Le même utilisateur pourra donc être comptabilisé plusieurs fois via différents appareils (mobile / desktop) contrairement aux autres surfaces de reporting incluant les signaux.

Il est aussi important de noter que les fonctionnalités de modélisation ne sont pas disponibles dans BigQuery. Lorsque le mode consentement est activé, les données stockées dans BigQuery incluent par contre les pings sans cookie collectés par Google Analytics.

Besoin de maîtriser Google Analytics 4 : on s’en parle ?

Les tutoriels, aussi bien faits / détaillés soient-ils, sont un début, mais rien ne vaut une vraie formation pour aller droit au but et gagner du temps.

J'ai créé un programme d'accompagnement en 5 étapes sur Google Analytics 4 pour vous permettre d'être rapidement à l'aise sur la nouvelle version de l'outil, et de comprendre et exploiter les données de manière à orienter votre stratégie d’acquisition / UX et développer votre chiffre d’affaires 🚀

Pour voir mes disponibilités pour un appel de prise de brief, ça se passe ici. Vous m’exposerez votre contexte et vos enjeux et je vous partagerai mon approche détaillée.

Articles complémentaires

Pour retrouver tous les articles sur Google Analytics 4.