Meilleures pratiques pour une visualisation efficace des données

 10 meilleures pratiques pour une visualisation efficace des données : Simplicité

Mise à jour du 14 mars 2023

Il s'agit d'une série de billets sur les dix meilleures pratiques en matière de visualisation de données selon les data scientists. Je compléterai chaque billet par des exemples de code R.

Liste des meilleures pratiques :

  • Faire simple
  • Utilisez des visualisations appropriées
  • Mettez en évidence les informations essentielles
  • Étiqueter et titrer la visualisation
  • Fournir un contexte
  • Tenir compte du public
  • Test et itération
  • Utiliser des échelles appropriées
  • Fournir de l'interactivité
  • Utiliser des couleurs appropriées

1) Restez simple

Pourquoi il est essentiel de garder les graphiques simples pour une visualisation efficace des données

INTRODUCTION : L'IMPORTANCE DE LA SIMPLICITÉ DANS LA REPRÉSENTATION DES DONNÉES

La visualisation des données est un outil puissant pour communiquer des informations complexes aux autres. Cependant, si elles sont mal réalisées, les visualisations peuvent être déroutantes, voire trompeuses. L'un des principes les plus importants d'une visualisation efficace des données est de rester simple. Cela signifie qu'il faut éviter le désordre et se concentrer sur les informations clés que les données peuvent fournir. Dans ce billet de blog, nous allons explorer pourquoi il est si important de garder les visualisations simples, et comment vous pouvez appliquer ce principe à votre propre travail.


DES GRAPHIQUES SANS ENCOMBREMENT : ÉVITER LA COMPLEXITÉ ET SE CONCENTRER SUR LES INFORMATIONS CLÉS

La simplicité est un aspect essentiel d'une communication efficace. Dans le contexte de la visualisation des données, la simplicité consiste à présenter les données de manière à ce qu'elles soient faciles à comprendre, sans éléments superflus ou déroutants. Lorsque les visualisations sont encombrées ou complexes, elles peuvent être accablantes pour les spectateurs, et il peut être difficile de discerner les informations les plus importantes. En revanche, les visualisations simples sont plus susceptibles d'être comprises et mémorisées par les spectateurs, ce qui en fait un outil plus efficace pour communiquer des données.


Vous trouverez sur GitHub le code d'un diagramme à barres encombré et, ci-dessous, le graphique qui en résulte.




Exemple de mauvaise représentation de données catégorielles - encombrement par des annotations

L'élimination des textes inutiles améliore la lisibilité du graphique.




Meilleure pratique pour la visualisation des données - rester simple

Le code pour le graphique à barres simplifié est ici

On peut aussi représenter ces données à l'aide d'un diagramme à barres groupées. Celui-ci sera abordé plus tard avec du code. L'exemple ci-dessous a été construit à l'aide de l'application web ScatterPlot.Bar , un constructeur de diagrammes en barres qui permet d'ajouter des diagrammes de dispersion à des diagrammes en barres, en boîte et en violon.





Un graphique à barres groupées construit avec un ScatterPlot.Bar 


SIMPLIFIER LES VISUALISATIONS TROP COMPLEXES : CHOISIR LE BON TYPE DE VISUALISATION

Une erreur courante dans la visualisation des données consiste à inclure trop d'informations dans un seul graphique. Par exemple, un graphique comportant plusieurs lignes ou barres, chacune avec des couleurs ou des motifs différents, peut être difficile à interpréter. Dans ce cas, les spectateurs peuvent avoir du mal à comprendre quelles lignes ou barres correspondent à quelles variables, ce qui rend difficile de tirer des enseignements significatifs des données. En simplifiant le graphique, par exemple en supprimant les éléments inutiles ou en le divisant en plusieurs graphiques, il est plus facile pour les utilisateurs de comprendre les informations présentées.


EXEMPLE INFÉRIEUR DE VISUALISATION DE DONNÉES CATÉGORIELLES : DIAGRAMME À BARRES EMPILÉES

Considérez ce code et le diagramme à barres empilées qui en résulte. GitHub le code.




Les diagrammes à barres empilées ne sont pas optimaux du point de vue des meilleures pratiques de visualisation des données.

La simplicité visuelle des diagrammes à barres empilées peut être moindre que celle des barres individuelles ou des diagrammes à barres groupées en raison de la difficulté potentielle à les lire et à les interpréter avec précision. Dans un diagramme à barres empilées, plusieurs sections divisent chaque barre, représentant différentes variables. Cela peut poser un problème pour comparer avec précision les valeurs des variables dans et entre les barres. En revanche, les barres individuelles ou les diagrammes en bâtons groupés permettent de comparer plus facilement les valeurs entre et dans les barres, ce qui peut conduire à une interprétation plus efficace et plus précise des données.


UNE MEILLEURE FAÇON DE VISUALISER LES DONNÉES - LES DIAGRAMMES À BARRES À FACETTES

En utilisant les mêmes données d'entrée que ci-dessus, nous pouvons exécuter le code suivant pour placer deux diagrammes à barres sur le même graphique, c'est-à-dire créer des diagrammes à barres à facettes. Le code.

Comment montrer les graphiques sur le même tableau les uns à côté des autres - ajouter la fonction facet_wrap(~ group, nrow = 1). Veuillez noter que, selon votre tableau, "group" peut devoir être changé en quelque chose d'autre.



Des diagrammes à barres à facettes affichant séparément les moyennes des bénéfices et des ventes par région. (Pour faire des diagrammes à barres à facettes avec deux axes Y indépendants, ajoutez scales = "free_y" à la fonction facet_wrap())


Si l'on considère les meilleures pratiques en matière de visualisation des données, les diagrammes à facettes constituent souvent un choix supérieur aux diagrammes à barres empilées, et ce pour plusieurs raisons. Tout d'abord, les graphiques à facettes permettent de comparer facilement plusieurs variables à la fois, puisque chaque facette présente une visualisation distincte des mêmes données. D'autre part, les diagrammes à barres empilées peuvent rendre difficile la comparaison précise de différentes variables dans chaque barre et entre différentes barres.

Deuxièmement, les diagrammes à facettes sont souvent plus attrayants visuellement et moins encombrés que les diagrammes à barres empilées, surtout lorsque le nombre de variables est élevé. Les diagrammes à barres empilées peuvent devenir surchargés et difficiles à lire lorsqu'il y a beaucoup de variables, alors que les diagrammes à facettes offrent une manière claire et organisée d'afficher les données.

Enfin, les diagrammes à facettes offrent plus de flexibilité que les diagrammes à barres empilées, car chaque facette peut être personnalisée. Par exemple, différents schémas de couleurs, étiquettes ou échelles peuvent être appliqués à chaque facette selon les besoins, offrant ainsi une vue plus nuancée des données.

UNE AUTRE BONNE FAÇON DE VISUALISER LES MOYENNES DE DONNÉES CATÉGORIELLES - LES DIAGRAMMES À BARRES GROUPÉES.

Il existe plusieurs raisons de choisir les diagrammes à barres groupées. Tout d'abord, les diagrammes en bâtons groupés permettent aux observateurs de comparer facilement les valeurs des différentes variables au sein de chaque groupe, puisque chaque variable est représentée par une barre distincte. En revanche, les diagrammes à barres empilées peuvent rendre plus difficile la comparaison des valeurs entre les variables au sein de chaque barre, ainsi qu'entre les barres.

Deuxièmement, les diagrammes en bâtons groupés sont souvent plus attrayants visuellement et moins encombrants que les diagrammes en bâtons empilés, en particulier lorsqu'il y a de nombreuses variables à afficher. Les diagrammes à barres empilées peuvent devenir encombrés et difficiles à lire lorsqu'il y a trop de variables, alors que les diagrammes à barres groupées offrent une façon claire et organisée d'afficher les données.

Troisièmement, les diagrammes à barres groupées sont également plus flexibles que les diagrammes à barres empilées, car ils permettent de personnaliser chaque barre. Par exemple, des couleurs, des motifs ou des étiquettes différents peuvent être appliqués à chaque barre selon les besoins, offrant ainsi une vue plus nuancée des données.

Enfin, les diagrammes à barres groupées sont plus intuitifs et plus faciles à comprendre pour les utilisateurs qui ne sont pas familiers avec la visualisation des données. La séparation claire entre les barres facilite l'identification et la comparaison des différentes variables, et l'absence de barres se chevauchant réduit la confusion et améliore la clarté.

Compte tenu de l'ensemble de données sur lequel nous avons travaillé précédemment, voici comment réaliser des diagrammes à barres groupées à l'aide de ggplot dans R.




Le diagramme à barres groupées est un exemple de bonne pratique de visualisation des données en matière de simplicité.

L'ADAPTATION DES VISUALISATIONS AUX DONNÉES SOUS-JACENTES : NE PAS TROP COMPLIQUER

L'utilisation de types de visualisation trop complexes pour des données simples est une erreur courante qui peut entraver la capacité du public à interpréter correctement les informations. Il est important de choisir un type de visualisation qui soit adapté au public et qui tienne compte de la complexité des données présentées.


Par exemple, lorsqu'on présente un ensemble de données comportant plusieurs variables, il peut être tentant d'utiliser une visualisation en 3D. Cependant, ce type de visualisation peut rendre difficile l'interprétation précise des informations par les spectateurs. Dans ce cas, il est conseillé d'opter pour un type de visualisation plus simple, tel qu'un graphique linéaire ou à barres, ou un diagramme de dispersion, qui permet de communiquer plus efficacement les informations clés des données.


Pour illustrer ce principe, prenons l'exemple d'un ensemble de données sur les relevés de température mensuelle moyenne dans différentes villes (GitHub).

Une bonne pratique de visualisation des données consisterait à créer un simple graphique linéaire pour montrer les tendances de la température pour chaque ville au cours du premier semestre de l'année (le graphique suivant aborde également un autre sujet, celui de l'accessibilité, car il utilise une palette compatible avec le daltonisme):




Graphique linéaire pour visualiser les températures mensuelles par ville - un exemple de bonne pratique de visualisation.

Une mauvaise pratique de visualisation des données consisterait à créer une visualisation en 3D, comme un graphique de surface, pour montrer les tendances de la température :




Un graphique 3D pour visualiser les températures mensuelles par ville est un exemple de mauvaise pratique de visualisation.

Toutefois, ces types de graphiques, lorsqu'ils sont intégrés à un site web sous la forme d'un modèle rotatif en 3D, peuvent être utiles à certains experts, étant donné que les données sous-jacentes sont beaucoup plus riches et complexes. Il s'agit d'un bon point de départ pour le prochain point.


SUIVRE LES MEILLEURES PRATIQUES EN MATIÈRE DE VISUALISATION DES DONNÉES : PRENDRE EN COMPTE L'AUDIENCE

Il est également important de tenir compte du public visé lors de la création de visualisations. Une visualisation qui est efficace pour un public peut ne pas l'être pour un autre. Par exemple, une visualisation simple peut convenir à un public général, tandis qu'une visualisation plus complexe peut convenir à un public ayant des connaissances plus spécialisées sur le sujet. En adaptant la visualisation au public, vous pouvez vous assurer qu'elle est à la fois efficace et facile à comprendre.

En outre, lors de la conception de visualisations de données, il est essentiel de tenir compte de l'accessibilité, notamment en veillant à ce que la visualisation soit utilisable par les personnes souffrant de déficience visuelle ou de daltonisme. Pour ce faire, il faut sélectionner avec soin une palette de couleurs offrant un contraste suffisant entre les couleurs et éviter les schémas de couleurs qui peuvent prêter à confusion ou être impossibles à distinguer pour les personnes atteintes de daltonisme.

Par exemple, la populaire palette de couleurs Viridis (celle qui a été utilisée pour réaliser le graphique linéaire) est conçue pour être perceptiblement uniforme et convient donc aux personnes daltoniennes. En outre, des outils tels que ColorBrewer peuvent aider à sélectionner des schémas de couleurs appropriés qui offrent un contraste suffisant pour les personnes souffrant de différents types de daltonisme.

Dans l'ensemble, l'accessibilité doit être une considération essentielle lors de la conception de visualisations de données, afin de garantir que les informations puissent être communiquées efficacement à tous les membres du public visé. En sélectionnant les types de visualisation et les palettes de couleurs appropriés, nous pouvons nous assurer que nos visualisations sont accessibles et communiquent efficacement les informations tirées de nos données.

J'aborderai les palettes plus en détail dans les prochains articles.

GARDER LES VISUALISATIONS SIMPLES MAIS AGRÉABLES À L'ŒIL : UTILISER DES OUTILS LOGICIELS POUR LA CONCEPTION

Une façon de garder les visualisations simples est de suivre les meilleures pratiques de visualisation des données. Par exemple, l'utilisation d'une palette de couleurs limitée, l'absence de décorations inutiles et l'étiquetage clair des axes et de la légende peuvent contribuer à rendre la visualisation simple et facile à comprendre. Évidemment, l'utilisation d'outils logiciels spécifiquement conçus pour la visualisation de données, tels que ggplot2 dans R ou matplotlib dans Python, peut contribuer à garantir que la visualisation résultante est à la fois efficace et esthétique.

Articles précédents:

Ce que font les scientifiques des données

Cinq tendances qui changent la donne et façonnent l'avenir de la science des données dans Cinq ans

 Les diagrammes en bâtons peuvent dissimuler la structure sous-jacente des données

Datapublication - Dépôt de données de recherche associées aux articles dans les revues affiliées

L'importance de la visualisation individuelle des données: comparaison entre barplots et autres types de graphiques

L'importance du dépôt et du partage indépendant des données de recherche

Comments

Popular posts from this blog

Apprendre les langues étrangères : Outils modernes et potentiel du ChatGPT

ChatGPT-4 reproduit l'animation GapMinder en une seule tentative

GPT-4 vs GPT-3.5 - Dévoiler l'avenir des modèles de langage de l'IA