Les diagrammes en bâtons peuvent dissimuler la structure sous-jacente des données

 Les diagrammes en bâtons peuvent dissimuler la structure sous-jacente des données

Le problème des diagrammes à barres pour les données continues : Dissimuler la structure des données

Nous devons savoir que les diagrammes en bâtons ont été conçus à l'origine pour présenter des comptages et des proportions de données, mais qu'ils ont été utilisés à mauvais escient dans la présentation de données continues dans divers domaines tels que la biologie et la psychologie. Pour ma part, j'y vois un problème car les diagrammes en bâtons ont le potentiel de dissimuler les différences de distribution des données, et divers ensembles de données peuvent produire des diagrammes en bâtons similaires conduisant à des conclusions différentes à partir des statistiques récapitulatives. En fait, une revue systématique menée par Weissgerber et al. (2015) a révélé que 86 % des articles publiés dans les 25 % les plus importants des revues de physiologie présentaient des données continues à l'aide de graphiques à barres. Étonnamment, les graphiques qui montrent la véritable distribution des données, tels que les nuages de points univariés et les box plots, étaient rarement utilisés.

Perception de la communauté scientifique et mouvement #barbarplots : Sensibilisation et promotion des meilleures pratiques en matière de visualisation de données

La communauté scientifique ayant pris conscience des limites des diagrammes à barres dans la représentation de la distribution des données, les principales revues telles que le Journal of Biological Chemistry, PLOS Biology, eLife et Nature ont pris des mesures en encourageant, voire en exigeant, que les auteurs choisissent des figures qui représentent mieux la distribution des données. Nous avons également vu émerger un mouvement populaire, connu sous le nom de mouvement #barbarplots, qui cherche à sensibiliser au problème et à promouvoir des techniques de visualisation alternatives comme les dot plots et les violin plots. Ce mouvement a recueilli le soutien de data scientists, de statisticiens et de chercheurs de divers domaines qui partagent des exemples de graphiques à barres médiocres et plaident en faveur des meilleures pratiques de visualisation des données.

Des voix plus récentes plaident également pour que les graphiques montrent des points de données individuels.


 

Dans l'image ci-dessous, nous pouvons voir cinq barres représentant cinq ensembles de données différents (panneau de gauche). Elles semblent toutes identiques lorsque les barres d'erreur indiquant l'erreur standard des moyennes (SEM) sont présentes. Cependant, si l'on ajoute au graphique une dispersion représentant les points de données individuels (panneau de droite), on voit immédiatement les différences dans la structure des données.



Les diagrammes à barres peuvent dissimuler la structure réelle des données. Panneau de gauche (le diagramme à barres avec SEM a été créé à l'aide de R et de ggplot). Le panneau de gauche - un nuage de points combiné à des barres transversales et à des barres d'erreur représentant l'écart-type - a été réalisé à l'aide de l'application Web gratuite ScatterPlot.Bar, qui génère des nuages de points sans code ni enregistrement.


Le code pour générer l'image de gauche est ici sur GitHub

Afin de révéler la véritable distribution des données, nous pouvons ajouter des nuages de points aux diagrammes à barres en ajoutant simplement la fonction geom_point() à ggplot.

Anatomie d'un diagramme à barres : Comment les diagrammes à barres peuvent déformer la distribution des données

Cependant, même les diagrammes à barres avec des points de données individuels peuvent contenir des informations non pertinentes. Dans l'anatomie d'un diagramme en bâtons (comme l'ont démontré Weissgerber et al., 2017), la hauteur du diagramme en bâtons est attribuée de façon arbitraire, au lieu de se concentrer sur la façon dont la plage des valeurs observées dans l'échantillon se compare à la différence entre les moyennes.


Par exemple, dans le panneau (a) de l'image ci-dessous, la moyenne est représentée par la hauteur de la barre, et l'axe des y commence à zéro et se termine juste au-dessus de la barre d'erreur la plus élevée (représentant le SEM). Cela peut conduire à la perception d'une gamme déformée de valeurs observées en raison de l'échelle de l'axe des ordonnées. Lorsque l'on ajoute des points de données dans le panneau (b), le graphique à barres du panneau (a) semble contenir des valeurs faibles qui ne sont pas présentes dans l'échantillon (zone de non-pertinence), tandis que les valeurs observées au-dessus de la barre d'erreur la plus élevée sont exclues (zone d'invisibilité). Il est possible de remédier partiellement à ce problème en utilisant des barres d'erreur représentant des écarts types (ET) au lieu de SEM. Le graphique en points combiné à une barre transversale (comme sur les panneaux de droite des figures de Weissgerber et de la mienne), d'autre part, met en évidence la façon dont la différence entre les moyennes (représentée par la barre transversale) se compare à la gamme des valeurs observées dans l'échantillon. Dans le graphique en points, toutes les valeurs observées se situent à l'intérieur de l'axe des ordonnées.

Combinaison de diagrammes à barres et de diagrammes de dispersion : Révéler la véritable distribution des données

En conclusion, nous devons donc être prudents lorsque nous utilisons des diagrammes en bâtons pour représenter des données continues, car ils peuvent dissimuler la véritable distribution des données. En combinant les diagrammes en bâtons (ou mieux les violons ou les boxplots, ou simplement les barres transversales) avec la gigue (les diagrammes de dispersion ou les dotplots), nous pouvons révéler la véritable distribution des données et tirer de meilleures conclusions.


Articles précédents:

Ce que font les scientifiques des données

Cinq tendances qui changent la donne et façonnent l'avenir de la science des données dans Cinq ans

 Datapublication - Dépôt de données de recherche associées aux articles dans les revues affiliées

L'importance de la visualisation individuelle des données: comparaison entre barplots et autres types de graphiques

L'importance du dépôt et du partage indépendant des données de recherche

Popular posts from this blog

Apprendre les langues étrangères : Outils modernes et potentiel du ChatGPT

ChatGPT-4 reproduit l'animation GapMinder en une seule tentative

GPT-4 vs GPT-3.5 - Dévoiler l'avenir des modèles de langage de l'IA