Cijfervalkuilen
en hoe ze te vermijden
Maarten Lambrechts
Valkuilen in
metadata
statistiek
visualisatie
VALKUILEN
Metadata
"... in Brussels, nearly 62 percent is of foreign origin"
"We zien voor het eerst in vele jaren dat er een kentering is. Het algemene armoederisico daalt van 11,1 naar 10,3 procent."
"...gegevens van de studiedienst die werden verzameld in 2014 en dus nog niet beïnvloed konden zijn door het beleid van deze regering."
"...en dat de daling niet statistisch significant is."
Metadata = data over de data
Verzameld door wie?
Hoe verzameld?
Waarom verzameld?
Wanneer verzameld?
Gebruikte definities?
Metadata
Bepalen validiteit van conclusies
Omschrijven beperkingen op het gebruik van de data
Bepalen vergelijkbaarheid
Zonder de juiste eenheden zijn cijfers betekenisloos
VALKUILEN
Statistieken
Procenten & procentpunten
"Vorig jaar was 30 % van het middenkader een vrouw. Dit jaar is dat 40 %. Het aandeel vrouwen is met 10 % gestegen!"
Dat is een toename met 10 procentpunten
Of:
(40 - 30)/30 = 1/3 = 33.3% toename
% - % = procentpunt
(nieuw - oud)/oud = % verandering
Da's niet normaal
Top 5 EU elektriciteitsconsumenten
Land |
---|
1. Duitsland |
2. Frankrijk |
3. VK |
4. Italië |
5. Spanje |
Elektriciteits-consumptie (Gwh) |
---|
517.377 |
442.372 |
303.903 |
286.027 |
232.515 |
Proficiat: een bevolkingsranglijst!
Deel nu door het bevolkingsaantal, aub
Top 5 EU elektriciteitsconsumenten
Land |
---|
1. IJsland |
2. Noorwegen |
3. Finland |
4. Zweden |
5. Luxemburg |
Elektriciteits-consumptie (Mwh/cap) |
---|
49,7 |
21,5 |
14,7 |
12,6 |
10,6 |
Speciaal van toepassing op kaarten
Maak cijfers vergelijkbaar (=normaliseer):
per capita, per oppervlakte, ...
Gemiddelde vs mediaan
Marc Coucke wandelt een café binnen...
De mediaan?
Rangschik de data: de mediaan is de middelste waarde
De mediaan is minder gevoelig voor uitbijters dan het gemiddelde. Gebruik hem!
Verdelingen
Summary statistics rarely describe somebody's lived experience and never ring true for the whole population
Data zijn veel meer dan gemiddeldes
Gebruik de verdeling waar je kan
Correlatie vs causaliteit
"...omdat zowel de Vlaamse als de federale regering het geweer van schouder heeft veranderd en heeft ingezet op werk."
Correlatie. Is. Geen. Causaliteit.
Betrouwbaarheids-
intervallen
"De foutenmarge bedraagt 3,2 procent."
Onzekerheid is inherent aan enquêteresultaten. Hou rekening met de foutenmarge
Grote & kleine kansen
Zo bleek uit het onderzoek dat mensen die drie sneetjes spek per dag eten 20 procent meer kans hebben op darmkanker.
Van elke 10.000 mensen in de studie die elke dag 21 gram rood en verwerkt vlees eten - ongeveer de hoeveelheid van één sneetje spek - werd bij 40 darmkanker vastgesteld. Bij wie 76 gram per dag eet, stijgt dat aantal naar 48.
1 sneetje => 40/10.000 = 0.4%
3 sneetjes => 48/10.000 = 0.48%
+0.08 procentpunt
+20% van een kleine kans is nog altijd een kleine kans
10.000 besmettingen
Gewone variant: 10.000*0,006 = 60 doden
Britse variant= 10.000*0,009 = 90 doden
30 doden extra
Maar relatief kleine verschillen kunnen wel betekenisvol zijn
Appels & peren
Vergelijk
regio's met regio's
maanden met maanden
appels met appels
peren met peren
Exponentiële groei
Exponentieel
≠
loodrecht omhoog
Procent & procentpunten
Da's niet normaal
Gemiddelde vs mediaan
Verdelingen
Correlatie vs causaliteit
Betrouwbaarheidsintervallen
Grote & kleine kansen
Appels en peren
Exponentiële groei
VALKUILEN
Visualisatie
Hou de taarten voor het dessert
Knip geen staven
Respecteer de proporties
Knip geen tijdsassen
Vergelijk appelen met appelen
Schaal cirkels op basis van oppervlakte
Doe geen 3D
Vermijd dubbele assen
Alle kaarten liegen
Hou taarten voor het dessert
Knip geen staven
Knip geen tijdsassen
Respecteer de proporties
Vergelijk appelen met appelen
Schaal cirkels op basis van oppervlakte
Doe geen 3D
Vermijd dubbele assen
Alle kaarten liegen
Bedankt!
slides.com/maartenzam/cijfervalkuilen-mediahuis
Cijfervalkuilen
By maartenzam
Cijfervalkuilen
- 3,200