Patronen vinden in data — van cijferlijsten tot grafieken en gemiddelden
Statistiek helpt ons om grote hoeveelheden gegevens begrijpelijk te maken. Van leerlingresultaten tot klimaatdata, van sportstatistieken tot verkiezingsresultaten — statistiek is het gereedschap om patronen te vinden en conclusies te trekken uit data.
Voordat we iets kunnen berekenen of tekenen, moeten we begrijpen wat voor soort gegevens we hebben. Niet alle data is hetzelfde, en de keuze van analysemethode hangt af van het type gegevens.
Als je wilt weten hoe hoog het gemiddelde cijfer is van alle leerlingen in België, dan is het onmogelijk om iedereen te ondervragen. Wiskundigen en statistici werken dan met een steekproef: een zorgvuldig gekozen deel van de volledige groep.
De populatie is de volledige groep waarover je uitspraken wilt doen. Bv. alle leerlingen van een school, alle stemgerechtigden in België, of alle punten op een toets.
Een steekproef is een deel van de populatie dat geselecteerd wordt voor onderzoek. Een goede steekproef is representatief: ze weerspiegelt de populatie zo nauwkeurig mogelijk. Bv. 30 willekeurig gekozen leerlingen uit alle 500 leerlingen van de school.
Gegevens kunnen in twee brede categorieën worden ingedeeld op basis van wat ze meten:
Kwantitatieve gegevens worden verder opgedeeld op basis van de mogelijke waarden die ze kunnen aannemen:
Discrete gegevens kunnen alleen bepaalde, afzonderlijke waarden aannemen — meestal gehele getallen. Er zijn geen tussenliggende waarden mogelijk. Voorbeelden: aantal leerlingen in een klas (12, 13, 14…), aantal doelpunten, score op 10 punten.
Continue gegevens kunnen elke waarde aannemen binnen een bepaald bereik, inclusief alle decimale tussenwaarden. Voorbeelden: lengte (1,72 m of 1,724 m), temperatuur, tijdsduur, gewicht.
Een frequentietabel ordent gegevens door te tellen hoe vaak elke waarde voorkomt. Ze bevat drie soorten frequenties:
Hieronder zie je een frequentietabel voor de toetsresultaten van 20 leerlingen op een schaal van 10:
| Score (op 10) | Absolute freq. | Relatieve freq. (breuk) | Relatieve freq. (%) | Cumulatieve freq. |
|---|---|---|---|---|
| 6 | 5 | 5/20 | 25% | 5 |
| 7 | 6 | 6/20 | 30% | 11 |
| 8 | 5 | 5/20 | 25% | 16 |
| 9 | 3 | 3/20 | 15% | 19 |
| 10 | 1 | 1/20 | 5% | 20 |
| Totaal | 20 | 20/20 | 100% | — |
Maak een frequentietabel voor de volgende dataset van 20 toetsscores:
{6, 7, 8, 6, 9, 7, 7, 8, 6, 10, 7, 8, 9, 6, 7, 8, 9, 7, 6, 8}
De frequentietabel is de tabel hierboven. De cumulatieve frequentie bereikt 20 bij de laatste rij, wat bevestigt dat alle gegevens zijn meegeteld.
Een goed gekozen grafiek maakt data meteen inzichtelijk. Verschillende soorten grafieken zijn geschikt voor verschillende soorten data. De keuze van de juiste grafiek is een belangrijk statistisch vaardigheid.
Een staafdiagram (ook: staafgrafiek of bardiagram) toont de frequentie of waarde van categorieën als rechthoekige staven. Het is geschikt voor discrete of kwalitatieve gegevens. De staven staan los van elkaar — er zit ruimte tussen de staven omdat de categorieën los van elkaar staan.
Een histogram lijkt op een staafdiagram, maar er zijn twee belangrijke verschillen: de staven staan aaneen (geen ruimte ertussen), en de gegevens zijn ingedeeld in klassen (intervallen). Een histogram is geschikt voor continue gegevens. De breedte van elke staaf stelt een klasse-interval voor, en de hoogte geeft de frequentie.
Voorbeeld: bij lengtes van 12-jarigen zou je klassen maken zoals [145 cm, 150 cm[, [150 cm, 155 cm[, enzovoort. De aanliggende staven geven aan dat de data continu is en er geen gaten bestaan tussen de klassen.
Een cirkeldiagram (taartdiagram of pie chart) toont hoe een geheel is verdeeld over categorieën. Elke sector heeft een hoek die evenredig is met de relatieve frequentie. Het is bijzonder geschikt om verhoudingen te tonen. De som van alle sectorhoeken is altijd 360°.
De hoek van een sector bereken je zo: hoek = relatieve frequentie × 360°.
Een lijndiagram toont hoe een waarde verandert over de tijd (of een andere geordende variabele). De punten worden verbonden door rechte lijnen. Het is de meest geschikte grafiek om trends te zien, zoals de evolutie van temperatuur over het jaar, de stijging van een bevolking, of de verbetering van testresultaten over meerdere weken.
Welk type grafiek kies je voor de volgende situaties?
(a) De temperatuur in Brussel gedurende de 12 maanden van het jaar
(b) De verdeling van bloedgroepen (A, B, AB, O) in een klas
(c) Vergelijking van gemiddelde examencijfers over 5 klassen
Antwoord: (a) lijndiagram | (b) staafdiagram of cirkeldiagram | (c) staafdiagram
Centrummaten zijn getallen die het “centrum” of de “typische waarde” van een dataset samenvatten. De drie meest gebruikte zijn het gemiddelde, de mediaan en de modus.
Het gemiddelde (of rekenkundig gemiddelde) is de som van alle waarden gedeeld door het aantal waarden. Het is de meest gebruikte centrummaat en geeft een goed beeld van het “midden” van de data.
waarbij het gemiddelde is, de som van alle waarden, en het aantal waarden.
De mediaan is de middelste waarde als de gegevens van klein naar groot zijn gesorteerd. De mediaan verdeelt de dataset in twee gelijke helften: 50% van de waarden ligt eronder en 50% erboven.
De modus is de waarde die het meest voorkomt in de dataset. Een dataset kan meer dan één modus hebben als meerdere waarden even vaak voorkomen. Als alle waarden even vaak voorkomen, is er geen modus.
Bereken het gemiddelde, de mediaan en de modus van: {4, 7, 2, 9, 7, 5, 8, 7, 6}
Gemiddelde ≈ 6,1 | Mediaan = 7 | Modus = 7
De mediaan is robuuster voor uitschieters dan het gemiddelde. Als er één extreem hoge of lage waarde in de dataset zit (een uitschieter), trekt dat het gemiddelde sterk mee omhoog of omlaag — maar de mediaan verandert nauwelijks. Voorbeeld: de gemiddelde lonen in een bedrijf worden sterk beïnvloed door het salaris van de topmanager, maar de mediaan niet. Daarom gebruiken economen bij inkomensverdeling vaak de mediaan in plaats van het gemiddelde.
Centrummaten vertellen iets over het midden van de data, maar ze zeggen niets over hoe verspreid de gegevens zijn. Twee datasets kunnen hetzelfde gemiddelde hebben maar zeer verschillend zijn in spreiding. Spreidingsmaten kwantificeren die variatie.
Het bereik (of spreidingsbreedte) is het eenvoudigste spreidingsmaat: het verschil tussen de maximum- en minimumwaarde.
Het bereik is eenvoudig te berekenen maar gevoelig voor uitschieters: één extreme waarde kan het bereik sterk beïnvloeden.
De kwartielen verdelen een gesorteerde dataset in vier gelijke kwarten:
Een boxplot (doosdiagram) is een grafische samenvatting van de spreiding. De box loopt van Q1 tot Q3 (de middelste 50% van de data). Een lijn markeert Q2 (de mediaan). De “snorharen” (whiskers) lopen naar de minimum- en maximumwaarde.
Bereken Q1, Q2, Q3 en de IQR voor de dataset: {3, 5, 6, 7, 8, 9, 10, 12, 15}
Q1 = 5,5 | Q2 = 8 | Q3 = 11 | IQR = 5,5 | Bereik = 15 − 3 = 12
Statistiek is een krachtig hulpmiddel, maar het kan ook misbruikt worden om de lezer te misleiden. Als statistisch denkende burger is het essentieel dat je grafieken en statistieken kritisch kunt beoordelen.
Een van de meest voorkomende manieren om gegevens te vertekenen is de afgeknipte y-as: de y-as begint niet bij 0 maar bij een hogere waarde. Kleine verschillen lijken daardoor enorm groot. Dit wordt vaak gebruikt in reclame, politiek en media om een indruk te wekken van grote veranderingen of grote verschillen, terwijl de echte variatie klein is.
Een andere veelgebruikte techniek is selectieve data: je toont alleen de datapunten die je conclusie ondersteunen, terwijl je de rest weglaat. Of je kiest een tijdsperiode die toevallig een gunstige trend toont.
Een veelgemaakte fout in de interpretatie van statistieken is het verwarren van correlatie en causaliteit:
Voorbeeld: in landen waar meer ijs wordt verkocht, verdrinken ook meer mensen. Er is een correlatie. Maar ijs verkopen veroorzaakt geen verdrinking! De echte verklaring is een derde factor: warm weer doet zowel ijsverkoop als zwemactiviteiten (en daarmee verdrinkingsrisico) stijgen.
Statistieken zijn overal: in sportverslagen (gemiddeld aantal goals per wedstrijd), in media (goedkeuringscijfers van politici), in geneeskunde (effectiviteit van medicijnen), en in wetenschappelijk onderzoek. Het is essentieel om altijd de volgende vragen te stellen:
Twee grafieken tonen het tevredenheidspercentage van klanten van een bedrijf over vier kwartalen: 91%, 92%, 93%, 94%.
Grafiek A heeft een y-as die start bij 90%. Grafiek B heeft een y-as die start bij 0%.
Welke grafiek is eerlijker? Wat suggereert grafiek A ten onrechte?
Grafiek B is eerlijker. Grafiek A overdrijft de stijging dramatisch door de y-as af te knippen bij 90% in plaats van bij 0%.
Je leest in een krant: “Onderzoek toont aan dat leerlingen die elke dag ontbijten, betere cijfers halen.” Is dit een bewijs van causaliteit of enkel een correlatie? Welke andere factoren zouden hier een rol kunnen spelen?
Oefening 1
Frequentietabel opstellen
De volgende cijfers zijn de resultaten van 18 leerlingen op een toets (op 10):
{5, 7, 8, 6, 7, 9, 7, 8, 6, 7, 8, 5, 9, 7, 6, 8, 7, 10}
Tip: sorteer de scores eerst van laag naar hoog voordat je begint te tellen.
Oefening 2
Het juiste grafiektype kiezen
Kies voor elk van de volgende situaties het meest geschikte grafiektype (staafdiagram, histogram, cirkeldiagram of lijndiagram). Verklaar je keuze.
Oefening 3
Gemiddelde, mediaan en modus berekenen
Gegeven de volgende datasets:
Tip: sorteer altijd eerst voor je de mediaan bepaalt.
Oefening 4
Kwartielen en boxplot
Gegeven de dataset: {2, 4, 5, 7, 8, 9, 11, 13, 14, 16}
Oefening 5
Een misleidende grafiek interpreteren
Je ziet in een reclame twee staafgrafieken die de klanttevredenheid van twee bedrijven vergelijken:
In de grafiek van de advertentie lijkt de staaf van Y bijna twee keer zo hoog als die van X.
Tip: als de staaf van 92% twee keer zo hoog is als die van 88%, dan is de as zo afgeknepen dat het verschil van 4 procentpunt eruitziet als 50% van de totale stafhoogte.
Oefening 6
Praktijkdataanalyse
Hieronder staan de maandelijkse neerslag (in mm) in Brussel voor een bepaald jaar:
Jan: 72 Feb: 54 Mrt: 68 Apr: 51 Mei: 63 Jun: 76
Jul: 82 Aug: 79 Sep: 65 Okt: 74 Nov: 88 Dec: 80
Uitdaging: vergelijk je antwoorden met het langjarig gemiddelde voor Brussel van 74 mm/maand. In welke maanden was het droger of natter dan gemiddeld?