Hoofdstuk 16

Statistiek

Statistiek helpt ons om grote hoeveelheden gegevens begrijpelijk te maken. Van leerlingresultaten tot klimaatdata, van sportstatistieken tot verkiezingsresultaten — statistiek is het gereedschap om patronen te vinden en conclusies te trekken uit data.

Gegevens verzamelen en ordenen

Voordat we iets kunnen berekenen of tekenen, moeten we begrijpen wat voor soort gegevens we hebben. Niet alle data is hetzelfde, en de keuze van analysemethode hangt af van het type gegevens.

Populatie en steekproef

Als je wilt weten hoe hoog het gemiddelde cijfer is van alle leerlingen in België, dan is het onmogelijk om iedereen te ondervragen. Wiskundigen en statistici werken dan met een steekproef: een zorgvuldig gekozen deel van de volledige groep.

◎

Begrip Populatie

De populatie is de volledige groep waarover je uitspraken wilt doen. Bv. alle leerlingen van een school, alle stemgerechtigden in België, of alle punten op een toets.

●

Begrip Steekproef

Een steekproef is een deel van de populatie dat geselecteerd wordt voor onderzoek. Een goede steekproef is representatief: ze weerspiegelt de populatie zo nauwkeurig mogelijk. Bv. 30 willekeurig gekozen leerlingen uit alle 500 leerlingen van de school.

Kwalitatieve en kwantitatieve gegevens

Gegevens kunnen in twee brede categorieën worden ingedeeld op basis van wat ze meten:

Kwalitatieve gegevens beschrijven een eigenschap of categorie. Ze zijn niet meetbaar als getal. Voorbeelden: favoriete kleur, bloedgroep, studierichting, nationaliteit.
Kwantitatieve gegevens zijn numeriek en meetbaar. Voorbeelden: leeftijd, lengte, temperatuur, toetsresultaat.

Discrete en continue gegevens

Kwantitatieve gegevens worden verder opgedeeld op basis van de mogelijke waarden die ze kunnen aannemen:

■

Begrip Discrete gegevens

Discrete gegevens kunnen alleen bepaalde, afzonderlijke waarden aannemen — meestal gehele getallen. Er zijn geen tussenliggende waarden mogelijk. Voorbeelden: aantal leerlingen in een klas (12, 13, 14…), aantal doelpunten, score op 10 punten.

─

Begrip Continue gegevens

Continue gegevens kunnen elke waarde aannemen binnen een bepaald bereik, inclusief alle decimale tussenwaarden. Voorbeelden: lengte (1,72 m of 1,724 m), temperatuur, tijdsduur, gewicht.

De frequentietabel

Een frequentietabel ordent gegevens door te tellen hoe vaak elke waarde voorkomt. Ze bevat drie soorten frequenties:

Absolute frequentie: het werkelijk aantal keer dat een waarde voorkomt in de dataset.
Relatieve frequentie: de absolute frequentie gedeeld door het totaal aantal gegevens. Dit geeft een breuk of percentage. Alle relatieve frequenties samen zijn gelijk aan 1 (of 100%).
Cumulatieve frequentie: de opgetelde absolute frequentie van alle waarden tot en met de huidige waarde. Ze loopt op van de laagste tot de hoogste waarde.

Hieronder zie je een frequentietabel voor de toetsresultaten van 20 leerlingen op een schaal van 10:

Score (op 10)	Absolute freq.	Relatieve freq. (breuk)	Relatieve freq. (%)	Cumulatieve freq.
6	5	5/20	25%	5
7	6	6/20	30%	11
8	5	5/20	25%	16
9	3	3/20	15%	19
10	1	1/20	5%	20
Totaal	20	20/20	100%	—

Rekenvoorbeeld

Maak een frequentietabel voor de volgende dataset van 20 toetsscores:
{6, 7, 8, 6, 9, 7, 7, 8, 6, 10, 7, 8, 9, 6, 7, 8, 9, 7, 6, 8}

Sorteer de unieke waarden en tel hoe vaak elke score voorkomt:
Score 6: tel 6, 6, 6, 6, 6 → 5 keer | Score 7: tel 7, 7, 7, 7, 7, 7 → 6 keer | Score 8: 5 keer | Score 9: 3 keer | Score 10: 1 keer
Controleer: 5 + 6 + 5 + 3 + 1 = 20 ✔ Het totaal klopt.
Bereken de relatieve frequenties door elke absolute frequentie te delen door 20:
5/20 = 0,25 = 25% | 6/20 = 0,30 = 30% | 5/20 = 25% | 3/20 = 15% | 1/20 = 5%
Bereken de cumulatieve frequenties door op te tellen:
5 → 5+6=11 → 11+5=16 → 16+3=19 → 19+1=20

De frequentietabel is de tabel hierboven. De cumulatieve frequentie bereikt 20 bij de laatste rij, wat bevestigt dat alle gegevens zijn meegeteld.

Grafieken

Een goed gekozen grafiek maakt data meteen inzichtelijk. Verschillende soorten grafieken zijn geschikt voor verschillende soorten data. De keuze van de juiste grafiek is een belangrijk statistisch vaardigheid.

Staafdiagram

Een staafdiagram (ook: staafgrafiek of bardiagram) toont de frequentie of waarde van categorieën als rechthoekige staven. Het is geschikt voor discrete of kwalitatieve gegevens. De staven staan los van elkaar — er zit ruimte tussen de staven omdat de categorieën los van elkaar staan.

Staafdiagram van toetsscores (schaal 10) voor 20 leerlingen. Score 7 komt het meest voor (6 leerlingen), score 10 het minst (1 leerling).

Histogram

Een histogram lijkt op een staafdiagram, maar er zijn twee belangrijke verschillen: de staven staan aaneen (geen ruimte ertussen), en de gegevens zijn ingedeeld in klassen (intervallen). Een histogram is geschikt voor continue gegevens. De breedte van elke staaf stelt een klasse-interval voor, en de hoogte geeft de frequentie.

Voorbeeld: bij lengtes van 12-jarigen zou je klassen maken zoals [145 cm, 150 cm[, [150 cm, 155 cm[, enzovoort. De aanliggende staven geven aan dat de data continu is en er geen gaten bestaan tussen de klassen.

Cirkeldiagram

Een cirkeldiagram (taartdiagram of pie chart) toont hoe een geheel is verdeeld over categorieën. Elke sector heeft een hoek die evenredig is met de relatieve frequentie. Het is bijzonder geschikt om verhoudingen te tonen. De som van alle sectorhoeken is altijd 360°.

De hoek van een sector bereken je zo: hoek = relatieve frequentie × 360°.

Cirkeldiagram van favoriete vakken bij een klas leerlingen. Wiskunde is het populairst (30%). De vier sectoren samen beslaan 100% van de cirkel.

Lijndiagram

Een lijndiagram toont hoe een waarde verandert over de tijd (of een andere geordende variabele). De punten worden verbonden door rechte lijnen. Het is de meest geschikte grafiek om trends te zien, zoals de evolutie van temperatuur over het jaar, de stijging van een bevolking, of de verbetering van testresultaten over meerdere weken.

Rekenvoorbeeld

Welk type grafiek kies je voor de volgende situaties?
(a) De temperatuur in Brussel gedurende de 12 maanden van het jaar
(b) De verdeling van bloedgroepen (A, B, AB, O) in een klas
(c) Vergelijking van gemiddelde examencijfers over 5 klassen

(a) Temperatuur over het jaar: dit zijn continue gegevens die evolueren over een geordende tijdsas. Een lijndiagram is de beste keuze omdat het de trend (stijging in de zomer, daling in de winter) duidelijk zichtbaar maakt.
(b) Bloedgroepen: bloedgroep is een kwalitatieve categorie (A, B, AB, O). De juiste keuze is een staafdiagram of een cirkeldiagram. Een cirkeldiagram werkt goed als je wilt tonen welk deel van de klas elke bloedgroep heeft; een staafdiagram werkt als je de aantallen wilt vergelijken.
(c) Examencijfers per klas: je vergelijkt 5 afzonderlijke groepen (klassen). Een staafdiagram is ideaal: elke klas krijgt een staaf, en de hoogtes zijn makkelijk te vergelijken.

Antwoord: (a) lijndiagram | (b) staafdiagram of cirkeldiagram | (c) staafdiagram

Centrummaten

Centrummaten zijn getallen die het “centrum” of de “typische waarde” van een dataset samenvatten. De drie meest gebruikte zijn het gemiddelde, de mediaan en de modus.

Gemiddelde (rekenkundig gemiddelde)

Het gemiddelde (of rekenkundig gemiddelde) is de som van alle waarden gedeeld door het aantal waarden. Het is de meest gebruikte centrummaat en geeft een goed beeld van het “midden” van de data.

Formule — Rekenkundig gemiddelde

\bar{x} = \frac{Σ x_{i}}{n} = \frac{x_{1} + x_{2} + \dots + x_{n}}{n}

waarbij $\bar{x}$ het gemiddelde is, $Σ x_{i}$ de som van alle waarden, en $n$ het aantal waarden.

Mediaan

De mediaan is de middelste waarde als de gegevens van klein naar groot zijn gesorteerd. De mediaan verdeelt de dataset in twee gelijke helften: 50% van de waarden ligt eronder en 50% erboven.

Oneven n: de mediaan is de middelste waarde — de waarde op positie $\frac{n + 1}{2}$ .
Even n: de mediaan is het gemiddelde van de twee middelste waarden — op posities $\frac{n}{2}$ en $\frac{n}{2} + 1$ .

Modus

De modus is de waarde die het meest voorkomt in de dataset. Een dataset kan meer dan één modus hebben als meerdere waarden even vaak voorkomen. Als alle waarden even vaak voorkomen, is er geen modus.

Rekenvoorbeeld

Bereken het gemiddelde, de mediaan en de modus van: {4, 7, 2, 9, 7, 5, 8, 7, 6}

Sorteer de dataset van klein naar groot:
2, 4, 5, 6, 7, 7, 7, 8, 9 — n = 9 waarden
Bereken het gemiddelde:
Som = 2 + 4 + 5 + 6 + 7 + 7 + 7 + 8 + 9 = 55
$\bar{x} = \frac{55}{9} \approx 6,1$
Bepaal de mediaan:
n = 9 (oneven), dus de mediaan staat op positie $\frac{9 + 1}{2} = 5$
De 5e waarde in de gesorteerde rij is 7.
Bepaal de modus:
Waarde 7 komt 3 keer voor, alle andere waarden slechts 1 keer. De modus is 7.

Gemiddelde ≈ 6,1 | Mediaan = 7 | Modus = 7

Eigenschap — Mediaan vs. gemiddelde bij uitschieters

De mediaan is robuuster voor uitschieters dan het gemiddelde. Als er één extreem hoge of lage waarde in de dataset zit (een uitschieter), trekt dat het gemiddelde sterk mee omhoog of omlaag — maar de mediaan verandert nauwelijks. Voorbeeld: de gemiddelde lonen in een bedrijf worden sterk beïnvloed door het salaris van de topmanager, maar de mediaan niet. Daarom gebruiken economen bij inkomensverdeling vaak de mediaan in plaats van het gemiddelde.

Spreidingsmaten

Centrummaten vertellen iets over het midden van de data, maar ze zeggen niets over hoe verspreid de gegevens zijn. Twee datasets kunnen hetzelfde gemiddelde hebben maar zeer verschillend zijn in spreiding. Spreidingsmaten kwantificeren die variatie.

Bereik

Het bereik (of spreidingsbreedte) is het eenvoudigste spreidingsmaat: het verschil tussen de maximum- en minimumwaarde.

Formule — Bereik

Bereik = x_{max} - x_{min}

Het bereik is eenvoudig te berekenen maar gevoelig voor uitschieters: één extreme waarde kan het bereik sterk beïnvloeden.

Kwartielen en interkwartielafstand

De kwartielen verdelen een gesorteerde dataset in vier gelijke kwarten:

Q1 (eerste kwartiel): de mediaan van de onderste helft van de data. 25% van de waarden is kleiner dan Q1.
Q2 (tweede kwartiel): de mediaan van de volledige dataset. 50% van de waarden is kleiner dan Q2.
Q3 (derde kwartiel): de mediaan van de bovenste helft van de data. 75% van de waarden is kleiner dan Q3.
Interkwartielafstand (IQR): IQR = Q3 − Q1. Dit is de breedte van het middelste 50% van de data en is robuust voor uitschieters.

Boxplot

Een boxplot (doosdiagram) is een grafische samenvatting van de spreiding. De box loopt van Q1 tot Q3 (de middelste 50% van de data). Een lijn markeert Q2 (de mediaan). De “snorharen” (whiskers) lopen naar de minimum- en maximumwaarde.

Boxplot van de toetsscoredataset (n=20). De gouden lijn is de mediaan (Q2=7). De box beslaat het middelste 50% van de data (Q1=6,5 tot Q3=8). De whiskers reiken tot min=6 en max=10.

Rekenvoorbeeld

Bereken Q1, Q2, Q3 en de IQR voor de dataset: {3, 5, 6, 7, 8, 9, 10, 12, 15}

De dataset is al gesorteerd. n = 9 waarden.
Bepaal Q2 (mediaan): positie = (9+1)/2 = 5e waarde = 8
Bepaal Q1: mediaan van de onderste helft = {3, 5, 6, 7} (de 4 waarden onder Q2).
Bij 4 waarden: mediaan = gemiddelde van 2e en 3e waarde = (5+6)/2 = 5,5
Bepaal Q3: mediaan van de bovenste helft = {9, 10, 12, 15} (de 4 waarden boven Q2).
Mediaan = gemiddelde van 2e en 3e waarde = (10+12)/2 = 11
Bereken de IQR: IQR = Q3 − Q1 = 11 − 5,5 = 5,5

Q1 = 5,5 | Q2 = 8 | Q3 = 11 | IQR = 5,5 | Bereik = 15 − 3 = 12

Interpreteren en kritisch denken

Statistiek is een krachtig hulpmiddel, maar het kan ook misbruikt worden om de lezer te misleiden. Als statistisch denkende burger is het essentieel dat je grafieken en statistieken kritisch kunt beoordelen.

Misleidende grafieken

Een van de meest voorkomende manieren om gegevens te vertekenen is de afgeknipte y-as: de y-as begint niet bij 0 maar bij een hogere waarde. Kleine verschillen lijken daardoor enorm groot. Dit wordt vaak gebruikt in reclame, politiek en media om een indruk te wekken van grote veranderingen of grote verschillen, terwijl de echte variatie klein is.

Een andere veelgebruikte techniek is selectieve data: je toont alleen de datapunten die je conclusie ondersteunen, terwijl je de rest weglaat. Of je kiest een tijdsperiode die toevallig een gunstige trend toont.

Misleidend: y-as start bij 90%. Het verschil tussen 94% en 97% lijkt enorm.

Eerlijk: y-as start bij 0%. Het kleine reële verschil van 3 procentpunt is duidelijk zichtbaar.

Correlatie versus causaliteit

Een veelgemaakte fout in de interpretatie van statistieken is het verwarren van correlatie en causaliteit:

Correlatie betekent dat twee grootheden tegelijk veranderen — als de ene stijgt, stijgt of daalt de andere ook. Maar dat wil nog niet zeggen dat de ene de andere veroorzaakt.
Causaliteit betekent dat de ene grootheid de andere effectief veroorzaakt. Dit is veel moeilijker aan te tonen dan correlatie.

Voorbeeld: in landen waar meer ijs wordt verkocht, verdrinken ook meer mensen. Er is een correlatie. Maar ijs verkopen veroorzaakt geen verdrinking! De echte verklaring is een derde factor: warm weer doet zowel ijsverkoop als zwemactiviteiten (en daarmee verdrinkingsrisico) stijgen.

Statistiek in de praktijk

Statistieken zijn overal: in sportverslagen (gemiddeld aantal goals per wedstrijd), in media (goedkeuringscijfers van politici), in geneeskunde (effectiviteit van medicijnen), en in wetenschappelijk onderzoek. Het is essentieel om altijd de volgende vragen te stellen:

Hoe groot was de steekproef? Is die representatief?
Begint de y-as bij nul?
Zijn alle relevante gegevens getoond, of enkel de gunstige?
Is de conclusie een correlatie of een bewezen oorzakelijk verband?

Rekenvoorbeeld

Twee grafieken tonen het tevredenheidspercentage van klanten van een bedrijf over vier kwartalen: 91%, 92%, 93%, 94%.
Grafiek A heeft een y-as die start bij 90%. Grafiek B heeft een y-as die start bij 0%.
Welke grafiek is eerlijker? Wat suggereert grafiek A ten onrechte?

In grafiek A (y-as van 90%) zijn de staven voor 91%, 92%, 93% en 94% respectievelijk 1, 2, 3 en 4 eenheden hoog. De staaf voor 94% is daarmee vier keer zo hoog als de staaf voor 91%, wat een enorme stijging suggereert.
In werkelijkheid is het verschil slechts 3 procentpunt op een schaal van 100%, dus een kleine verbetering.
Grafiek B (y-as van 0%) laat zien dat alle staven bijna even hoog zijn en allemaal zeer dicht bij 100% liggen. Er is een lichte stijging, maar ze is klein en proportioneeel nauwkeurig weergegeven.

Grafiek B is eerlijker. Grafiek A overdrijft de stijging dramatisch door de y-as af te knippen bij 90% in plaats van bij 0%.

💡 Denkvraag

Je leest in een krant: “Onderzoek toont aan dat leerlingen die elke dag ontbijten, betere cijfers halen.” Is dit een bewijs van causaliteit of enkel een correlatie? Welke andere factoren zouden hier een rol kunnen spelen?

Oefeningen

Oefening 1

Frequentietabel opstellen

De volgende cijfers zijn de resultaten van 18 leerlingen op een toets (op 10):
{5, 7, 8, 6, 7, 9, 7, 8, 6, 7, 8, 5, 9, 7, 6, 8, 7, 10}

Maak een frequentietabel met alle scores die voorkomen en hun absolute frequentie.
Voeg een kolom toe voor de relatieve frequentie (als percentage).
Voeg een kolom toe voor de cumulatieve frequentie.
Welke score heeft de hoogste relatieve frequentie? Hoeveel procent is dat?
Hoeveel procent van de leerlingen heeft een score van 7 of hoger?

Tip: sorteer de scores eerst van laag naar hoog voordat je begint te tellen.

Oefening 2

Het juiste grafiektype kiezen

Kies voor elk van de volgende situaties het meest geschikte grafiektype (staafdiagram, histogram, cirkeldiagram of lijndiagram). Verklaar je keuze.

Het aantal bezoekers van een museum per maand, over een heel jaar.
De verdeling van favoriete muziekgenres bij 200 leerlingen (pop, rock, hiphop, klassiek, andere).
De lengte van 50 leerlingen van het eerste jaar (gemeten in cm).
De evolutie van de gemiddelde temperatuur in België over de laatste 30 jaar.
Het marktaandeel van de vier grote supermarktketens in België (in procent van de totale omzet).

Oefening 3

Gemiddelde, mediaan en modus berekenen

Gegeven de volgende datasets:

Dataset A: {3, 5, 5, 6, 7, 8, 8, 8, 9, 11}
Bereken het gemiddelde, de mediaan en de modus.
Dataset B: {2, 4, 6, 8, 10, 12, 100}
Bereken het gemiddelde en de mediaan. Welke maat geeft hier een beter beeld van het “typische” getal? Verklaar waarom.
Een klas van 10 leerlingen haalt de volgende punten: {6, 7, 7, 7, 8, 8, 8, 9, 9, 10}.
Na een herziening wordt de laagste score verhoogd van 6 naar 9. Hoe verandert het gemiddelde? Hoe verandert de mediaan?

Tip: sorteer altijd eerst voor je de mediaan bepaalt.

Oefening 4

Kwartielen en boxplot

Gegeven de dataset: {2, 4, 5, 7, 8, 9, 11, 13, 14, 16}

Bereken Q1, Q2 en Q3.
Bereken de interkwartielafstand (IQR).
Bereken het bereik.
Beschrijf hoe de boxplot eruit zou zien: waar ligt de box, waar liggen de whiskers, en waar staat de mediaanlijn?
De waarde 16 is mogelijk een uitschieter. Hoe beïnvloedt die het gemiddelde versus de mediaan? Bereken beide met én zonder de waarde 16.

Oefening 5

Een misleidende grafiek interpreteren

Je ziet in een reclame twee staafgrafieken die de klanttevredenheid van twee bedrijven vergelijken:

Bedrijf X: 88% tevreden klanten
Bedrijf Y: 92% tevreden klanten

In de grafiek van de advertentie lijkt de staaf van Y bijna twee keer zo hoog als die van X.

Waar begint de y-as waarschijnlijk? Leg uit hoe je dat kunt afleiden.
Bereken hoeveel procentpunt het echte verschil bedraagt.
Teken zelf de twee grafieken: één eerlijke versie (y-as bij 0%) en één misleidende versie (y-as afgeknepen). Gebruik ruitjespapier of schets.
Geef een situatie uit het dagelijks leven waar een misleidende grafiek schade kan aanrichten.

Tip: als de staaf van 92% twee keer zo hoog is als die van 88%, dan is de as zo afgeknepen dat het verschil van 4 procentpunt eruitziet als 50% van de totale stafhoogte.

Oefening 6

Praktijkdataanalyse

Hieronder staan de maandelijkse neerslag (in mm) in Brussel voor een bepaald jaar:

Jan: 72 Feb: 54 Mrt: 68 Apr: 51 Mei: 63 Jun: 76
Jul: 82 Aug: 79 Sep: 65 Okt: 74 Nov: 88 Dec: 80

Bereken de gemiddelde maandelijkse neerslag voor dit jaar.
Bereken de mediaan. Sorteer daarvoor de 12 waarden.
Bereken het bereik. Welke maand was de natste, welke de droogste?
Bereken Q1, Q2 en Q3. Bepaal de IQR.
Welk type grafiek zou je kiezen om de neerslag per maand te visualiseren? Teken een ruwe schets of beschrijf de grafiek.
Stel dat een krant schrijft: “Het regende dit jaar nooit minder dan 50 mm per maand, dus de droogte is voorbij.” Bespreek deze uitspraak kritisch vanuit statistisch oogpunt.

Uitdaging: vergelijk je antwoorden met het langjarig gemiddelde voor Brussel van 74 mm/maand. In welke maanden was het droger of natter dan gemiddeld?

Statistiek

Statistiek

Gegevens verzamelen en ordenen

Populatie en steekproef

Kwalitatieve en kwantitatieve gegevens

Discrete en continue gegevens

De frequentietabel

Grafieken

Staafdiagram

Histogram

Cirkeldiagram

Lijndiagram

Centrummaten

Gemiddelde (rekenkundig gemiddelde)

Mediaan

Modus

Spreidingsmaten

Bereik

Kwartielen en interkwartielafstand

Boxplot

Interpreteren en kritisch denken

Misleidende grafieken

Correlatie versus causaliteit

Statistiek in de praktijk

Oefeningen

Samenvatting