Wiskunde  ·  1A  ·  Eerste graad

Statistiek

Patronen vinden in data — van cijferlijsten tot grafieken en gemiddelden

Hoofdstuk 16

Statistiek

Statistiek helpt ons om grote hoeveelheden gegevens begrijpelijk te maken. Van leerlingresultaten tot klimaatdata, van sportstatistieken tot verkiezingsresultaten — statistiek is het gereedschap om patronen te vinden en conclusies te trekken uit data.

1

Gegevens verzamelen en ordenen

Voordat we iets kunnen berekenen of tekenen, moeten we begrijpen wat voor soort gegevens we hebben. Niet alle data is hetzelfde, en de keuze van analysemethode hangt af van het type gegevens.

Populatie en steekproef

Als je wilt weten hoe hoog het gemiddelde cijfer is van alle leerlingen in België, dan is het onmogelijk om iedereen te ondervragen. Wiskundigen en statistici werken dan met een steekproef: een zorgvuldig gekozen deel van de volledige groep.

Begrip Populatie

De populatie is de volledige groep waarover je uitspraken wilt doen. Bv. alle leerlingen van een school, alle stemgerechtigden in België, of alle punten op een toets.

Begrip Steekproef

Een steekproef is een deel van de populatie dat geselecteerd wordt voor onderzoek. Een goede steekproef is representatief: ze weerspiegelt de populatie zo nauwkeurig mogelijk. Bv. 30 willekeurig gekozen leerlingen uit alle 500 leerlingen van de school.

Kwalitatieve en kwantitatieve gegevens

Gegevens kunnen in twee brede categorieën worden ingedeeld op basis van wat ze meten:

Discrete en continue gegevens

Kwantitatieve gegevens worden verder opgedeeld op basis van de mogelijke waarden die ze kunnen aannemen:

Begrip Discrete gegevens

Discrete gegevens kunnen alleen bepaalde, afzonderlijke waarden aannemen — meestal gehele getallen. Er zijn geen tussenliggende waarden mogelijk. Voorbeelden: aantal leerlingen in een klas (12, 13, 14…), aantal doelpunten, score op 10 punten.

Begrip Continue gegevens

Continue gegevens kunnen elke waarde aannemen binnen een bepaald bereik, inclusief alle decimale tussenwaarden. Voorbeelden: lengte (1,72 m of 1,724 m), temperatuur, tijdsduur, gewicht.

De frequentietabel

Een frequentietabel ordent gegevens door te tellen hoe vaak elke waarde voorkomt. Ze bevat drie soorten frequenties:

Hieronder zie je een frequentietabel voor de toetsresultaten van 20 leerlingen op een schaal van 10:

Score (op 10) Absolute freq. Relatieve freq. (breuk) Relatieve freq. (%) Cumulatieve freq.
6 5 5/20 25% 5
7 6 6/20 30% 11
8 5 5/20 25% 16
9 3 3/20 15% 19
10 1 1/20 5% 20
Totaal 20 20/20 100%
Rekenvoorbeeld

Maak een frequentietabel voor de volgende dataset van 20 toetsscores:
{6, 7, 8, 6, 9, 7, 7, 8, 6, 10, 7, 8, 9, 6, 7, 8, 9, 7, 6, 8}

  • Sorteer de unieke waarden en tel hoe vaak elke score voorkomt:
    Score 6: tel 6, 6, 6, 6, 6 → 5 keer  |  Score 7: tel 7, 7, 7, 7, 7, 7 → 6 keer  |  Score 8: 5 keer  |  Score 9: 3 keer  |  Score 10: 1 keer
  • Controleer: 5 + 6 + 5 + 3 + 1 = 20 ✔ Het totaal klopt.
  • Bereken de relatieve frequenties door elke absolute frequentie te delen door 20:
    5/20 = 0,25 = 25%  |  6/20 = 0,30 = 30%  |  5/20 = 25%  |  3/20 = 15%  |  1/20 = 5%
  • Bereken de cumulatieve frequenties door op te tellen:
    5 → 5+6=11 → 11+5=16 → 16+3=19 → 19+1=20

De frequentietabel is de tabel hierboven. De cumulatieve frequentie bereikt 20 bij de laatste rij, wat bevestigt dat alle gegevens zijn meegeteld.

2

Grafieken

Een goed gekozen grafiek maakt data meteen inzichtelijk. Verschillende soorten grafieken zijn geschikt voor verschillende soorten data. De keuze van de juiste grafiek is een belangrijk statistisch vaardigheid.

Staafdiagram

Een staafdiagram (ook: staafgrafiek of bardiagram) toont de frequentie of waarde van categorieën als rechthoekige staven. Het is geschikt voor discrete of kwalitatieve gegevens. De staven staan los van elkaar — er zit ruimte tussen de staven omdat de categorieën los van elkaar staan.

Staafdiagram van toetsscores voor 20 leerlingen 0 1 2 3 4 5 5 6 5 3 1 6 7 8 9 10 Score op 10 Aantal leerlingen Staafdiagram van toetsscores (schaal 10) voor 20 leerlingen. Score 7 komt het meest voor (6 leerlingen), score 10 het minst (1 leerling).

Histogram

Een histogram lijkt op een staafdiagram, maar er zijn twee belangrijke verschillen: de staven staan aaneen (geen ruimte ertussen), en de gegevens zijn ingedeeld in klassen (intervallen). Een histogram is geschikt voor continue gegevens. De breedte van elke staaf stelt een klasse-interval voor, en de hoogte geeft de frequentie.

Voorbeeld: bij lengtes van 12-jarigen zou je klassen maken zoals [145 cm, 150 cm[, [150 cm, 155 cm[, enzovoort. De aanliggende staven geven aan dat de data continu is en er geen gaten bestaan tussen de klassen.

Cirkeldiagram

Een cirkeldiagram (taartdiagram of pie chart) toont hoe een geheel is verdeeld over categorieën. Elke sector heeft een hoek die evenredig is met de relatieve frequentie. Het is bijzonder geschikt om verhoudingen te tonen. De som van alle sectorhoeken is altijd 360°.

De hoek van een sector bereken je zo: hoek = relatieve frequentie × 360°.

Cirkeldiagram van favoriete vakken: Wiskunde 30%, Nederlands 25%, Geschiedenis 20%, Andere 25% Wiskunde 30% Nederlands 25% Geschiedenis 20% Andere 25% Favoriete vakken Cirkeldiagram van favoriete vakken bij een klas leerlingen. Wiskunde is het populairst (30%). De vier sectoren samen beslaan 100% van de cirkel.

Lijndiagram

Een lijndiagram toont hoe een waarde verandert over de tijd (of een andere geordende variabele). De punten worden verbonden door rechte lijnen. Het is de meest geschikte grafiek om trends te zien, zoals de evolutie van temperatuur over het jaar, de stijging van een bevolking, of de verbetering van testresultaten over meerdere weken.

Rekenvoorbeeld

Welk type grafiek kies je voor de volgende situaties?
(a) De temperatuur in Brussel gedurende de 12 maanden van het jaar
(b) De verdeling van bloedgroepen (A, B, AB, O) in een klas
(c) Vergelijking van gemiddelde examencijfers over 5 klassen

  • (a) Temperatuur over het jaar: dit zijn continue gegevens die evolueren over een geordende tijdsas. Een lijndiagram is de beste keuze omdat het de trend (stijging in de zomer, daling in de winter) duidelijk zichtbaar maakt.
  • (b) Bloedgroepen: bloedgroep is een kwalitatieve categorie (A, B, AB, O). De juiste keuze is een staafdiagram of een cirkeldiagram. Een cirkeldiagram werkt goed als je wilt tonen welk deel van de klas elke bloedgroep heeft; een staafdiagram werkt als je de aantallen wilt vergelijken.
  • (c) Examencijfers per klas: je vergelijkt 5 afzonderlijke groepen (klassen). Een staafdiagram is ideaal: elke klas krijgt een staaf, en de hoogtes zijn makkelijk te vergelijken.

Antwoord: (a) lijndiagram  |  (b) staafdiagram of cirkeldiagram  |  (c) staafdiagram

3

Centrummaten

Centrummaten zijn getallen die het “centrum” of de “typische waarde” van een dataset samenvatten. De drie meest gebruikte zijn het gemiddelde, de mediaan en de modus.

Gemiddelde (rekenkundig gemiddelde)

Het gemiddelde (of rekenkundig gemiddelde) is de som van alle waarden gedeeld door het aantal waarden. Het is de meest gebruikte centrummaat en geeft een goed beeld van het “midden” van de data.

Formule — Rekenkundig gemiddelde x ¯ = Σ xi n = x1 + x2 + + xn n

waarbij x¯ het gemiddelde is, Σxi de som van alle waarden, en n het aantal waarden.

Mediaan

De mediaan is de middelste waarde als de gegevens van klein naar groot zijn gesorteerd. De mediaan verdeelt de dataset in twee gelijke helften: 50% van de waarden ligt eronder en 50% erboven.

Modus

De modus is de waarde die het meest voorkomt in de dataset. Een dataset kan meer dan één modus hebben als meerdere waarden even vaak voorkomen. Als alle waarden even vaak voorkomen, is er geen modus.

Rekenvoorbeeld

Bereken het gemiddelde, de mediaan en de modus van: {4, 7, 2, 9, 7, 5, 8, 7, 6}

  • Sorteer de dataset van klein naar groot:
    2, 4, 5, 6, 7, 7, 7, 8, 9  —  n = 9 waarden
  • Bereken het gemiddelde:
    Som = 2 + 4 + 5 + 6 + 7 + 7 + 7 + 8 + 9 = 55
    x¯=5596,1
  • Bepaal de mediaan:
    n = 9 (oneven), dus de mediaan staat op positie 9+12=5
    De 5e waarde in de gesorteerde rij is 7.
  • Bepaal de modus:
    Waarde 7 komt 3 keer voor, alle andere waarden slechts 1 keer. De modus is 7.

Gemiddelde ≈ 6,1  |  Mediaan = 7  |  Modus = 7

Eigenschap — Mediaan vs. gemiddelde bij uitschieters

De mediaan is robuuster voor uitschieters dan het gemiddelde. Als er één extreem hoge of lage waarde in de dataset zit (een uitschieter), trekt dat het gemiddelde sterk mee omhoog of omlaag — maar de mediaan verandert nauwelijks. Voorbeeld: de gemiddelde lonen in een bedrijf worden sterk beïnvloed door het salaris van de topmanager, maar de mediaan niet. Daarom gebruiken economen bij inkomensverdeling vaak de mediaan in plaats van het gemiddelde.

4

Spreidingsmaten

Centrummaten vertellen iets over het midden van de data, maar ze zeggen niets over hoe verspreid de gegevens zijn. Twee datasets kunnen hetzelfde gemiddelde hebben maar zeer verschillend zijn in spreiding. Spreidingsmaten kwantificeren die variatie.

Bereik

Het bereik (of spreidingsbreedte) is het eenvoudigste spreidingsmaat: het verschil tussen de maximum- en minimumwaarde.

Formule — Bereik Bereik = xmax xmin

Het bereik is eenvoudig te berekenen maar gevoelig voor uitschieters: één extreme waarde kan het bereik sterk beïnvloeden.

Kwartielen en interkwartielafstand

De kwartielen verdelen een gesorteerde dataset in vier gelijke kwarten:

Boxplot

Een boxplot (doosdiagram) is een grafische samenvatting van de spreiding. De box loopt van Q1 tot Q3 (de middelste 50% van de data). Een lijn markeert Q2 (de mediaan). De “snorharen” (whiskers) lopen naar de minimum- en maximumwaarde.

Boxplot van toetsscores dataset: min=6, Q1=6, Q2=7, Q3=8, max=10 6 7 8 9 10 Min Q1 Q2 Q3 Max 6 6,5 7 8 10 IQR = 1,5 Boxplot van de toetsscoredataset (n=20). De gouden lijn is de mediaan (Q2=7). De box beslaat het middelste 50% van de data (Q1=6,5 tot Q3=8). De whiskers reiken tot min=6 en max=10.
Rekenvoorbeeld

Bereken Q1, Q2, Q3 en de IQR voor de dataset: {3, 5, 6, 7, 8, 9, 10, 12, 15}

  • De dataset is al gesorteerd. n = 9 waarden.
  • Bepaal Q2 (mediaan): positie = (9+1)/2 = 5e waarde = 8
  • Bepaal Q1: mediaan van de onderste helft = {3, 5, 6, 7} (de 4 waarden onder Q2).
    Bij 4 waarden: mediaan = gemiddelde van 2e en 3e waarde = (5+6)/2 = 5,5
  • Bepaal Q3: mediaan van de bovenste helft = {9, 10, 12, 15} (de 4 waarden boven Q2).
    Mediaan = gemiddelde van 2e en 3e waarde = (10+12)/2 = 11
  • Bereken de IQR: IQR = Q3 − Q1 = 11 − 5,5 = 5,5

Q1 = 5,5  |  Q2 = 8  |  Q3 = 11  |  IQR = 5,5  |  Bereik = 15 − 3 = 12

5

Interpreteren en kritisch denken

Statistiek is een krachtig hulpmiddel, maar het kan ook misbruikt worden om de lezer te misleiden. Als statistisch denkende burger is het essentieel dat je grafieken en statistieken kritisch kunt beoordelen.

Misleidende grafieken

Een van de meest voorkomende manieren om gegevens te vertekenen is de afgeknipte y-as: de y-as begint niet bij 0 maar bij een hogere waarde. Kleine verschillen lijken daardoor enorm groot. Dit wordt vaak gebruikt in reclame, politiek en media om een indruk te wekken van grote veranderingen of grote verschillen, terwijl de echte variatie klein is.

Een andere veelgebruikte techniek is selectieve data: je toont alleen de datapunten die je conclusie ondersteunen, terwijl je de rest weglaat. Of je kiest een tijdsperiode die toevallig een gunstige trend toont.

Misleidende grafiek: y-as start bij 90%, kleine verschillen lijken groot 90% 93% 96% 99% 94% 97% Merk A Merk B MISLEIDEND (y-as vanaf 90%) Misleidend: y-as start bij 90%. Het verschil tussen 94% en 97% lijkt enorm.
Eerlijke grafiek: y-as start bij 0%, klein reëel verschil zichtbaar 0% 25% 50% 75% 100% 94% 97% Merk A Merk B EERLIJK (y-as vanaf 0%) Eerlijk: y-as start bij 0%. Het kleine reële verschil van 3 procentpunt is duidelijk zichtbaar.

Correlatie versus causaliteit

Een veelgemaakte fout in de interpretatie van statistieken is het verwarren van correlatie en causaliteit:

Voorbeeld: in landen waar meer ijs wordt verkocht, verdrinken ook meer mensen. Er is een correlatie. Maar ijs verkopen veroorzaakt geen verdrinking! De echte verklaring is een derde factor: warm weer doet zowel ijsverkoop als zwemactiviteiten (en daarmee verdrinkingsrisico) stijgen.

Statistiek in de praktijk

Statistieken zijn overal: in sportverslagen (gemiddeld aantal goals per wedstrijd), in media (goedkeuringscijfers van politici), in geneeskunde (effectiviteit van medicijnen), en in wetenschappelijk onderzoek. Het is essentieel om altijd de volgende vragen te stellen:

Rekenvoorbeeld

Twee grafieken tonen het tevredenheidspercentage van klanten van een bedrijf over vier kwartalen: 91%, 92%, 93%, 94%.
Grafiek A heeft een y-as die start bij 90%. Grafiek B heeft een y-as die start bij 0%.
Welke grafiek is eerlijker? Wat suggereert grafiek A ten onrechte?

  • In grafiek A (y-as van 90%) zijn de staven voor 91%, 92%, 93% en 94% respectievelijk 1, 2, 3 en 4 eenheden hoog. De staaf voor 94% is daarmee vier keer zo hoog als de staaf voor 91%, wat een enorme stijging suggereert.
  • In werkelijkheid is het verschil slechts 3 procentpunt op een schaal van 100%, dus een kleine verbetering.
  • Grafiek B (y-as van 0%) laat zien dat alle staven bijna even hoog zijn en allemaal zeer dicht bij 100% liggen. Er is een lichte stijging, maar ze is klein en proportioneeel nauwkeurig weergegeven.

Grafiek B is eerlijker. Grafiek A overdrijft de stijging dramatisch door de y-as af te knippen bij 90% in plaats van bij 0%.

💡 Denkvraag

Je leest in een krant: “Onderzoek toont aan dat leerlingen die elke dag ontbijten, betere cijfers halen.” Is dit een bewijs van causaliteit of enkel een correlatie? Welke andere factoren zouden hier een rol kunnen spelen?

Oefeningen

Oefening 1

Frequentietabel opstellen

De volgende cijfers zijn de resultaten van 18 leerlingen op een toets (op 10):
{5, 7, 8, 6, 7, 9, 7, 8, 6, 7, 8, 5, 9, 7, 6, 8, 7, 10}

  1. Maak een frequentietabel met alle scores die voorkomen en hun absolute frequentie.
  2. Voeg een kolom toe voor de relatieve frequentie (als percentage).
  3. Voeg een kolom toe voor de cumulatieve frequentie.
  4. Welke score heeft de hoogste relatieve frequentie? Hoeveel procent is dat?
  5. Hoeveel procent van de leerlingen heeft een score van 7 of hoger?

Tip: sorteer de scores eerst van laag naar hoog voordat je begint te tellen.

Oefening 2

Het juiste grafiektype kiezen

Kies voor elk van de volgende situaties het meest geschikte grafiektype (staafdiagram, histogram, cirkeldiagram of lijndiagram). Verklaar je keuze.

  1. Het aantal bezoekers van een museum per maand, over een heel jaar.
  2. De verdeling van favoriete muziekgenres bij 200 leerlingen (pop, rock, hiphop, klassiek, andere).
  3. De lengte van 50 leerlingen van het eerste jaar (gemeten in cm).
  4. De evolutie van de gemiddelde temperatuur in België over de laatste 30 jaar.
  5. Het marktaandeel van de vier grote supermarktketens in België (in procent van de totale omzet).

Oefening 3

Gemiddelde, mediaan en modus berekenen

Gegeven de volgende datasets:

  1. Dataset A: {3, 5, 5, 6, 7, 8, 8, 8, 9, 11}
    Bereken het gemiddelde, de mediaan en de modus.
  2. Dataset B: {2, 4, 6, 8, 10, 12, 100}
    Bereken het gemiddelde en de mediaan. Welke maat geeft hier een beter beeld van het “typische” getal? Verklaar waarom.
  3. Een klas van 10 leerlingen haalt de volgende punten: {6, 7, 7, 7, 8, 8, 8, 9, 9, 10}.
    Na een herziening wordt de laagste score verhoogd van 6 naar 9. Hoe verandert het gemiddelde? Hoe verandert de mediaan?

Tip: sorteer altijd eerst voor je de mediaan bepaalt.

Oefening 4

Kwartielen en boxplot

Gegeven de dataset: {2, 4, 5, 7, 8, 9, 11, 13, 14, 16}

  1. Bereken Q1, Q2 en Q3.
  2. Bereken de interkwartielafstand (IQR).
  3. Bereken het bereik.
  4. Beschrijf hoe de boxplot eruit zou zien: waar ligt de box, waar liggen de whiskers, en waar staat de mediaanlijn?
  5. De waarde 16 is mogelijk een uitschieter. Hoe beïnvloedt die het gemiddelde versus de mediaan? Bereken beide met én zonder de waarde 16.

Oefening 5

Een misleidende grafiek interpreteren

Je ziet in een reclame twee staafgrafieken die de klanttevredenheid van twee bedrijven vergelijken:

  • Bedrijf X: 88% tevreden klanten
  • Bedrijf Y: 92% tevreden klanten

In de grafiek van de advertentie lijkt de staaf van Y bijna twee keer zo hoog als die van X.

  1. Waar begint de y-as waarschijnlijk? Leg uit hoe je dat kunt afleiden.
  2. Bereken hoeveel procentpunt het echte verschil bedraagt.
  3. Teken zelf de twee grafieken: één eerlijke versie (y-as bij 0%) en één misleidende versie (y-as afgeknepen). Gebruik ruitjespapier of schets.
  4. Geef een situatie uit het dagelijks leven waar een misleidende grafiek schade kan aanrichten.

Tip: als de staaf van 92% twee keer zo hoog is als die van 88%, dan is de as zo afgeknepen dat het verschil van 4 procentpunt eruitziet als 50% van de totale stafhoogte.

Oefening 6

Praktijkdataanalyse

Hieronder staan de maandelijkse neerslag (in mm) in Brussel voor een bepaald jaar:

Jan: 72   Feb: 54   Mrt: 68   Apr: 51   Mei: 63   Jun: 76
Jul: 82   Aug: 79   Sep: 65   Okt: 74   Nov: 88   Dec: 80

  1. Bereken de gemiddelde maandelijkse neerslag voor dit jaar.
  2. Bereken de mediaan. Sorteer daarvoor de 12 waarden.
  3. Bereken het bereik. Welke maand was de natste, welke de droogste?
  4. Bereken Q1, Q2 en Q3. Bepaal de IQR.
  5. Welk type grafiek zou je kiezen om de neerslag per maand te visualiseren? Teken een ruwe schets of beschrijf de grafiek.
  6. Stel dat een krant schrijft: “Het regende dit jaar nooit minder dan 50 mm per maand, dus de droogte is voorbij.” Bespreek deze uitspraak kritisch vanuit statistisch oogpunt.

Uitdaging: vergelijk je antwoorden met het langjarig gemiddelde voor Brussel van 74 mm/maand. In welke maanden was het droger of natter dan gemiddeld?

Samenvatting