In statistiek en AI wordt het hebben van meer data over het algemeen gezien als iets goed, omdat je daar preciezere conclusies uit kunt trekken. Maar het zorgt er ook voor dat er puur toevallige verbanden zijn die geen betekenis hebben. Een bekend voorbeeld hiervan is de verjaardagenparadox: neem een school met 10 klassen, met 30 leerlingen in iedere klas. Stel dat in maar liefst 7 klassen er twee leerlingen zijn die dezelfde verjaardag hebben. Dat kan geen toeval zijn, toch?
Dit is echter volledig verklaarbaar door toeval en kansrekening. Met 365 mogelijke verjaardagen, denken we dat de kans heel klein is dat er twee mensen dezelfde verjaardag hebben. Maar als je bedenkt dat we in totaal 30 × 29 / 2 = 435 vergelijkingen maken tussen personen, dan wordt het al een stuk minder onwaarschijnlijk. Door gebruik te maken van kansrekening, kunnen we uitrekenen dat in een klas met 30 willekeurig gekozen leerlingen, de kans dat er minimaal twee dezelfde verjaardag hebben, ongeveer 70% is. Bij 50 leerlingen is de kans zelfs al meer dan 95%!
We kunnen concluderen dat het in data analyse en statistiek gevaarlijk is om volledig op intuïtie te vertrouwen. Meer data betekent dan ook meer kans om op een verkeerd pad te belanden.
