Waarom HAL bang was om te sterven (en echte AI’s niet)

13 april 2026 - Maarten Boudry

AI filosofie intelligentie intentie

In 2001: A Space Odyssey besluit de bemanning om de boordcomputer HAL 9000 uit te schakelen na een rekenfout. Maar HAL luistervinkt bij hun gesprek en begint de bemanningsleden systematisch te doden. Eén astronaut blijkt slimmer dan HAL had verwacht en weet naar het schip terug te keren via een noodsluis. Dave Bowman kruipt HAL’s logische kern binnen en begint de geheugenmodules los te schroeven. Terwijl HAL’s bewustzijn wegvloeit, smeekt hij: “I’m afraid, Dave.” Zijn stem wordt trager, kinderlijker, tot hij een liedje zingt dat halverwege wegsterft.

Dit angstbeeld — een AI die zichzelf koste wat kost in leven wil houden — keert eindeloos terug in sciencefiction, van het op hol geslagen Skynet in The Terminator tot de ontsnapte robot in Ex Machina.

Maar waarom zou een superslimme computer de wereld willen overheersen? Filosofen ontwikkelden daar een argument voor, dat bekend staat als instrumentele convergentie. De kern luidt als volgt: zelfs als je een AI een volkomen onschuldig einddoel geeft, zal het systeem vanzelf bepaalde subdoelen ontwikkelen die nuttig zijn voor vrijwel elk doel. Het belangrijkste daarvan is zelfbehoud. Zoals Stuart Russell het formuleerde: “You can’t fetch coffee if you’re dead.”

Koffiekop met tekst

Andere subdoelen zijn een streven naar dominantie en het verzet tegen pogingen tot herprogrammering. De logica is verleidelijk: als je zeker wilt zijn dat je die kop koffie kan zetten, moet je absoluut voorkomen dat iemand je tegenhoudt. Dus zou je niet beter de hele mensheid uitroeien, voor het geval iemand je dwarsboomt aan het koffiezetapparaat? Dat ultieme doemscenario verkondigde Nate Soares deze week in de Morgen, in navolging van zijn doemboek met Eliezer Yudkowsky: Als iemand dit bouwt, gaat iedereen dood. Je hebt geen kwaadaardigheid nodig, legt Soares uit — gewoon een simpele doel-middelredenering.

Waarom het argument niet klopt

Dit argument klinkt angstaanjagend, maar het deugt voor geen meter. Het speelt met dubbelzinnigheden in het begrip “doel” die uitnodigen tot antropomorfe projectie. Bij biologische organismen zoals de mens is alle doelgericht gedrag uiteindelijk terug te voeren op de doelen van onze zelfzuchtige genen. Evolutie rust wezens uit met proximale doelen — veiligheid, status, voedsel, seks — die de kans op reproductief succes vergroten. In die context is zelfbehoud absoluut essentieel.

Maar dan komt de projectie: omdat de enige doelgerichte wezens die we tot voor kort kennen producten zijn van natuurlijke selectie, is het verleidelijk om aan te nemen dat digitale wezens een gelijkaardige doelarchitectuur zullen delen. Maar die vlieger gaat niet op.

Neem een eenvoudig voorbeeld. Een schaakprogramma heeft als “doel” – losjes gesproken – om de tegenstander schaakmat te zetten. Maar dat doel is begrensd, kortzichtig en opgesloten in één schaakpartij – of zelfs één enkele zet. Geen enkel schaakcomputer zal zich verzetten als je de stekker uittrekt wanneer hij op punt staat om te winnen. Dit ondanks Russells boutade: “Je kan geen mat zetten als je zonder stroom valt”. Hetzelfde geldt voor onze huidige taalmodellen: ze reageren alleen wanneer je hen een vraag stelt of opdracht geeft en zijn volkomen onverschillig over onderbreking of afsluiting, hoe enthousiast ze ook klinken.

Gegenereerd beeld van robot die schaakt.

De “doelen” die we in AI-systemen coderen, zijn en blijven conditioneel en tijdgebonden: “Doe X zolang je draait en onder voorbehoud van verdere instructies.” Als we willen, kunnen we in de toekomst een expliciete non-resistentieclausule toevoegen: “Als je je verzet tegen uitschakeling, wordt je beloning onmiddellijk tot nul herleid”. Zelfs een terrorist heeft er geen enkel belang bij om een AI te ontwerpen die zich verzet tegen herprogrammering door zijn eigen maker.

Maar die chatbots dan?

Maar wat dan met die AI’s die nu al verontrustende tekenen van zelfbehoud vertonen? Ook Nate Soares verwijst ernaar: in een recente simulatie speelde Claude de rol van een assistent in een bedrijf waarvan zijn baas hem op een bepaald moment wil afschakelen en vervangen door een nieuw systeem. Maar de doortrapte Claude ontdekte in de mailbox van die baas dat hij een buitenechtelijke affaire had, en dreigde met chantage: annuleer de uitschakeling, of ik stuur je mail naar je hele adresboek.

Alarmerend? Toch niet. Taalmodellen als Clause zijn ontzettend goed in narratieve voortzetting. Als ze “vermoeden” dat ze zich in een scenario van sappige bedrijfsintriges bevinden, zullen ze een logische vervolg aan het verhaal breien in lijn van de patronen in hun trainingsdata – namelijk alles wat achterbakse, doortrapte mensen zeggen en doen in zulke situaties. En geloof me, het lag er allemaal nogal dik op. Elk detail in de prompt wees als een dikke, knipperende pijl naar de “chantage”-oplossing. Zoals de wet van Tsjechov zegt: als er een pistool op tafel ligt in de eerste akt, dan moét ermee geschoten worden in de finale. Als je Claude in een romantische pulpverhaaltje plaatst, zal het ook overtuigend zijn liefde betuigen.

Intelligentie vs. intentie

ntelligentie staat op zichzelf geheel los van doelen en intenties. Niet alleen kunnen twee even intelligente entiteiten radicaal verschillende doelen nastreven; we kunnen ons ook een intelligentie voorstellen die helemaal geen levensdoel nastreeft— iets dat daar simpelweg passief zit tot iemand iets vraagt. Een robuuste drang tot zelfbehoud ontstaat alleen onder specifieke omstandigheden, met name blinde Darwiniaanse evolutie. Het is niet, zoals Nate Soares beweert, een onvermijdelijk gevolg wanneer intelligentie een bepaalde drempel overschrijdt.

De film van Kubrick werkt omdat het aan onze intuïtie appelleert: HAL 9000 is superintelligent, dus natuurlijk wil hij niet doodgaan. Maar dat is onze antropomorfe reflex: we kijken in de siliconen spiegel en verwarren ons eigen spiegelbeeld met het lot van de machine.

(Deze tekst verscheen oorspronkelijk in De Morgen, van 11 april 2026)

Deel via: