Het geluid van iedereen altijd en overal opnemen

Iemand die wil weten hoe mensen iedere dag hun taal gebruiken heeft, zou je zeggen, waarlijk geen gebrek aan gegevens. Je hoeft je maar in een gezelschap te begeven en er wordt heel wat afgepraat. Wie wil weten hoe mensen dat wonder precies voltrekken: praten – razendsnel woorden zoeken in het geheugen, en deze razendsnel in elkaar schroeven tot zinnen die door de luisteraar al even razendsnel ontcijferd worden. Die luisteraar die meestal vrijwel onmiddellijk nadat de spreker is uitgesproken, zelf het woord neemt en een zin begint te formuleren die precies aansluit op het voorafgaande.

Maar toch zijn er allerlei problemen: je wordt als mens al snel zo afgeleid door de inhoud van wat er gezegd wordt, dat het heel lastig wordt om je te concentreren op de inhoud van het gebodene. Probeer het maar: een gesprek te volgen zonder meteen te vergeten hoe de ander zijn vorige zin precies heeft geformuleerd.

 

Spontanere vormen

Daar komt nog bij dat de meeste opgenomen taal niet spontaan is. Door mensen simpelweg een microfoon voor te houden, beginnen ze al anders te praten: ze raken zich bewust van zichzelf en mompelen of stamelen of jokken daardoor waarschijnlijk minder.

Dit alles maakt dat we veel meer weten over geschreven dan over gesproken taal. Geschreven taal ligt vast en is gemakkelijk te doorzoeken. Maar de meeste taal is gesproken taal; alleen schrijvende kluizenaars schrijven op een dag meer woorden dan dat ze spreken. Nu weten we dat gesproken taal ook in veel opzichten anders is: brokkeliger bijvoorbeeld, met slechts af en toe een afgemaakte zin. Bovendien weten we dat in mondelinge interactie waarschijnlijk de meeste taalveranderingen plaatsvinden. Taal is beweeglijk, maar vooral in de spontanere vormen.

 

Accent

Ook de chatbots die nu zoveel indruk maken, maken die indruk vooralsnog vooral met geschreven taal. Ze kunnen die geschreven taal wel omzetten in spraak – maar dat blijft dan uitgesproken geschreven taal. Een écht gesprek, met ‘eh’ en ‘mmm’ en veelbetekenende stiltes valt nog niet met ze te voeren. Simpelweg omdat ze niet weten waar je die stiltes en die geluidjes precies maakt. De timing daarvan is vermoedelijk heel gevoelig, maar dus ook niet precies bekend.

Een goed gesprek voeren, zo weten we, bestaat juist uit goede timing. Wanneer je enkele tientallen milliseconden te vroeg reageert, ben je onbeschoft. Reageer je enkele tientallen milliseconden te laat, dan suggereer je dat je de competentie van de ander in twijfel trekt. Hoeveel milliseconden het zijn, dat is ook nog eens afhankelijk van de cultuur. Willen we computers goede natuurlijke gesprekken laten voeren, dan zit er dus niks anders op: we moeten alles en iedereen opnemen.

In mijn droomproject sluiten we een contract met een middelgrote gemeente: in alle huizen en in alle straten hangen we overal microfoons, en we nemen alles op wat iedereen zegt, en dat, om te beginnen (ook aan dromen zitten grenzen), drie jaar lang. Natuurlijk beloven de wetenschappers geheimhouding over alle inhoud, de inwoners en hun gasten worden rijkelijk beloond voor hun deelname. Daar staat tegenover dat het materiaal op alle vormkenmerken mag worden doorgenomen: duren gesprekjes ’s ochtends langer of korter dan ’s avonds? Hoeveel woorden spreken mensen op een dag en tegen welke mensen? Zijn mensen met een accent langer of korter aan het woord?

Let wel: het volstaat daarbij niet om aan vrijwilligers te vragen om regelmatig hun microfoon open te zetten. Want dan ontstaat weer het probleem dat ze zelf een selectie maken van wanneer ze dat wel of niet doen. Bovendien krijgen we dan alleen de mensen die geïnteresseerd zijn in dit soort experimenten – dan hebben we nog steeds geen goede doorsnede van de alledaagse taal.

 

Hoe het zit

Toch is de kans dat dit droomexperiment ooit werkelijk wordt natuurlijk nagenoeg nul. Welke gemeente gaat dit goedkeuren? Welke universitaire commissie gaat hiermee akkoord? En wie gaat dat allemaal betalen? Alleen bedrijven als Microsoft en OpenAI hebben misschien het geld en de macht om het voor elkaar te krijgen. Maar als zij het doen weet, behalve misschien de computers die zij maken, nog steeds niemand hoe het zit.

Een aantal jaar geleden is het op kleine schaal geprobeerd: de Amerikaanse wetenschapper Deb Roy van het MIT Media Lab nam alles op wat er in de eerste levensjaren van zijn zoon werd gezegd. Dat was lang niet genoeg voor wat ik zou willen, maar het liet al wel wat dingen zien. Zo bleek het kind woorden gemakkelijker te leren als ze vaak in dezelfde situatie op dezelfde plaats werden gezegd – bijvoorbeeld tijdens het eten. Dat laat zien hoe belangrijk een regelmatig leven misschien is voor taalverwerving.

Spreken, een gesprek voeren is zo alledaags en zo voor de hand liggend dat het misschien lijkt alsof het heel eenvoudig is. Pas als je het computers wil laten doen, of het kinderen wil laten leren, of mensen wil helpen die er om welke reden dan ook problemen mee hebben, besef je hoe weinig we eigenlijk weten van hoe het werkelijk werkt. En hoe belangrijk het dus is dat mijn droomproject zo snel mogelijk wordt uitgevoerd – maar dan wel door open access-wetenschap, zodat de hele maatschappij ervan kan profiteren.