Het groeiende volume aan rapporten, facturen, wetenschappelijke publicaties en andere zakelijke documenten stelt bedrijven en instellingen steeds meer voor de uitdaging om informatie snel en betrouwbaar te verwerken. In zijn doctoraatsonderzoek aan de VUB met als titel Representation Learning for Table Understanding in Intelligent Document Processing, ontwikkelde Willy Carlos Tchuitcheu (Onderzoeksgroep Wiskunde & Data Science) een vernieuwde methode die computers veel beter leert omgaan met die tabellen.
Veel Large Language Models zetten tabellen om in lineaire tekst, waardoor de tweedimensionale structuur, de koppen en de relaties tussen cellen verloren gaan. Dat leidt tot fouten en onnauwkeurigheden. “We ontdekten dat veel AI-taalmodellen moeite hebben met iets dat “volgorde-onafhankelijkheid” heet”, zegt Tchuitcheu. “Het betekent dat, wanneer je de rijen van een tabel van plaats verwisselt, de AI die tabel ziet als een compleet nieuwe tabel. Dat toont eigenlijk aan dat AI de onderliggende structuur van een tabel niet altijd echt begrijpt. Daardoor kan de informatie verkeerd worden geïnterpreteerd.”
Tchuitcheu introduceerde daarom het zogenaamde Table Understanding principle, een theoretisch kader dat beschrijft hoe mensen tabellen interpreteren door elke cel automatisch te verbinden met de juiste rij- en kolomkop. Vanuit dat principe ontwikkelde hij een structuurbewuste methode die tabellen niet langer reduceert tot platte tekst.
Lees het hele bericht op de site van de VUB.