Data zijn cruciaal voor generatieve AI

Hoe meer trainingsdata er zijn voor een vraag, des te beter de resultaten. Maar hoe goed zijn de trainingsdata?

Onze gegevens worden overal op internet verzameld en worden ook gebruikt om grote taalmodellen zoals ChatGPT te trainen. Maar hoe wordt kunstmatige intelligentie (AI) getraind? Hoe wordt er voor gezorgd dat er geen vertekeningen (zogenaamde biases) in de modellen ontstaan? Hoe wordt de gegevensbescherming gehandhaafd? De Technische Universität München (TUM) doet onderzoek naar grote taalmodellen en beeldvormingsmethoden in de geneeskunde.

Rol van data

Kunstmatige intelligentie systemen gebruiken data als trainingsvoorbeelden. Grote taalmodellen zoals ChatGPT kunnen alleen vragen beantwoorden over onderwerpen waarvoor ze zijn getraind. De meeste informatie die algemene taalmodellen gebruiken voor training bestaat uit data die vrij beschikbaar zijn op internet. Hoe meer trainingsdata er zijn voor een vraag, des te beter de resultaten.

Als er bijvoorbeeld veel goede teksten zijn die verbanden in de wiskunde beschrijven voor een AI die zou moeten helpen bij wiskundetaken, zullen de trainingsdata dienovereenkomstig goed zijn. Tegelijkertijd wordt veel gefilterd bij het selecteren van data. Uit de grote hoeveelheid data worden alleen de goede data verzameld en gebruikt voor trainingen.

Vooroordelen voorkomen

Het is moeilijk om een methode te ontwikkelen die niet terugvalt op klassieke stereotypen en die op een onbevooroordeelde en eerlijke manier handelt. Als de ontwikkelaar bijvoorbeeld wil voorkomen dat de resultaten vertekend worden wat betreft huidskleur, is dat relatief eenvoudig. Wanneer echter ook geslacht aan de huidskleur wordt toegevoegd, kunnen er situaties ontstaan waarin het model niet meer geheel onbevooroordeeld kan optreden ten aanzien van huidskleur en geslacht tegelijk.

De meeste taalmodellen proberen een evenwichtig antwoord te geven op bijvoorbeeld politieke vragen en meerdere perspectieven te belichten. Bij trainingen op basis van media-inhoud wordt de voorkeur gegeven aan media die voldoen aan journalistieke kwaliteitscriteria. Bovendien wordt er bij het filteren van gegevens op gelet dat bepaalde woorden, bijvoorbeeld racistisch of seksistisch, niet worden gebruikt.

Taal

In sommige talen is er veel inhoud op internet, in andere talen aanzienlijk minder. Het grootste deel van het internet is in het Engels. Hierdoor werken grote taalmodellen het beste in het Engels. Maar er is ook veel inhoud voor veel gesproken talen als het Duits, Frans, Spaans en Chinees. Voor talen die niet zo bekend zijn en waarvoor niet zoveel teksten bestaan, zijn er echter minder trainingsdata en werken de modellen slechter.

Hoe goed taalmodellen in bepaalde talen kunnen worden gebruikt, kan gemakkelijk worden waargenomen omdat ze zogenaamde schaalwetten volgen. Hiermee wordt getest of een taalmodel het volgende woord kan voorspellen. Hoe meer trainingsdata er zijn, des te beter het model wordt. Maar het wordt niet alleen beter, het wordt ook voorspelbaar beter. Dit kan eenvoudig worden weergegeven door een wiskundige vergelijking.

Hoe nauwkeurig AI in de praktijk is, hangt sterk af van het betreffende toepassingsgebied. Bij foto's die met AI zijn nabewerkt, maakt het bijvoorbeeld niet uit of elk haartje aan het eind op de juiste plek zit. Het is vaak genoeg als een foto er uiteindelijk goed uitziet. Zelfs bij grote taalmodellen is het belangrijk dat de vragen goed worden beantwoord; of details ontbreken of onjuist zijn, is niet altijd cruciaal.

Medische toepassingen

Behalve aan taalmodellen doet de TUM ook onderzoek op het gebied van medische beeldverwerking. Het is hierbij erg belangrijk dat elk detail van de gemaakte afbeelding correct is. Als een arts AI gebruikt voor diagnoses, moet het absoluut correct zijn.

Nu is gegevensbescherming een belangrijke zorg in het kader van AI, vooral in een medische context. De meeste medische toepassingen maken gebruik van patiëntgegevens die geanonimiseerd zijn. Het gevaar is, dat zich situaties kunnen voordoen waarin alsnog conclusies uit de data getrokken kunnen worden. Leeftijd of geslacht zijn bijvoorbeeld vaak terug te voeren op de gediagnosticeerde ziekte. Het is belangrijk om patiënten hierover voldoende te informeren.

Er zijn nog andere problemen bij het trainen van AI in een medische context. Een grote moeilijkheid is het verzamelen van data die veel verschillende situaties en scenario's weerspiegelen. AI werkt het beste als de data waarop het wordt toegepast vergelijkbaar zijn met de trainingsdata. Die data verschillen echter van ziekenhuis tot ziekenhuis, bijvoorbeeld wat betreft de patiëntsamenstelling of de apparatuur die data genereert. Er zijn twee opties om het probleem op te lossen: óf ontwikkelaars slagen erin de algoritmen te verbeteren, óf ze moeten data optimaliseren zodat deze beter op andere situaties kunnen worden toegepast.

Foto: PublicDomainPictures.net