Tijdens mijn wereldreis heb ik veel gelezen en nagedacht over de opkomst van al die mooie AI (ja, het woord ‘intelligence’ is verkeerd gekozen) tools als ChatGPT, Midjourney en ga zo nog maar even door. Er is een gevaar om meegenomen in de hype of haat rondom deze tools. Echt genuanceerd is de discussie doorgaans niet. En dat is een gemiste kans.
Ik heb gelezen over de manier waarop deze systemen worden getraind en de beperkingen die hier bij komen kijken. Niet alleen beperkingen in kwaliteit van data, maar ook in de scheve verdeling van wie de vruchten (lees: opbrengsten) plukt van deze nieuwe organisaties.
Ik zal je niet lastigvallen met een allesomvattend stuk over deze ontwikkeling, dan zou ik er een boek van moeten maken, maar wil in deze editie aan de hand van publicaties 3 vraagstukken met je willen delen:
- We zijn de mensen achter AI?
- De grote gevaren van de bias in dataset en hoe AI dit kan versterken
- De vraag of AI de grootste dataroof in de geschiedenis is
Wie zijn de mensen achter AI?
Om hier laagdrempelig meer over te leren is het aan te raden om de de editie ‘Microwerkers trainen AI voor hongerloontje‘ van de podcastserie ‘De Technoloog’ op BNR te beluisteren. In deze aflevering interviewen Herbert en Ben onderzoekster Claartje ter Hoeven. Claartje doet veel onderzoek naar ‘crowd- en clickworkers’: de groep werkenden die via platformen als Amazon Mechanical Turk de losse eindjes van AI aan elkaar knopen. Zij geeft waardevolle inzichten over wie deze groep is, wat hun motivatie is en ga zo nog maar even door. Belangrijkste om te onthouden: AI is een heel stuk minder intelligent dat je zou denken (het woord ‘intelligence’ is dan ook een misleidend frame) en duizenden mensen trainen én corrigeren AI via verschillende online platformen. Uitdaging hierin is dat dit (te) weinig wordt gecontroleerd en er zo weer nieuwe biasses in de software sluipen die wordt gebruikt om steeds belangrijkere beslissingen te maken.
Wil je wat verder lezen, dan is het artikel ‘Cleaning Up ChatGPT Takes Heavy Toll on Human Workers – Contractors in Kenya say they were traumatized by effort to screen out descriptions of violence and sexual abuse during run-up to OpenAI’s hit chatbot‘ in de Wall Street Journal een aanrader. Dit stuk maakt je niet alleen (nog veel) meer bewust over de rol van mensen in het trainen en corrigeren van AI, maar ook op de impact die dit werk op hen heeft. Niet iets om vrolijk van te worden, zeker wanneer je beseft dat deze mensen zeker niet degenen zullen zijn die er met de miljardenwinsten vandoor zullen gaan. Ook in dat opzicht is er weinig ‘nieuw’ aan deze technologie.
De grote gevaren van de bias in dataset en hoe AI dit kan versterken
Dit onderwerp kwam al een beetje naar voren in de vorige paragraaf, maar toch heb ik hem even apart gezet. Dit omdat ik het stuk ‘The people paid to train AI are outsourcing their work… to AI – It’s a practice that could introduce further errors into already error-prone models.‘ bij je onder de aandacht wil brengen. Want als je dacht dat AI alleen gebruikt wordt door de hoogopgeleide en te goed betaalde kenniswerkers, dan heb je het mis. In dit stuk wordt een interessant experiment omschreven:
“The workers are poorly paid and are often expected to complete lots of tasks very quickly. No wonder some of them may be turning to tools like ChatGPT to maximize their earning potential. But how many? To find out, a team of researchers from the Swiss Federal Institute of Technology (EPFL) hired 44 people on the gig work platform Amazon Mechanical Turk to summarize 16 extracts from medical research papers. Then they analyzed their responses using an AI model they’d trained themselves that looks for telltale signals of ChatGPT output, such as lack of variety in choice of words. They also extracted the workers’ keystrokes in a bid to work out whether they’d copied and pasted their answers, an indicator that they’d generated their responses elsewhere.
They estimated that somewhere between 33% and 46% of the workers had used AI models like OpenAI’s ChatGPT. It’s a percentage that’s likely to grow even higher as ChatGPT and other AI systems become more powerful and easily accessible, according to the authors of the study, which has been shared on arXiv and is yet to be peer-reviewed.”
Ik heb geen idee of deze groep werkenden AI niet zouden gebruiken wanneer ze hier beter voor betaald zouden worden (ik zie niet in waarom dat zo zou zijn), maar het is duidelijk dat er een groot risico zit in het trainen van AI door… AI:
“Using AI-generated data to train AI could introduce further errors into already error-prone models. Large language models regularly present false information as fact. If they generate incorrect output that is itself used to train other AI models, the errors can be absorbed by those models and amplified over time, making it more and more difficult to work out their origins, says Ilia Shumailov, a junior research fellow in computer science at Oxford University, who was not involved in the project.
Even worse, there’s no simple fix. “The problem is, when you’re using artificial data, you acquire the errors from the misunderstandings of the models and statistical errors,” he says. “You need to make sure that your errors are not biasing the output of other models, and there’s no simple way to do that.”
Het is dus allemaal niet zo eenvoudig als je misschien zou denken. Belangrijk om hier god onderzoek naar te doen en de modellen transparant te maken. Dit laatste wil de sector graag doen in de vorm van zelfregulering. Dat snap ik: ik vermoed dat dat op pagina 3 staat van het boek ‘lobby voor Dummies’. Het is daarom des te belangrijk dat hier goede regulering en overzicht voor komt. Of, zoals Marietje Schaake het op Twitter verwoordde: “Nobody elected Big Tech to govern the entire digital world. If democracy means anything, leaders must take responsibility for protecting the freedom of the American people from the ever-changing whims of powerful companies and their unaccountable C.E.O.s”.
De vraag of AI de grootste dataroof in de geschiedenis is.
Er is naar mijn mening nog te weinig discussie over de vraag hoe legitiem het is dat deze bedrijven data van anderen gebruiken om de eigen modellen te trainen. Om hier vervolgens zelf met de opbrengsten mee vandoor te gaan. Je kunt dit ontzettend politiek correct omschrijven of verdedigen, maar ik denk dat het interessanter is om het beestje bij de naam te noemen. En de vraag te stellen of het trainen van deze AI modellen niet de grootste data roof in de geschiedenis is. Ik weet: het is een flinke beschuldiging. Zeker omdat data roof voor de advertising industry niet geheel vreemd is. Maar ik zou je toch willen uitdagen om eens na te denken waarom dit NIET zo zou zijn.
En natuurlijk is dit geen nieuwe zorg. Deze zomer zijn genoeg stukken verschenen over rechtszaken tegen AI bedrijven als ChatGPT van hen wiens data is gebruikt voor het trainen van deze modellen. Zoals in het stuk ‘ChatGPT maker OpenAI faces a lawsuit over how it used people’s data‘. Ik verwacht de komende jaren nog flink wat rechtszaken rondom dit onderwerp, maar het is de vraag of het kwaad dan niet al is geschied.
Ik zou dan ook willen pleiten om parallel aan deze rechtszaken ook na te denken over modellen waarbij de leveranciers van data wél worden gecompenseerd voor de data die van hen wordt gebruikt. Het moet op de een of andere manier toch mogelijk zijn om dit te organiseren? Het is denk ik onmogelijk dit 1-op-1 te herleiden, maar er zijn vast andere creatieve manieren om hier mee om te gaan. Volgens mij een ideaal model waar blockchain fanaten op los kunnen gaan.
Een interessante casus komt voorbij in dit artikel in Time: ‘AI by the people, for the people: The Workers Behind AI Rarely See Its Rewards. This Indian Startup Wants to Fix That‘. Een mooi stuk, al valt ook hier wel het een en ander op aan te merken.