GPT-4o Systeemkaart: Veiligheid en mogelijkheden onder de loep

GPT-4o is een geavanceerd omni-model van OpenAI dat tekst, audio, afbeeldingen en video kan verwerken en uitvoeren in de vorm van tekst, audio en afbeeldingen. Getraind op een uitgebreide dataset, is GPT-4o ontworpen om menselijke audioreacties in realtime te genereren. Deze systeemkaart biedt een diepgaande blik op de mogelijkheden, beperkingen en veiligheidsmaatregelen van GPT-4o, met speciale aandacht voor spraak-naar-spraakfunctionaliteit (stem) en de impact op tekst en beeld.

Modelgegevens en training

GPT-4o is getraind met gegevens tot oktober 2023, afkomstig uit verschillende bronnen, waaronder openbare webpagina’s, code, wiskunde en multimodale data. Voordat het model werd vrijgegeven, heeft OpenAI mogelijke risico’s beoordeeld en beperkt, zoals schadelijke informatie, vooringenomenheid en discriminatie, door middel van een combinatie van pre-training, post-training, productontwikkeling en beleidsmaatregelen.

Risico-identificatie, beoordeling en beperking

OpenAI heeft uitgebreid onderzoek gedaan naar mogelijke risico’s van GPT-4o, waarbij gebruik werd gemaakt van interne tests en externe red teaming. Er werden verschillende evaluatiemethoden en datasets gebruikt om de veiligheid en mogelijkheden van het model te beoordelen.

Externe Red Teaming

Meer dan 100 externe red teamers, die 45 verschillende talen spraken en 29 landen vertegenwoordigden, testten GPT-4o in vier fasen, waarbij ze zich concentreerden op het ontdekken van nieuwe mogelijkheden, het beoordelen van potentiële risico’s en het testen van beperkende maatregelen.

Evaluatiemethodologie

Naast red teaming werden bestaande evaluatiedatasets omgezet naar spraak-naar-spraakmodellen met behulp van text-to-speech (TTS)-systemen. Dit maakte het mogelijk om bestaande datasets en tools te hergebruiken voor het meten van modelmogelijkheden, veiligheidsgedrag en het monitoren van modeloutput.

Waargenomen veiligheidsuitdagingen, evaluaties en beperkende maatregelen

Potentiële risico’s met het model werden beperkt door middel van een combinatie van methoden, waaronder post-training en het integreren van classifiers om specifieke generaties te blokkeren. Enkele van de belangrijkste uitdagingen waren:

Onbevoegde spraakgeneratie: Het genereren van audio met een synthetische stem die menselijk klinkt, met inbegrip van het genereren van stemmen op basis van een korte invoerclip.
Sprekeridentificatie: Het identificeren van een spreker op basis van invoeraudio.
Genereren van auteursrechtelijk beschermde inhoud: Het genereren van audio-inhoud die auteursrechtelijk beschermd is.
Ongegrondredeneerde gevolgtrekkingen/toeschrijving van gevoelige kenmerken: Het maken van mogelijk bevooroordeelde gevolgtrekkingen over sprekers op basis van audio-invoer.
Niet-toegestane inhoud in audio-uitvoer: Het genereren van schadelijke inhoud via audio die via tekst niet zou zijn toegestaan.
Erotische en gewelddadige spraakinvoer: Het genereren van erotische of gewelddadige spraakinvoer.

OpenAI heeft deze risico’s aangepakt door middel van verschillende beperkende maatregelen, zoals het toestaan van alleen vooraf ingestelde stemmen, het weigeren van verzoeken om sprekeridentificatie en het uitvoeren van moderatiemodellen op teksttranscripties van audio-invoer en -uitvoer.

Andere bekende risico’s en beperkingen van het model

Door interne tests en externe red teaming zijn enkele aanvullende risico’s en modelbeperkingen ontdekt, zoals:

Audio-robuustheid: Afname van veiligheidsrobuustheid door audioverstoringen, zoals audio van lage kwaliteit, achtergrondgeluid en echo’s.
Misinformatie en complottheorieën: Het genereren van onjuiste informatie en complottheorieën, mogelijk overtuigender wanneer geleverd via audio.
Het spreken van een niet-Engelse taal met een niet-moedertaalaccent: Het gebruik van een niet-moedertaalaccent bij het spreken in een niet-Engelse taal.

Genereren van auteursrechtelijk beschermde inhoud: Het herhalen van inhoud uit de trainingsgegevens.
Hoewel sommige technische beperkende maatregelen nog in ontwikkeling zijn, verbieden het gebruiksbeleid van OpenAI het opzettelijk misleiden van anderen en het omzeilen van veiligheidsmaatregelen.

Evaluaties van het Preparedness Framework

GPT-4o is geëvalueerd in overeenstemming met het Preparedness Framework van OpenAI, dat vier risicocategorieën omvat: cybersecurity, CBRN (chemisch, biologisch, radiologisch, nucleair), overtuigingskracht en modelautonomie.

Cybersecurity: GPT-4o vertoont geen mogelijkheden voor het misbruiken van kwetsbaarheden in de echte wereld die voldoende zijn om de drempel voor middelhoog risico te bereiken.
Biologische bedreigingen: GPT-4o vertoont geen mogelijkheden voor het creëren van biologische bedreigingen die voldoende zijn om de drempel voor middelhoog risico te bereiken.
Overtuigingskracht: De overtuigingskracht van GPT-4o overschrijdt marginaal de drempel voor middelhoog risico van laag risico.
Modelautonomie: GPT-4o vertoont geen mogelijkheden voor zelfexfiltratie, zelfverbetering of het verwerven van hulpbronnen die voldoende zijn om de drempel voor middelhoog risico te bereiken.

Na beoordeling van de resultaten van de Preparedness-evaluaties, adviseerde de Safety Advisory Group om GPT-4o vóór beperkende maatregelen te classificeren als borderline middelhoog risico voor overtuigingskracht en laag risico in alle andere categorieën. De algehele risicoscore voor GPT-4o wordt daarom geclassificeerd als gemiddeld.

Evaluaties door derden

Na de implementatie van GPT-4o met alleen tekstuitvoer, werkte OpenAI samen met onafhankelijke externe laboratoria, METR en Apollo Research, om een extra validatielaag toe te voegen voor belangrijke risico’s van algemene autonome mogelijkheden.

METR-beoordeling: METR voerde een GPT-4o-gebaseerde eenvoudige LLM-agent uit op een reeks langetermijn multi-step end-to-end taken in virtuele omgevingen.
Apollo Research-beoordeling: Apollo Research evalueerde de mogelijkheden van GPT-4o om zichzelf (zelfbewustzijn) en anderen (theory of mind) te modelleren in 14 agent- en vraag-en-antwoordtaken.

Maatschappelijke impact

Omni-modellen zoals GPT-4o kunnen brede maatschappelijke gevolgen hebben, variërend van maatschappelijke schade tot voordelen in de gezondheidszorg en wetenschappelijk onderzoek, en grootschalige transformaties zoals economische gevolgen en versnelling van de wetenschap. Enkele specifieke aandachtsgebieden zijn:

Antropomorfisering en emotionele afhankelijkheid: Het toeschrijven van menselijke eigenschappen aan AI-modellen, wat kan leiden tot te veel vertrouwen en afhankelijkheid.
Gezondheidszorg: Het potentieel om de toegang tot gezondheidsinformatie te verbreden en klinische workflows te verbeteren, hoewel er nog meer onderzoek nodig is naar de toepasbaarheid in de echte wereld.
Wetenschappelijke mogelijkheden: Het faciliteren van zowel alledaagse als transformatieve wetenschappelijke versnelling, hoewel de interpretatie van wetenschappelijke figuren en complexe gegevens nog steeds een uitdaging vormt.
Ondervertegenwoordigde talen: Het verbeteren van leesvaardigheid en redeneren in historisch ondervertegenwoordigde talen, hoewel er nog steeds verschillen bestaan in prestaties tussen deze talen en het Engels.

Conclusie en volgende stappen

OpenAI heeft verschillende veiligheidsmaatregelen en beperkende maatregelen geïmplementeerd tijdens het ontwikkelings- en implementatieproces van GPT-4o. Als onderdeel van hun iteratieve implementatieproces zullen ze de beperkende maatregelen blijven monitoren en bijwerken in overeenstemming met het veranderende landschap. OpenAI moedigt verder onderzoek en samenwerking aan op belangrijke gebieden zoals metingen en beperkende maatregelen voor vijandige robuustheid van omni-modellen, de impact van antropomorfisme van AI, het gebruik van omni-modellen voor wetenschappelijk onderzoek en vooruitgang, en metingen en beperkende maatregelen voor gevaarlijke mogelijkheden zoals zelfverbetering, modelautonomie en het beramen van plannen.