OpenAI o1: De Volgende Stap in AI-Redeneren

OpenAI introduceert een nieuwe serie AI-modellen die zich richten op het oplossen van uitdagende vraagstukken in wetenschap, codering en wiskunde. Deze modellen, genaamd OpenAI o1, zijn ontworpen om meer ‘denk’-tijd te nemen voordat ze reageren, wat leidt tot een verbeterde redeneervermogen en probleemoplossend vermogen.

Hoe het werkt

De nieuwe o1-modellen zijn getraind om langer na te denken over problemen voordat ze een antwoord geven, vergelijkbaar met hoe een mens dat zou doen. Door middel van training leren ze hun denkproces te verfijnen, verschillende strategieën uit te proberen en hun eigen fouten te herkennen.

In OpenAI’s tests presteerde de volgende model-update op een vergelijkbaar niveau als PhD-studenten bij het uitvoeren van uitdagende benchmarktaken in natuurkunde, scheikunde en biologie. Daarnaast blonk het model ook uit in wiskunde en codering. In een kwalificatie-examen voor de Internationale Wiskunde Olympiade (IMO) loste GPT-4o slechts 13% van de problemen correct op, terwijl het nieuwe redeneermodel een score van 83% behaalde. Hun codeervaardigheden werden geëvalueerd in wedstrijden en bereikten het 89e percentiel in Codeforces-competities. Meer informatie hierover is te vinden in hun technische onderzoeksrapport.

Het is belangrijk op te merken dat dit een vroeg model is en nog niet beschikt over veel van de functies die ChatGPT zo nuttig maken, zoals het doorzoeken van het web naar informatie en het uploaden van bestanden en afbeeldingen. Voor veel voorkomende gevallen zal GPT-4o op de korte termijn nog steeds beter presteren.

Maar voor complexe redeneertaken is dit een aanzienlijke vooruitgang en vertegenwoordigt het een nieuw niveau van AI-capaciteit. Daarom heeft OpenAI de teller teruggezet naar 1 en deze serie OpenAI o1 genoemd.

Veiligheid

Als onderdeel van de ontwikkeling van deze nieuwe modellen heeft OpenAI een nieuwe aanpak voor veiligheidstraining ontwikkeld die gebruikmaakt van hun redeneervermogen om ervoor te zorgen dat ze zich houden aan veiligheids- en uitlijningsrichtlijnen. Door in staat te zijn om te redeneren over veiligheidsregels in context, kunnen ze deze effectiever toepassen.

Een manier waarop OpenAI de veiligheid meet, is door te testen hoe goed hun model de veiligheidsregels blijft volgen als een gebruiker probeert deze te omzeilen (ook wel “jailbreaking” genoemd). Op een van hun moeilijkste jailbreaking-tests scoorde GPT-4o 22 (op een schaal van 0-100), terwijl het o1-preview-model een score van 84 behaalde. Meer informatie hierover is te vinden in de systeemkaart en hun onderzoeksrapport.

Om de nieuwe mogelijkheden van deze modellen te evenaren, heeft OpenAI hun veiligheidswerk, interne governance en samenwerking met de federale overheid versterkt. Dit omvat rigoureuze tests en evaluaties met behulp van hun Preparedness Framework, best-in-class red teaming en beoordelingsprocessen op bestuursniveau, inclusief door hun Safety & Security Committee.

Om hun toewijding aan AI-veiligheid te versterken, heeft OpenAI recentelijk formele overeenkomsten gesloten met de Amerikaanse en Britse AI Safety Institutes. Ze zijn begonnen met het operationaliseren van deze overeenkomsten, waaronder het verlenen van vroege toegang tot een onderzoeksversie van dit model aan de instituten. Dit was een belangrijke eerste stap in hun partnerschap en hielp bij het vaststellen van een proces voor onderzoek, evaluatie en testen van toekomstige modellen vóór en na hun publieke release.

Voor wie is het bedoeld?

Deze verbeterde redeneermogelijkheden kunnen vooral nuttig zijn als je complexe problemen aanpakt in de wetenschap, codering, wiskunde en soortgelijke gebieden. o1 kan bijvoorbeeld worden gebruikt door onderzoekers in de gezondheidszorg om celsequentiegegevens te annoteren, door natuurkundigen om gecompliceerde wiskundige formules te genereren die nodig zijn voor kwantumoptica, en door ontwikkelaars in alle vakgebieden om workflows met meerdere stappen te bouwen en uit te voeren.

OpenAI o1-mini

De o1-serie blinkt uit in het nauwkeurig genereren en debuggen van complexe code. Om een efficiëntere oplossing voor ontwikkelaars te bieden, brengt OpenAI ook OpenAI o1-mini uit, een sneller en goedkoper redeneermodel dat bijzonder effectief is in codering. Als een kleiner model is o1-mini 80% goedkoper dan o1-preview, waardoor het een krachtig en kosteneffectief model is voor toepassingen die redeneren vereisen, maar geen brede wereldkennis.

Hoe OpenAI o1 te gebruiken

ChatGPT Plus- en Team-gebruikers krijgen vanaf vandaag toegang tot o1-modellen in ChatGPT. Zowel o1-preview als o1-mini kunnen handmatig worden geselecteerd in de modelkiezer, en bij de lancering zullen de wekelijkse rate limits 30 berichten zijn voor o1-preview en 50 voor o1-mini. OpenAI werkt eraan om die aantallen te verhogen en ChatGPT in staat te stellen automatisch het juiste model te kiezen voor een bepaalde prompt.

ChatGPT Enterprise- en Edu-gebruikers krijgen vanaf volgende week toegang tot beide modellen.

Ontwikkelaars die in aanmerking komen voor API-gebruik tier 5 kunnen vandaag beginnen met prototypen met beide modellen in de API met een rate limit van 20 RPM. OpenAI werkt eraan om deze limieten te verhogen na aanvullende tests. De API voor deze modellen bevat momenteel geen functieaanroepen, streaming, ondersteuning voor systeemberichten en andere functies. Raadpleeg de API-documentatie om aan de slag te gaan.

OpenAI is ook van plan om o1-mini-toegang te bieden aan alle ChatGPT Free-gebruikers.

Wat is de volgende stap?

Dit is een vroege preview van deze redeneermodellen in ChatGPT en de API. Naast modelupdates verwacht OpenAI ook functies zoals browsen, het uploaden van bestanden en afbeeldingen toe te voegen om ze voor iedereen nuttiger te maken.

OpenAI is ook van plan om door te gaan met het ontwikkelen en uitbrengen van modellen in hun GPT-serie, naast de nieuwe OpenAI o1-serie.