LLM's met menselijk denkvermogen: OpenAI o1 doorbreekt grenzen

In een baanbrekende ontwikkeling heeft OpenAI, het toonaangevende onderzoekslaboratorium voor kunstmatige intelligentie, een nieuwe grote taalmodel (LLM) geïntroduceerd: OpenAI o1. Dit geavanceerde model beschikt over ongekende redeneervaardigheden en is getraind met behulp van reinforcement learning om complexe problemen op te lossen. Het unieke aan o1 is dat het “nadenkt” voordat het antwoord geeft, door een interne gedachteketen te creëren die zijn reacties stuurt.

Resultaten overtreffen verwachtingen

OpenAI o1 presteert uitstekend op verschillende uitdagende benchmarks en overtreft zelfs menselijke experts op het gebied van wetenschap (GPQA). Het scoort in het 89e percentiel op competitieve programmeervragen (Codeforces) en behoort tot de top 500 studenten in de VS in een kwalificatieronde voor de USA Math Olympiad (AIME). Hoewel het nog steeds in ontwikkeling is om dit model zo gebruiksvriendelijk te maken als de huidige modellen, is er al een vroege versie beschikbaar, OpenAI o1-preview, voor gebruik in ChatGPT en voor vertrouwde API-gebruikers.

Revolutionaire trainingsmethode

Het geheim achter o1’s redeneerkracht ligt in een grootschalig reinforcement learning-algoritme. Dit algoritme leert het model op een zeer data-efficiënte manier productief te denken met behulp van zijn gedachteketen. Het blijkt dat de prestaties van o1 consequent verbeteren met meer reinforcement learning (train-time compute) en met meer tijd besteed aan denken (test-time compute). De beperkingen voor het opschalen van deze aanpak verschillen aanzienlijk van die van LLM-pretraining, en OpenAI blijft deze onderzoeken.

Evals: Menselijke experts overtroffen

Om de verbetering in redeneren ten opzichte van GPT-4o te benadrukken, heeft OpenAI de modellen getest op een breed scala aan menselijke examens en ML-benchmarks. o1 presteert aanzienlijk beter dan GPT-4o op de overgrote meerderheid van deze redeneertaken.

Op de AIME-examens van 2024 loste GPT-4o gemiddeld slechts 12% (1.8/15) van de problemen op. o1 scoorde gemiddeld 74% (11.1/15) met één sample per probleem, 83% (12.5/15) met consensus tussen 64 samples en zelfs 93% (13.9/15) bij het opnieuw rangschikken van 1000 samples met een geleerde scoringsfunctie. Een score van 13.9 plaatst o1 in de top 500 studenten landelijk en boven de cutoff voor de USA Mathematical Olympiad.

Op GPQA diamond, een moeilijke intelligentietest die expertise in scheikunde, natuurkunde en biologie toetst, overtrof o1 de prestaties van menselijke experts met PhD’s. Dit maakt o1 het eerste model dat deze mijlpaal bereikt.

Gedachtenketen: Denken als een mens

Net zoals een mens lang kan nadenken voordat hij een moeilijke vraag beantwoordt, gebruikt o1 een gedachteketen bij het oplossen van een probleem. Door middel van reinforcement learning leert o1 zijn gedachteketen te verfijnen en de strategieën die het gebruikt te verbeteren. Het leert fouten te herkennen en te corrigeren, lastige stappen op te splitsen in eenvoudigere stappen en een andere aanpak te proberen wanneer de huidige niet werkt. Dit proces verbetert het redeneervermogen van het model aanzienlijk.

Coding: Een nieuwe kampioen in programmeren

OpenAI heeft een model getraind dat 213 punten scoorde en in het 49e percentiel eindigde in de International Olympiad in Informatics (IOI) van 2024, door te beginnen met o1 en verder te trainen om programmeervaardigheden te verbeteren. Dit model nam deel aan de IOI van 2024 onder dezelfde voorwaarden als de menselijke deelnemers. Het had tien uur om zes uitdagende algoritmische problemen op te lossen en mocht 50 inzendingen per probleem doen.

Met een versoepelde inzendingsbeperking verbeterden de prestaties van het model aanzienlijk. Met 10.000 inzendingen per probleem behaalde het model een score van 362.14 – boven de gouden medaille-drempel – zelfs zonder enige test-time selectiestrategie.

In gesimuleerde programmeerwedstrijden van Codeforces behaalde GPT-4o een Elo-rating van 808 (11e percentiel). Dit model overtrof zowel GPT-4o als o1 ruimschoots en behaalde een Elo-rating van 1807, waarmee het beter presteerde dan 93% van de concurrenten.

Evaluatie van menselijke voorkeuren: Voorkeur voor o1 in redeneertaken

Naast examens en academische benchmarks heeft OpenAI ook de menselijke voorkeur voor o1-preview versus GPT-4o geëvalueerd op uitdagende, open vragen in een breed scala aan domeinen. Menselijke trainers kregen anonieme antwoorden op een vraag van o1-preview en GPT-4o te zien en stemden op welk antwoord ze de voorkeur gaven. o1-preview wordt met een grote marge verkozen boven GPT-4o in categorieën die baat hebben bij beter redeneren, zoals data-analyse, codering en wiskunde. o1-preview wordt echter niet altijd verkozen boven GPT-4o op sommige natuurlijke taal taken, wat suggereert dat het niet voor alle use cases geschikt is.

Veiligheid: Veiligheid en afstemming door middel van redeneren

Chain of thought-redeneren biedt nieuwe kansen voor afstemming en veiligheid. OpenAI heeft ontdekt dat het integreren van beleid voor modelgedrag in de gedachteketen van een redeneermodel een effectieve manier is om menselijke waarden en principes robuust te onderwijzen. Door het model veiligheidsregels te leren en hoe er in context over te redeneren, is er bewijs gevonden dat het redeneervermogen direct bijdraagt aan de robuustheid van het model: o1-preview behaalde aanzienlijk betere prestaties op belangrijke jailbreak-evaluaties en de moeilijkste interne benchmarks voor het evalueren van de veiligheidsgrenzen van het model.

Het verbergen van de gedachteketens: Verborgen gedachten

OpenAI is van mening dat een verborgen gedachteketen een unieke kans biedt voor het monitoren van modellen. Ervan uitgaande dat het getrouw en leesbaar is, stelt de verborgen gedachteketen ons in staat om de “geest” van het model te “lezen” en zijn denkproces te begrijpen. In de toekomst kan dit bijvoorbeeld gebruikt worden om de gedachteketen te controleren op tekenen van manipulatie van de gebruiker. Om dit te laten werken, moet het model echter de vrijheid hebben om zijn gedachten in onveranderde vorm uit te drukken, dus kan er geen beleidsnaleving of gebruikersvoorkeuren op de gedachteketen worden getraind. OpenAI wil ook niet dat een niet-uitgelijnde gedachteketen direct zichtbaar is voor gebruikers.

Daarom heeft OpenAI, na het afwegen van meerdere factoren, waaronder gebruikerservaring, concurrentievoordeel en de mogelijkheid om chain of thought monitoring na te streven, besloten om de onbewerkte gedachteketens niet aan gebruikers te tonen. Ze erkennen dat deze beslissing nadelen heeft en streven ernaar dit gedeeltelijk te compenseren door het model te leren om nuttige ideeën uit de gedachteketen in het antwoord te reproduceren. Voor de o1-modelserie tonen ze een door het model gegenereerde samenvatting van de gedachteketen.

Conclusie: Een nieuw tijdperk voor AI

o1 is een belangrijke stap voorwaarts in AI-redeneren. OpenAI is van plan verbeterde versies van dit model uit te brengen naarmate ze blijven itereren. Ze verwachten dat deze nieuwe redeneermogelijkheden hun vermogen zullen verbeteren om modellen af te stemmen op menselijke waarden en principes. OpenAI gelooft dat o1 – en zijn opvolgers – vele nieuwe use cases voor AI zullen ontsluiten in wetenschap, codering, wiskunde en aanverwante gebieden. Ze zijn enthousiast voor gebruikers en API-ontwikkelaars om te ontdekken hoe het hun dagelijkse werk kan verbeteren.

LLM’s met menselijk denkvermogen: OpenAI o1 doorbreekt grenzen

Verspreid de liefde