Maak kennis met OpenAI o3 en o4-mini: De slimste AI-modellen ooit

Vandaag introduceert OpenAI twee nieuwe modellen: OpenAI o3 en o4-mini. Deze modellen behoren tot de nieuwe “o-serie” en zijn ontworpen om langer en dieper na te denken vóór ze antwoorden geven. Ze zijn niet alleen de slimste modellen die OpenAI ooit heeft uitgebracht, maar vormen ook een grote stap vooruit in de manier waarop ChatGPT complexe vragen kan behandelen – van nieuwsgierige gebruikers tot geavanceerde onderzoekers.

Voor het eerst kunnen deze redeneermodellen zelfstandig alle tools binnen ChatGPT combineren: web search, bestandsanalyse met Python, beeldinterpretatie en zelfs afbeeldingsgeneratie. Ze zijn getraind om te beslissen wanneer en hoe tools worden ingezet, zodat ze snel (meestal binnen een minuut) gedetailleerde en doordachte antwoorden kunnen geven. Dit maakt ze effectiever bij het oplossen van meerlagige problemen en brengt ChatGPT dichter bij een meer agentische assistent die taken zelfstandig kan uitvoeren.

De combinatie van geavanceerde redeneervaardigheden met volledige tooltoegang vertaalt zich in aanzienlijk betere prestaties bij academische benchmarks en praktische toepassingen.

Wat is er veranderd?

OpenAI o3

  • Ons krachtigste redeneermodel ooit.
  • Excelleert in coderen, wiskunde, wetenschap, visuele perceptie en meer.
  • Nieuwe standaard op benchmarks zoals Codeforces, SWE-bench (zonder aangepaste scaffolding) en MMMU.
  • Vooral sterk in visuele taken zoals het analyseren van afbeeldingen, grafieken en diagrammen.
  • In externe evaluaties maakt o3 20% minder grote fouten dan o1 bij complexe, realistische taken.
  • Uitblinkend als “denkpartner” in domeinen zoals biologie, wiskunde en engineering.

OpenAI o4-mini

  • Kleiner model, geoptimaliseerd voor snelle en kostenefficiënte redenatie.
  • Presteert uitzonderlijk goed in wiskunde, coderen en visuele taken.
  • Beste prestaties ooit op AIME 2024 en 2025.
  • Behaalt 99,5% pass@1 op AIME 2025 wanneer het toegang heeft tot een Python interpreter.
  • Biedt hogere gebruikslimieten dan o3, ideaal voor hoog volume vragen.
  • Meer natuurlijk en persoonlijk gesprek, dankzij verbeterd geheugen- en conversatiemanagement.

Prestatieoverzicht (Belangrijkste benchmarks)

Benchmark o1 o3-mini o3 (zonder tools) o4-mini (zonder tools)
AIME 2024 (Wiskunde) 74,3% 87,3% 91,6% 93,4%
AIME 2025 (Wiskunde) 79,2% 86,5% 88,9% 92,7%
Codeforces (Programmeren) 1891 Elo 2073 Elo 2706 Elo 2719 Elo
GPQA Diamond (Wetenschap) 78,0% 77,0% 83,3% 81,4%

Denken met afbeeldingen

Voor het eerst kunnen deze modellen beelden integraal verwerken in hun redenatieproces. Ze zien een afbeelding niet alleen – ze “denken ermee”.

Voorbeelden:

  • Foto van een whiteboard, diagram of schets uploaden.
  • Analyse zelfs bij lage kwaliteit, rotaties of onscherpte.
  • Direct manipuleren van beelden tijdens de analyse (zoomen, roteren, transformaties).

Resultaat: beste prestaties ooit in visuele benchmarks zoals MMMU, MathVista, en CharXiv Reasoning.

Agentische toolgebruik

OpenAI o3 en o4-mini beschikken over volledige tooltoegang in ChatGPT en via de API (inclusief jouw eigen functies via function calling).

Voorbeeld taak:

  • Vraag: “Hoe zal de energieconsumptie in Californië deze zomer veranderen?”
  • Werkwijze: Webdata zoeken → Python-analyse → Voorspellingsgrafiek maken → Samenvatten in begrijpelijke uitleg.

Deze modellen kunnen strategisch schakelen tussen tools tijdens het oplossen van een probleem, en meerdere acties combineren in één logisch antwoord.

Grootschalige reinforcement learning

Bij het trainen van o3 werd reinforcement learning op schaal toegepast, vergelijkbaar met de GPT-series. Belangrijkste bevindingen:

  • Meer rekentijd = betere prestaties, zelfs bij grotere modellen.
  • Als het model langer “mag nadenken”, stijgt de nauwkeurigheid verder.
  • Models zijn getraind om na te denken over toolgebruik, niet alleen om tools te bedienen.

Veiligheid

OpenAI heeft o3 en o4-mini onderworpen aan de strengste veiligheidstests ooit, volgens de nieuwe Preparedness Framework.

  • Focus op biologische/chemische risico’s, cybersecurity, en AI zelfverbetering.
  • Beide modellen blijven onder het “High”-risiconiveau in alle categorieën.
  • Nieuw: redeneermonitor om risicovolle output te detecteren (~99% detectiegraad).

Codex CLI

OpenAI lanceert Codex CLI: een lichtgewicht coding agent voor gebruik in de terminal.

  • Ondersteunt multimodale redenatie (tekst + afbeeldingen).
  • Volledige lokale toegang tot jouw bestanden.
  • Volledig open-source: GitHub – OpenAI Codex CLI

OpenAI stelt $1 miljoen beschikbaar voor ontwikkelaarsprojecten gebaseerd op Codex CLI.

Toegang

  • ChatGPT Plus, Pro, Team: o3, o4-mini en o4-mini-high nu beschikbaar.
  • ChatGPT Enterprise & Education: Toegang binnen een week.
  • Gratis gebruikers: Kunnen o4-mini testen via de “Think” optie.
  • Ontwikkelaars: Toegang via Chat Completions API en Responses API.

Binnenkort verschijnt o3-pro met volledige toolondersteuning.

Wat volgt?

OpenAI werkt aan het samenbrengen van de sterke redenatiecapaciteiten van de “o-serie” met de natuurlijke conversatievaardigheden van de GPT-serie. Toekomstige modellen zullen:

  • Natuurlijke gesprekken combineren met proactief gebruik van tools.
  • Nog geavanceerdere probleemoplossing ondersteunen.

Blijf op de hoogte voor meer updates!

Maak kennis met OpenAI o3 en o4-mini: De slimste AI-modellen ooit
Verspreid de liefde

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Schuiven naar boven