SWE-bench Verified: Nauwkeurigere AI-Evaluatie in Softwareontwikkeling

SWE-bench Verified

OpenAI introduceert SWE-bench Verified, een door mensen gevalideerde subset van SWE-bench, om de mogelijkheden van AI-modellen bij het oplossen van echte softwareproblemen nauwkeuriger te beoordelen. Dit initiatief maakt deel uit van OpenAI’s Preparedness Framework, gericht op het volgen en evalueren van de autonome capaciteiten van modellen.

De Uitdaging van Evaluatie

Het evalueren van de autonome software engineering-vaardigheden van modellen is complex. De complexiteit van taken, de moeilijkheid om gegenereerde code accuraat te beoordelen en het simuleren van realistische ontwikkelingsscenario’s vormen aanzienlijke uitdagingen. OpenAI’s aanpak omvat daarom ook een grondige evaluatie van de evaluaties zelf, om het risico van onder- of overschatting van prestaties in belangrijke risicocategorieën te verminderen.

SWE-bench: Een Populaire, Maar Niet Perfecte Evaluatie

SWE-bench, een veelgebruikte benchmark voor het beoordelen van de capaciteiten van grote taalmodellen (LLM’s) om echte softwareproblemen op te lossen, is afkomstig van GitHub. Hoewel SWE-bench populair is, heeft OpenAI’s onderzoek aangetoond dat sommige taken moeilijk of zelfs onmogelijk op te lossen zijn, wat leidt tot een systematische onderschatting van de autonome software engineering-capaciteiten van modellen.

SWE-bench Verified: Een Verbeterde Benchmark

In samenwerking met de auteurs van SWE-bench heeft OpenAI SWE-bench Verified uitgebracht. Deze subset van de originele testset bestaat uit 500 samples die door menselijke annotators zijn geverifieerd als niet-problematisch. Bovendien is er een nieuwe evaluatie-harness ontwikkeld die gebruikmaakt van gecontaineriseerde Docker-omgevingen, waardoor evaluatie op SWE-bench eenvoudiger en betrouwbaarder wordt.

De Menselijke Aanpak

OpenAI werkte samen met 93 professionele softwareontwikkelaars om SWE-bench-samples handmatig te screenen op kwaliteit. Ze annoteerden 1.699 willekeurige samples uit de SWE-bench-testset om SWE-bench Verified te produceren. De annotaties omvatten:

  • Of de probleembeschrijving voldoende gespecificeerd is.
  • Of de unit tests geldige oplossingen onterecht afwijzen.
  • De moeilijkheidsgraad van elk sample.

Resultaten van de Annotaties

De resultaten tonen aan dat 38,3% van de samples onvoldoende gespecificeerde probleemstellingen had en 61,1% unit tests die mogelijk onterecht geldige oplossingen als incorrect markeren. Dit leidde tot het filteren van 68,3% van de SWE-bench-samples, wat een hoge mate van vertrouwen geeft in de haalbaarheid van de overgebleven samples.

Prestaties op SWE-bench Verified

GPT-4o’s prestaties op SWE-bench Verified, met behulp van de best presterende open-source scaffold, bereikten 33,2%. Dit is meer dan een verdubbeling van de score van 16% op de originele SWE-bench, wat de aanvankelijke veronderstelling bevestigt dat de originele dataset de mogelijkheden van modellen onderschat.

Discussie en Beperkingen

Het gebruik van SWE-bench als een van de evaluaties voor het volgen van het middelgrote risiconiveau van modelautonomie in OpenAI’s Preparedness Framework benadrukt het belang van betrouwbare evaluatieresultaten. OpenAI’s ervaringen suggereren dat er geïnvesteerd moet worden in een diepgaand begrip van benchmarks, rekening gehouden moet worden met de vooruitgang in het ecosysteem en dat men zich bewust moet zijn van de beperkingen van statische datasets.

Conclusie

OpenAI gelooft in een empirische en wetenschappelijke benadering van het volgen en beschermen tegen catastrofale risico’s. Het bouwen en continu verbeteren van evaluaties is een cruciaal onderdeel van dit werk. SWE-bench Verified vertegenwoordigt een belangrijke stap in de richting van betrouwbaardere evaluaties van AI-modellen in softwareontwikkeling. OpenAI moedigt de gemeenschap aan om bij te dragen aan waardevolle benchmarks zoals SWE-bench om deze belangrijke inspanningen te ondersteunen.

SWE-bench Verified: Nauwkeurigere AI-Evaluatie in Softwareontwikkeling
Verspreid de liefde

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Schuiven naar boven