Google DeepMind heeft onlangs zijn nieuwste AI-model, Gemini, onthuld, dat rechtstreeks concurreert met OpenAI’s ChatGPT. Beide modellen behoren tot de categorie “generatieve AI” en maken gebruik van trainingsgegevens om originele inhoud te creëren. Terwijl ChatGPT een groot taalmodel (LLM) is dat zich voornamelijk richt op het genereren van tekst, introduceert Gemini een nieuw paradigma als een “multi-modaal model”. Het blinkt uit in het verwerken van diverse vormen van invoer en uitvoer, waaronder tekst, afbeeldingen, audio en video, en luidt een nieuw tijdperk van AI-mogelijkheden in.
De Progressie van Generatieve AI
Previously, Google’s conversational web app, Bard, relied on LaMDA, a dialogue-trained model. However, Gemini marks a significant advancement as it is inherently multimodal, effortlessly accommodating various inputs and outputs without the requirement of additional conversion models.
OpenAI heeft GPT-4Vision geïntroduceerd als hun antwoord op multimodaliteit, waardoor de integratie van afbeeldingen, audio en tekst mogelijk is. In tegenstelling tot Gemini maakt GPT-4V gebruik van afzonderlijke modellen voor het verwerken van audio-invoer, het genereren van spraakuitvoer en het maken van afbeeldingen via het Dall-E 2-model. Deze aanpak zorgt voor verbeterde schrijfkwaliteit, verbeterde structuur, leesbaarheid en welsprekendheid zonder afbreuk te doen aan de oorspronkelijke betekenis.
De Onderscheiding en Uitdagingen: Het Onderzoeken van de Verschillen en Hordes
Gemini valt op met zijn inherente multimodaliteit en kan moeiteloos verschillende vormen van invoer en uitvoer verwerken. Deze naadloze integratie omvat tekst, afbeeldingen, audio en video, waardoor het zich onderscheidt. Aan de andere kant vertrouwt GPT-4V op tussenliggende modellen om niet-tekstuele modaliteiten mogelijk te maken, wat een contrast in aanpak presenteert.
Het beoordelen van de modellen brengt echter zijn eigen uitdagingen met zich mee. Hoewel Google’s Gemini 1.0 Pro, de versie die beschikbaar is voor het publiek, wordt beschouwd als gelijkwaardig aan GPT 3.5, presteert het minder goed dan GPT-4. Google heeft ook gehint op een meer robuuste versie, Gemini 1.0 Ultra, maar de validatie door onafhankelijke bronnen is nog in afwachting.
Bedrieglijke demonstraties
Het evalueren van de mogelijkheden van Gemini wordt nog complexer door een demonstratievideo die, zoals gemeld door Bloomberg, niet in realtime is uitgevoerd. Het model had vooraf specifieke taken aangeleerd, wat zorgen oproept over de werkelijke realtime prestaties.
Een mooie toekomst en een landschap van concurrentie.
Te midden van de heersende uitdagingen en onzekerheden vertegenwoordigt de combinatie van Gemini en grote multimodale modellen een opmerkelijke sprong in het domein van generatieve AI. Door rechtstreekse training mogelijk te maken op een breed scala aan gegevensbronnen, waaronder afbeeldingen, audio en video’s, worden ongekende mogelijkheden onthuld om de mogelijkheden van modellen te verbeteren.
Naarmate we naar de toekomst kijken, hebben multimodale modellen het potentieel om geavanceerde interne frameworks te ontwikkelen voor het begrijpen van “naïeve fysica”, waardoor ons begrip van causaliteit, beweging en verschillende fysische fenomenen wordt verdiept. Met de opkomst van Gemini als een prominente concurrent van de GPT-modellen van OpenAI, verwachten we een golf van innovatie binnen het vakgebied van AI.
Laatste opmerkingen
Naarmate het AI-landschap blijft evolueren, belooft de concurrentie tussen Gemini en toekomstige iteraties van GPT-modellen opmerkelijke mogelijkheden te ontsluiten. De verwachting van grootschalige, open-source en niet-commerciële multimodale modellen die op het toneel verschijnen, geeft een optimistische kijk op de toekomst van AI-ontwikkeling.
Bovendien illustreren ontwikkelingen zoals Gemini Nano, een mobiel-compatibele lichtgewicht versie, een veelbelovende verschuiving naar het minimaliseren van de ecologische voetafdruk van AI-computing en het versterken van privacymaatregelen. In de komende jaren kunnen we getuige zijn van de opkomst van meer toegankelijke en efficiënte modellen, die het domein van generatieve AI herschikken.