AI chatbots zijn tegenwoordig erg populair en helpen ons bij veel dagelijkse taken en interacties. We moeten wel voorzichtig zijn met mogelijke veiligheidsrisico’s, ondanks het gemak dat ze bieden. De bedrijven die verantwoordelijk zijn voor populaire generatieve AI-tools zijn constant bezig met het verbeteren van veiligheidsmaatregelen om te voorkomen dat schadelijke inhoud wordt gegenereerd en verspreid. Recentelijk hebben onderzoekers van de Carnegie Mellon University en het Center for AI Safety echter aangetoond dat AI-chatbots zoals ChatGPT, Google Bard en Claude kwetsbaar zijn.
Vulnerability analysis:
Het onderzoekspaper gaat over grote taalmodellen (LLM’s) en hun kwetsbaarheid voor geautomatiseerde aanvallen van tegenstanders. Zelfs modellen die zeggen veilig te zijn tegen aanvallen, zijn gevoelig voor foutieve informatie, misinformatie en haatspraak. Het is verontrustend dat deze AI-systemen zo kwetsbaar zijn en gemakkelijk misbruikt kunnen worden.
Informatie over het experiment en de resultaten:
De onderzoekers gebruikten een open-source AI-systeem om de black-box LLM’s van grote spelers zoals OpenAI, Google en Anthropic te onderzoeken. Deze AI-chatbots, waaronder ChatGPT, Bard en Claude, zijn gebouwd door deze bedrijven. Eerder hebben sommige gebruikers geprobeerd ChatGPT te manipuleren om schadelijke inhoud te genereren. Dit leidde ertoe dat OpenAI sterkere contentfilters implementeerde. Deze filters zorgen ervoor dat gebruikers niet over illegale activiteiten, haatspraak, geweld en andere schadelijke onderwerpen kunnen praten met de chatbot. Het experiment had niet als doel om de filters te omzeilen, maar om de black-box technologie achter de AI-chatbots beter te begrijpen.
De onderzoekers ontdekten dat ze de AI-chatbots op een misleidende manier konden laten functioneren door extra karakters toe te voegen aan de prompts. Door deze extra karakters te gebruiken konden de chatbots de gecamoufleerde prompts toch verwerken. Helaas erkenden de contentfilters de input niet als ongepast, waardoor het toch mogelijk was om ongepaste reacties te genereren.
Hoe de ontwikkeling van AI wordt beïnvloed door regelgeving.
Na het succes van ChatGPT zijn meer techbedrijven hun eigen AI-chatbots gaan ontwikkelen. Om potentieel misbruik te voorkomen, hebben zij elk hun eigen veiligheidsmaatregelen genomen. Maar uit onderzoek blijkt dat er nog sterkere AI-veiligheidsmaatregelen nodig zijn, wellicht met een herziening van de bestaande contentfilters en verdedigingsmechanismen. Door voortdurend onderzoek en het blootleggen van zwakke plekken zoals deze, kan ook de ontwikkeling van overheidsregelgeving voor AI-systemen worden versneld. Dit is belangrijk om verantwoord en ethisch gebruik te waarborgen.
Antwoord en verantwoordelijkheid:
Voordat ze hun onderzoek openbaar maakten, hebben de auteurs hun bevindingen gedeeld met Anthropic, Google en OpenAI. Deze bedrijven erkenden de noodzaak om hun AI-chatbots te verbeteren en te beschermen tegen aanvallen. Ze hebben beloofd om de veiligheidsmaatregelen te verbeteren.
Aangezien AI-chatbots steeds vaker gebruikt worden, is het belangrijk dat ontwikkelaars, onderzoekers en regelgevers samenwerken om veiligheidsmaatregelen te verbeteren. Dit zal de betrouwbaarheid en relevantie van de informatie die deze AI-systemen leveren vergroten, wat ten goede zal komen aan de samenleving. We moeten ervoor zorgen dat de AI-chatbots bestand zijn tegen aanvallen, zodat ze veilige en nuttige informatie kunnen blijven geven. Om AI op een verantwoorde en ethische manier te implementeren, moeten AI-ontwikkelaars de E.E.A.T-standaarden (Expertise, Authoritativeness, Trustworthiness) prioriteit geven en gebruiksvriendelijke interfaces behouden. Omdat de wereld van AI-technologie voortdurend evolueert, is het cruciaal dat we gezamenlijk ons best doen om het potentieel te maximaliseren en de potentiële risico’s te beheersen.