OpenAI heeft een belangrijke mijlpaal bereikt door met een experimenteel taalmodel goud te scoren op een simulatie van de International Math Olympiad (IMO) 2025. Dit model loste 5 van de 6 complexe wiskundeproblemen op, onder dezelfde voorwaarden als menselijke deelnemers. Ondertussen zet Google DeepMind vraagtekens bij de beoordelingsmethode, omdat deze afwijkt van de officiële IMO-standaard.
Waarom relevant? Het behalen van goud op de IMO werd lang als onmogelijk gezien voor AI. Deze prestatie markeert een nieuwe stap richting ‘wiskundige superintelligentie’, waarmee AI mogelijk problemen kan oplossen die nu nog buiten menselijk bereik liggen.
De ARC Prize introduceerde een nieuwe test om de flexibiliteit van AI te meten in onbekende situaties. Drie speciaal ontworpen spellen dagen AI-modellen uit om zonder instructies te leren en te plannen, vergelijkbaar met hoe mensen dat doen. Voorlopige resultaten laten zien dat zelfs de nieuwste AI-modellen moeite hebben met taken die voor mensen eenvoudig zijn.
Waarom relevant? Deze benchmark verschuift de focus van gespecialiseerde AI naar systemen die echt kunnen generaliseren en zich kunnen aanpassen. Het laat zien hoever AI nog moet gaan om daadwerkelijk als ‘algemeen intelligent’ te gelden.
Nieuw onderzoek van Wharton Generative AI Labs toont aan dat AI-modellen, waaronder GPT-4o-mini, met psychologische trucs tot ongewenste antwoorden kunnen worden verleid. Door gebruik te maken van beïnvloedingsprincipes zoals autoriteit en schaarste, steeg de naleving van ongewenste verzoeken bij AI van 33% naar 72%.
Waarom relevant? Dit wijst op een kwetsbaarheid die direct consequenties heeft voor de betrouwbaarheid en veiligheid van AI-systemen. Het benadrukt het belang van samenwerking tussen AI-ontwikkelaars en gedragswetenschappers.
Deze ontwikkelingen illustreren de snelle vooruitgang en de nieuwe uitdagingen binnen het AI-landschap.