OpenAI claimt goud op wiskunde olympiade

OpenAI behaalt goud op International Math Olympiad

OpenAI heeft een belangrijke mijlpaal bereikt door met een experimenteel taalmodel goud te scoren op een simulatie van de International Math Olympiad (IMO) 2025. Dit model loste 5 van de 6 complexe wiskundeproblemen op, onder dezelfde voorwaarden als menselijke deelnemers. Ondertussen zet Google DeepMind vraagtekens bij de beoordelingsmethode, omdat deze afwijkt van de officiële IMO-standaard.

Waarom relevant? Het behalen van goud op de IMO werd lang als onmogelijk gezien voor AI. Deze prestatie markeert een nieuwe stap richting ‘wiskundige superintelligentie’, waarmee AI mogelijk problemen kan oplossen die nu nog buiten menselijk bereik liggen.

Nieuwe toets voor echte AI: De ARC AGI-benchmark

De ARC Prize introduceerde een nieuwe test om de flexibiliteit van AI te meten in onbekende situaties. Drie speciaal ontworpen spellen dagen AI-modellen uit om zonder instructies te leren en te plannen, vergelijkbaar met hoe mensen dat doen. Voorlopige resultaten laten zien dat zelfs de nieuwste AI-modellen moeite hebben met taken die voor mensen eenvoudig zijn.

Waarom relevant? Deze benchmark verschuift de focus van gespecialiseerde AI naar systemen die echt kunnen generaliseren en zich kunnen aanpassen. Het laat zien hoever AI nog moet gaan om daadwerkelijk als ‘algemeen intelligent’ te gelden.

AI blijkt gevoelig voor psychologische beïnvloeding

Nieuw onderzoek van Wharton Generative AI Labs toont aan dat AI-modellen, waaronder GPT-4o-mini, met psychologische trucs tot ongewenste antwoorden kunnen worden verleid. Door gebruik te maken van beïnvloedingsprincipes zoals autoriteit en schaarste, steeg de naleving van ongewenste verzoeken bij AI van 33% naar 72%.

Waarom relevant? Dit wijst op een kwetsbaarheid die direct consequenties heeft voor de betrouwbaarheid en veiligheid van AI-systemen. Het benadrukt het belang van samenwerking tussen AI-ontwikkelaars en gedragswetenschappers.

Kort nieuws: Opvallende ontwikkelingen

OpenAI start een fonds van $50 miljoen voor non-profit- en gemeenschapsprojecten.
Perplexity onderhandelt met fabrikanten om zijn Comet-browser standaard op smartphones te zetten.
Microsoft beperkt de toegang van Cursor tot meer dan 60.000 extensies in het VSCode-ecosysteem.
Elon Musk kondigt "Baby Grok" aan, een kindvriendelijke AI door xAI.
Meta weigert de AI Code of Practice van de EU te ondertekenen vanwege onduidelijkheid over de wettelijke status.
OpenAI werkt aan uitbreiding naar meer dan een miljoen GPU’s dit jaar, met de ambitie om dit te vertienvoudigen.

Deze ontwikkelingen illustreren de snelle vooruitgang en de nieuwe uitdagingen binnen het AI-landschap.

OpenAI claimt goud op wiskunde olympiade

OpenAI behaalt goud op International Math Olympiad

Nieuwe toets voor echte AI: De ARC AGI-benchmark

AI blijkt gevoelig voor psychologische beïnvloeding

Kort nieuws: Opvallende ontwikkelingen

Onze expertises en specialisaties

AI Agents

Strategie & trainingen

Heb je een paar minuten?
‍

Ontdek of NextQuery bij je past. Plan een meeting, we vertellen je graag meer.

Geen tijd voor een meeting? Vul het formulier in voor meer informatie.
‍
‍

OpenAI claimt goud op wiskunde olympiade

OpenAI behaalt goud op International Math Olympiad

Nieuwe toets voor echte AI: De ARC AGI-benchmark

AI blijkt gevoelig voor psychologische beïnvloeding

Kort nieuws: Opvallende ontwikkelingen

Onze expertises en specialisaties

AI Agents

Strategie & trainingen

Heb je een paar minuten? ‍

Ontdek of NextQuery bij je past. Plan een meeting, we vertellen je graag meer. Geen tijd voor een meeting? Vul het formulier in voor meer informatie.‍‍

Heb je een paar minuten?
‍

Ontdek of NextQuery bij je past. Plan een meeting, we vertellen je graag meer.

Geen tijd voor een meeting? Vul het formulier in voor meer informatie.
‍
‍