Kunstmatige intelligentie maakt een ongekende doorbraak in de pure wiskunde, waardoor onderzoekers gedwongen worden de toekomst van hun vakgebied opnieuw te evalueren. Het First Proof-project, een benchmark voor het testen van de wiskundige capaciteiten van LLM’s, heeft onthuld dat AI-modellen nu in staat zijn geldige bewijzen te genereren voor stellingen uit de echte wereld – een prestatie waarvan eerder werd gedacht dat deze nog jaren op zich zou laten wachten. De komende tweede testronde zal volledige transparantie van AI-bedrijven vereisen, aangezien het veld voor een paradigmaverschuiving staat.

De opkomst van AI in wiskundig onderzoek

Decennia lang vertrouwde de wiskunde op menselijk vernuft om de grenzen van kennis te verleggen. Maar de afgelopen maanden zijn LLM’s begonnen met het genereren van verifieerbare bewijzen, waarmee ze het idee ter discussie stellen dat complex wiskundig redeneren uniek menselijk is. De eerste ronde van First Proof demonstreerde deze vooruitgang, waarbij modellen van OpenAI en Google DeepMind met succes meerdere problemen oplosten die andere deelnemers verbijsterden.

Lauren Williams, een wiskundige van Harvard die betrokken was bij First Proof, noemde de prestaties van de modellen ‘behoorlijk indrukwekkend’. Het project kwam voort uit de eigen ervaringen van het team met AI, die, hoewel veelbelovend, vaak gebrekkige maar zelfverzekerde resultaten opleveren. LLM’s kunnen wiskundigen theoretisch helpen door tussenstappen te bewijzen, maar in de praktijk genereren ze vaak onnauwkeurige bewijzen, vermomd in complexe berekeningen.

De eerste proefresultaten: een momentopname van de huidige mogelijkheden

De eerste test omvatte 10 ongepubliceerde lemma’s. Het model van OpenAI bewees er terecht vijf, terwijl de Aletheia-agent van Google DeepMind er zes oploste (hoewel één resultaat betwist blijft). Opvallend is dat elk model uitblonk in de problemen waarmee het andere model worstelde, wat de diversiteit van hun sterke punten benadrukte. Daniel Litt, een wiskundige aan de Universiteit van Toronto, merkte op dat de mogelijkheden van AI ‘heel snel verbeteren’, waarbij maar liefst acht van de tien problemen gedeeltelijk door AI worden opgelost.

Deze vooruitgang heeft geleid tot discussie binnen het veld. Sommigen, zoals Litt, stellen zich een toekomst voor waarin AI-hulpmiddelen de productiviteit van menselijke wiskundigen vergroten. Hij stelt dat zelfs in een hypothetisch scenario waarin AI’s alle mogelijke bewijzen genereren, wiskundigen nog steeds zouden gedijen door dit uitgestrekte landschap te verkennen en te begrijpen. De huidige AI-systemen zijn echter onbetrouwbaar en maken vaak subtiele fouten die moeilijk te detecteren zijn.

De uitdaging van verificatie en vertrouwen

De moeilijkheid bij het verifiëren van door AI gegenereerde bewijzen is een aanzienlijk obstakel. Mohammed Abouzaid, een wiskundige uit Stanford die betrokken is bij First Proof, benadrukt dat fouten vaak verborgen blijven in complexe berekeningen, waardoor ze bijna niet te onderscheiden zijn van menselijke fouten. De modellen zijn niet ‘eerlijk’ en presenteren vaak overdreven beweringen of verbergen kritische fouten.

Om dit aan te pakken zal het First Proof-team voor de tweede ronde anonieme reviewers inhuren, gefinancierd door subsidies en donaties van AI-bedrijven. Dit is een reactie op een flagrante kloof tussen publieke en private AI-inspanningen – de laatste loste in de eerste ronde meer problemen op, waarschijnlijk als gevolg van verbeterde modellen of geheime menselijke hulp.

De toekomst van de wiskunde: aanpassing of veroudering?

De huidige situatie vraagt ​​om aanpassing. Instellingen en de beroepsgroep moeten zich voorbereiden op een toekomst waarin LLM’s het veld overspoelen met potentieel gebrekkige bewijzen. Het gebrek aan transparantie in propriëtaire AI-systemen roept zorgen op over de democratisering; als alleen geselecteerde bedrijven toegang hebben tot superieure modellen, zou het vakgebied exclusiever kunnen worden, niet minder.

De tweede ronde van het Eerste Bewijs is bedoeld om deze problemen op te lossen. Door directe toegang tot modellen te eisen, wil het team eerlijke tests garanderen. Of OpenAI, Google en andere AI-bedrijven hieraan zullen voldoen, blijft onzeker.

Uiteindelijk is het begrijpen van de ware mogelijkheden van AI van cruciaal belang voor het begeleiden van toekomstige wiskundigen. Zoals Abouzaid stelt: “Een van onze belangrijkste motivaties is ervoor te zorgen dat we jongeren kunnen vertellen hoe we verwachten dat het vakgebied er over een paar jaar uit zal zien.” De snelle evolutie van AI in de wiskunde vereist zorgvuldige evaluatie, transparantie en proactieve aanpassing om de voortdurende vooruitgang van het vakgebied te garanderen.