L’intelligence artificielle fait des percées sans précédent dans les mathématiques pures, obligeant les chercheurs à réévaluer l’avenir de leur domaine. Le projet First Proof, une référence pour tester les capacités mathématiques des LLM, a révélé que les modèles d’IA sont désormais capables de générer des preuves valides pour des théorèmes du monde réel – un exploit que l’on pensait auparavant attendre dans des années. La deuxième série de tests à venir exigera une transparence totale de la part des entreprises d’IA, alors que le domaine est confronté à un changement de paradigme.
L’essor de l’IA dans la recherche mathématique
Pendant des décennies, les mathématiques se sont appuyées sur l’ingéniosité humaine pour repousser les limites de la connaissance. Mais ces derniers mois, les LLM ont commencé à produire des preuves vérifiables, remettant en question l’idée selon laquelle le raisonnement mathématique complexe est uniquement humain. La première série de First Proof a démontré ces progrès, avec des modèles d’OpenAI et de Google DeepMind résolvant avec succès plusieurs problèmes qui ont déconcerté les autres participants.
Lauren Williams, une mathématicienne de Harvard impliquée dans First Proof, a qualifié les performances des modèles de « assez impressionnantes ». Le projet est né des propres expériences de l’équipe avec l’IA, qui, bien que prometteuse, produit souvent des résultats imparfaits mais confiants. Les LLM peuvent théoriquement aider les mathématiciens en prouvant les étapes intermédiaires, mais en pratique, ils génèrent fréquemment des preuves inexactes masquées par des calculs complexes.
Les premiers résultats de la preuve : un aperçu des capacités actuelles
Le test initial portait sur 10 lemmes inédits. Le modèle d’OpenAI en a correctement prouvé cinq, tandis que l’agent Aletheia de Google DeepMind en a résolu six (bien qu’un résultat reste contesté). Notamment, chaque modèle a excellé dans la résolution des problèmes avec lesquels l’autre était aux prises, soulignant la diversité de leurs atouts. Daniel Litt, mathématicien à l’Université de Toronto, a observé que les capacités de l’IA « s’améliorent très rapidement », avec jusqu’à huit problèmes sur dix partiellement résolus par l’IA.
Ces progrès ont suscité un débat dans le domaine. Certains, comme Litt, envisagent un avenir dans lequel les outils d’IA amélioreraient la productivité des mathématiciens humains. Il propose que même dans un scénario hypothétique où les IA génèrent toutes les preuves possibles, les mathématiciens prospéreraient toujours en explorant et en comprenant ce vaste paysage. Cependant, les systèmes d’IA actuels ne sont pas fiables et commettent fréquemment des erreurs subtiles difficiles à détecter.
Le défi de la vérification et de la confiance
La difficulté de vérifier les preuves générées par l’IA constitue un obstacle important. Mohammed Abouzaid, un mathématicien de Stanford impliqué dans First Proof, souligne que les erreurs sont souvent enfouies dans des calculs complexes, les rendant presque impossibles à distinguer des erreurs humaines. Les modèles ne sont pas « honnêtes », présentant souvent des affirmations exagérées ou cachant des erreurs critiques.
Pour résoudre ce problème, l’équipe First Proof embauchera des évaluateurs anonymes pour le deuxième tour, financés par des subventions et des dons d’entreprises d’IA. Ceci est une réponse à un écart flagrant entre les efforts publics et privés en matière d’IA : ces derniers ont résolu davantage de problèmes dès le premier tour, probablement en raison de modèles améliorés ou d’une assistance humaine non divulguée.
L’avenir des mathématiques : adaptation ou obsolescence ?
La situation actuelle exige une adaptation. Les établissements et la profession doivent se préparer à un avenir dans lequel les LLM inondent le domaine de preuves potentiellement erronées. Le manque de transparence des systèmes d’IA propriétaires suscite des inquiétudes quant à la démocratisation ; Si seules certaines entreprises avaient accès à des modèles supérieurs, le domaine pourrait devenir plus exclusif, pas moins.
Le deuxième cycle de Première Preuve est conçu pour résoudre ces problèmes. En exigeant un accès direct aux modèles, l’équipe vise à garantir des tests équitables. Il reste incertain si OpenAI, Google et d’autres sociétés d’IA s’y conformeront.
En fin de compte, comprendre les véritables capacités de l’IA est essentiel pour guider les futurs mathématiciens. Comme le déclare Abouzaid : « L’une de nos principales motivations est de pouvoir dire aux jeunes à quoi nous attendons que le domaine ressemble dans quelques années. » L’évolution rapide de l’IA en mathématiques exige une évaluation minutieuse, de la transparence et une adaptation proactive pour garantir les progrès continus du domaine.




















