Umělá inteligence dělá nebývalé pokroky v čisté matematice a nutí výzkumníky, aby přehodnotili budoucnost svého oboru. Project First Proof, benchmark pro testování matematických schopností velkých jazykových modelů (LLM), ukázal, že modely umělé inteligence jsou nyní schopny generovat správné důkazy reálných teorémů – úspěch, který byl dříve považován za roky vzdálený. Druhé kolo testování bude vyžadovat plnou transparentnost od společností AI, protože pole prochází seismickým posunem.
Vzestup umělé inteligence v matematickém výzkumu
Matematika se po desetiletí spoléhá na lidskou vynalézavost, aby posunula hranice poznání. V posledních měsících však LLM začaly generovat testovatelné důkazy, které zpochybňují představu, že komplexní matematické myšlení je jedinečně lidské. První kolo First Proof demonstrovalo tento pokrok: modely od OpenAI a Google DeepMind úspěšně vyřešily několik problémů, které byly mimo možnosti ostatních účastníků.
Lauren Williamsová, harvardská matematička, která se účastnila First Proof, řekla, že výsledky modelů byly „působivé“. Projekt vyrostl z osobních zkušeností týmu s umělou inteligencí, která, i když slibná, často přináší chybné, ale sebevědomé výsledky. Teoreticky mohou LLM pomoci matematikům dokazováním mezikroků, ale v praxi často generují nepřesné důkazy maskované jako složité výpočty.
Výsledky prvního důkazu: Snímek aktuálních příležitostí
První test obsahoval 10 nepublikovaných lemmat. Model OpenAI má pět správných a agent Aletheia společnosti Google DeepMind má šest správných (jedna zůstává kontroverzní). Důležité je, že každý model exceloval v úkolech, kde se ten druhý potýkal s problémy, což zvýrazňovalo rozmanitost jejich silných stránek. Daniel Litt, matematik z University of Toronto, poznamenal, že schopnosti umělé inteligence se „rychle zlepšují“ a že umělá inteligence částečně vyřešila až osm z deseti problémů.
Tento pokrok vyvolal v komunitě diskusi. Někteří, jako Litt, si představují budoucnost, ve které nástroje umělé inteligence zlepší produktivitu lidských matematiků. Navrhuje, že i v hypotetickém scénáři, kde umělá inteligence generuje všechny možné důkazy, by si matematici stále dobře vedli při prozkoumávání a pochopení této obrovské krajiny. Současné systémy umělé inteligence jsou však nespolehlivé a často dělají drobné chyby, které je těžké odhalit.
Výzva ověřování a důvěry
Obtížnost ověřování důkazů generovaných AI je hlavní překážkou. Mohammed Abuzaid, matematik ze Stanfordu, který se podílel na First Proof, zdůrazňuje, že chyby jsou často skryté ve složitých výpočtech, díky čemuž jsou téměř k nerozeznání od lidských chyb. Modelky nejsou „čestné“ a často prohlašují přehnaná tvrzení nebo skrývají kritické chyby.
Aby tým First Proof tento problém vyřešil, najímá ve svém druhém kole anonymní recenzenty financované z grantů a darů od společností AI. To je způsobeno obrovským rozdílem mezi veřejným a proprietárním úsilím AI – to druhé vyřešilo více problémů v prvním kole, pravděpodobně díky vylepšeným modelům nebo blíže nespecifikované lidské pomoci.
Budoucnost matematiky: Adaptace nebo zastaralost?
Současná situace vyžaduje přizpůsobení. Instituce a komunita se musí připravit na budoucnost, ve které LLM zaplaví pole potenciálně chybnými důkazy. Nedostatek transparentnosti v proprietárních systémech umělé inteligence vyvolává obavy z demokratizace; pokud by pouze vybrané společnosti měly přístup k lepším modelům, oblast by se mohla stát exkluzivnější, nikoli menší.
Druhé kolo First Proof si klade za cíl tyto problémy řešit. Požadováním přímého přístupu k modelům se tým snaží zajistit spravedlivé testování. Zda OpenAI, Google a další společnosti AI tento požadavek splní, zůstává nejisté.
Pochopení skutečných schopností umělé inteligence je nakonec rozhodující pro určení budoucnosti matematiků. Jak říká Abouzaid: „Jednou z našich hlavních motivací je zajistit, abychom mohli mladým lidem sdělit, co mohou od tohoto oboru za pár let očekávat.“ Rychlý rozvoj umělé inteligence v matematice vyžaduje pečlivé hodnocení, transparentnost a proaktivní adaptaci, aby byl zajištěn neustálý pokrok v této oblasti.




















