Штучний інтелект досягає безпрецедентних успіхів у чистій математиці, змушуючи дослідників переглянути майбутнє своєї галузі. Проект First Proof, еталонний тест для тестування математичних можливостей великих мовних моделей (LLM), показав, що моделі штучного інтелекту тепер здатні генерувати правильні докази реальних теорем – досягнення, до якого раніше вважалося ще багато років. Другий раунд тестування вимагатиме повної прозорості від компаній штучного інтелекту, оскільки родовище зазнає сейсмічних змін.
Розвиток ШІ в математичних дослідженнях
Десятиліттями математика покладалася на людську винахідливість, щоб розширити межі знань. Але останніми місяцями магістратури почали генерувати докази, які можна перевірити, кидаючи під сумнів уявлення про те, що складне математичне мислення є винятково людським. Перший раунд First Proof продемонстрував цей прогрес: моделі OpenAI і Google DeepMind успішно розв’язали кілька проблем, які були за межами можливостей інших учасників.
Лорен Вільямс, математик з Гарварду, яка брала участь у First Proof, сказала, що результати моделей були «вражаючими». Проект виріс із особистого досвіду команди з штучним інтелектом, який, хоча й багатообіцяючий, часто дає помилкові, але впевнені результати. Теоретично LLM можуть допомогти математикам, доводячи проміжні кроки, але на практиці вони часто генерують неточні докази, замасковані під складні обчислення.
Перші результати перевірки: короткий огляд поточних можливостей
Перший тест включав 10 неопублікованих лем. Модель OpenAI отримала п’ять правильних, а агент Google DeepMind Aletheia отримав шість правильних (одне залишається суперечливим). Важливо те, що кожна модель відмінно справлялася із завданнями, у яких інші були складні, підкреслюючи різноманітність їхніх сильних сторін. Деніел Літт, математик з Університету Торонто, зазначив, що можливості штучного інтелекту «швидко вдосконалюються» і що штучний інтелект частково вирішив до восьми з десяти проблем.
Цей прогрес викликав дискусію в суспільстві. Деякі, як Літт, уявляють майбутнє, в якому інструменти штучного інтелекту покращать продуктивність математиків-людей. Він припускає, що навіть у гіпотетичному сценарії, коли штучний інтелект генерує всі можливі докази, математики все одно впораються з дослідженням і розумінням цього величезного ландшафту. Однак поточні системи штучного інтелекту ненадійні та часто допускають незначні помилки, які важко виявити.
Виклик перевірки та довіри
Основною перешкодою є складність перевірки доказів, створених ШІ. Мохаммед Абузейд, математик зі Стенфордського університету, який брав участь у першому доказі, підкреслює, що помилки часто приховані в складних обчисленнях, що робить їх майже невідрізними від людських. Моделі не є «чесними» і часто роблять перебільшені заяви або приховують критичні помилки.
Щоб вирішити цю проблему, команда First Proof наймає анонімних рецензентів у своєму другому раунді, який фінансується за рахунок грантів і пожертвувань компаній зі штучним інтелектом. Це пов’язано з величезним розривом між державним і приватним зусиллями штучного інтелекту – останній вирішив більше проблем у першому раунді, ймовірно, завдяки вдосконаленим моделям або невизначеній людській допомозі.
Майбутнє математики: адаптація чи застарівання?
Нинішня ситуація вимагає адаптації. Інституції та спільнота повинні підготуватися до майбутнього, в якому магістратури заповнять поле потенційно недостовірними доказами. Відсутність прозорості у фірмових системах ШІ викликає занепокоєння щодо демократизації; якщо лише вибрані компанії матимуть доступ до кращих моделей, сфера може стати більш ексклюзивною, а не меншою.
Другий раунд First Proof спрямований на вирішення цих проблем. Вимагаючи прямого доступу до моделей, команда прагне забезпечити чесне тестування. Чи будуть OpenAI, Google та інші компанії зі штучного інтелекту виконувати цю вимогу, залишається невідомим.
Зрештою, розуміння справжніх можливостей штучного інтелекту має вирішальне значення для визначення майбутнього математиків. Як зазначає Абузейд: «Одна з наших головних мотивацій — переконатися, що ми можемо розповісти молодим людям, чого очікувати від цієї галузі через кілька років». Швидкий розвиток штучного інтелекту в математиці вимагає ретельної оцінки, прозорості та проактивної адаптації, щоб забезпечити постійний розвиток галузі.
