Дослідники розробили математичний тест, який жоден штучний інтелект ще не зміг успішно подолати.
FrontierMath став реальним випробуванням для ChatGPT та Gemini.
Здається, що до досягнення технологічної сингулярності ми ще не близькі. Науковці з Epoch AI презентували новий математичний бенчмарк під назвою FrontierMath, з яким навіть найсучасніші штучні інтелекти поки що не можуть впоратися.
FrontierMath охоплює велику кількість надскладних математичних виразів. Моделі, такі як Claude 3.5 Sonnet, GPT-4o, o1-preview та Gemini 1.5 Pro, справляються з менше ніж двома відсотками завдань. При цьому під час тестування штучний інтелект має повний доступ до середовища Python, що дозволяє йому виконувати обчислення та налагоджувати код. Для порівняння, у старіших бенчмарках, таких як GSM8K або MATH, моделі демонструють успішність у вирішенні понад 90% задач.
Основною характеристикою FrontierMath є те, що всі запропоновані завдання є абсолютно новими і раніше не були опубліковані в інших джерелах. Це означає, що нейромережі не мали можливості заздалегідь навчитися вирішувати такі вирази.
Як видно на графіку, найпродуктивнішою моделлю виявилася Gemini 1.5 Pro, але навіть вона змогла розв'язати менше ніж 2% завдань. Головним аутсайдером стала LLM від Ілона Маска Grok 2 Beta, яка зараз тестується у Twitter, вона не змогла розв'язати жодного рівняння.
Для розробки тесту FrontierMath було залучено 60 математиків з університетів з різних куточків світу. Завдання, що входять до бенчмарку, охоплюють широкий спектр тем, включаючи теорію чисел і алгебраїчну геометрію. Фахівцям може знадобитися кілька днів, щоб знайти розв'язання хоча б одного з цих завдань.
Раніше ми згадували, що Сем Альтман, генеральний директор OpenAI, висловив думку про те, що протягом найближчих п'яти років людство зможе розробити штучний інтелект, який матиме самосвідомість.