Дослідники розробили математичний тест, який жоден штучний інтелект ще не зміг успішно подолати.

Наука

FrontierMath став реальним випробуванням для ChatGPT та Gemini.

Здається, що до досягнення технологічної сингулярності ми ще не близькі. Науковці з Epoch AI презентували новий математичний бенчмарк під назвою FrontierMath, з яким навіть найсучасніші штучні інтелекти поки що не можуть впоратися.

FrontierMath охоплює велику кількість надскладних математичних виразів. Моделі, такі як Claude 3.5 Sonnet, GPT-4o, o1-preview та Gemini 1.5 Pro, справляються з менше ніж двома відсотками завдань. При цьому під час тестування штучний інтелект має повний доступ до середовища Python, що дозволяє йому виконувати обчислення та налагоджувати код. Для порівняння, у старіших бенчмарках, таких як GSM8K або MATH, моделі демонструють успішність у вирішенні понад 90% задач.

Основною характеристикою FrontierMath є те, що всі запропоновані завдання є абсолютно новими і раніше не були опубліковані в інших джерелах. Це означає, що нейромережі не мали можливості заздалегідь навчитися вирішувати такі вирази.

Як видно на графіку, найпродуктивнішою моделлю виявилася Gemini 1.5 Pro, але навіть вона змогла розв'язати менше ніж 2% завдань. Головним аутсайдером стала LLM від Ілона Маска Grok 2 Beta, яка зараз тестується у Twitter, вона не змогла розв'язати жодного рівняння.

Для розробки тесту FrontierMath було залучено 60 математиків з університетів з різних куточків світу. Завдання, що входять до бенчмарку, охоплюють широкий спектр тем, включаючи теорію чисел і алгебраїчну геометрію. Фахівцям може знадобитися кілька днів, щоб знайти розв'язання хоча б одного з цих завдань.

Раніше ми згадували, що Сем Альтман, генеральний директор OpenAI, висловив думку про те, що протягом найближчих п'яти років людство зможе розробити штучний інтелект, який матиме самосвідомість.

Ілон Маск Математика Штучний інтелект Університет Twitter Людство Тестування Бенчмарк (обчислення)ChatGPT Технологічна сингулярність Python (мова програмування)OpenAI Магістр права Теорія чисел Математик Штучна нейронна мережа Геометрія

Поліція викрила інтернет-шахрая, що продавав фальсифіковані гаджети під іменами відомих брендів.

Наступ ЗСУ на Курську область збільшує тиск на США з метою одержання дозволу на удари далекобійною зброєю по території Росії, - AP

У Нікополі внаслідок обстрілу російськими військами загинула жінка, ще п'ятеро осіб отримали поранення.

Дослідники розробили математичний тест, який жоден штучний інтелект ще не зміг успішно подолати.

Related posts

Поліція викрила інтернет-шахрая, що продавав фальсифіковані гаджети під іменами відомих брендів.

Наступ ЗСУ на Курську область збільшує тиск на США з метою одержання дозволу на удари далекобійною зброєю по території Росії, - AP

У Нікополі внаслідок обстрілу російськими військами загинула жінка, ще п'ятеро осіб отримали поранення.

Війська Росії здійснили авіаудар безпілотником по автомобілю в Куп'янську, внаслідок чого постраждала одна особа.

Кінологія – це справжнє мистецтво, подібне до ювелірної майстерності.

Учнів в умовах окупації змусили створювати малюнки зі словами вітання для північнокорейських військових — ЦНС.