16.04.2025, 11:46

MC-Bench: удивительный бенчмарк, оценивающий ИИ в Minecraft

⬇ Скачать MC-Bench: удивительный бенчмарк, оценивающий ИИ в Minecraft ⬇

Поскольку традиционные методы оценки эффективности искусственного интеллекта демонстрируют свои ограничения, некоторые разработчики изучают более креативные подходы. А какой способ сделать это лучше, чем Minecraft?

Оригинальный сайт под названием Minecraft Benchmark (или MC-Bench ) позволяет нескольким ИИ решать строительные задачи, основанные на текстовых инструкциях. Ваша роль? Ознакомьтесь с предложенными творениями и проголосуйте за то, которое лучше всего соответствует инструкциям. Только после голосования вы узнаете, какая модель произвела ту или иную сборку.

Проект, инициированный учеником средней школы

За этим проектом стоит Ади Сингх , старшеклассник, для которого Minecraft — это нечто большее, чем просто игра. Для него это универсальный визуальный язык. Minecraft — самая продаваемая игра в мире, известная очень широкой аудитории. Даже не играя на нем ни разу, можно легко оценить, насколько хорошо сделан «блок-ананас» или нет.

«Minecraft упрощает визуализацию прогресса ИИ», — рассказал Сингх TechCrunch . «Его эстетика и атмосфера уже всем известны.»

В настоящее время в улучшении сайта принимают участие восемь добровольцев. Такие компании, как Anthropic , Google , OpenAI и Alibaba , поддерживают проект, предоставляя свои технологии для запуска подсказок, но не принимая непосредственного участия в его разработке.

Построение для лучшей оценки

MC-Bench не просто сравнивает изображения: на самом деле это программный тест , поскольку модели должны генерировать код для создания игровых конструкций. Это могут быть как простые фигурки, такие как снеговик Фрости, так и более сложные сцены, например, тропическая хижина на нетронутом пляже .

Но вместо анализа строк кода пользователи оценивают результаты визуально, что делает процесс гораздо более доступным. Именно эта доступность позволяет MC-Bench собирать большой объем данных о сравнительной производительности ИИ.

«Пока что мы ограничиваемся простыми конструкциями, в основном для того, чтобы увидеть, как далеко мы продвинулись со времен GPT-3», — говорит Сингх. «Но в долгосрочной перспективе мы могли бы представить себе более продолжительные задачи с целями для достижения. Видеоигры вполне могут стать идеальным полигоном для тестирования автономного мышления, более безопасным и более контролируемым, чем в реальном мире».

Сложное искусство бенчмаркинга

И действительно, первые результаты, полученные на MC-Bench, говорят сами за себя. Рейтинг основан на системе оценок ELO, которая рассчитывается на основе тысяч анонимных голосов, где каждый ИИ оценивается вслепую, исключительно по визуальному качеству его конструкций.

Возглавляет этот список Claude 3.7 Sonnet с результатом 1339 и впечатляющим процентом побед 84,4% . Он явно опережает Gemini 2.5 Pro Experimental (1284 балла, 76,1%) и Optimus-Alpha (1271 балл, 81,4%). Напротив, последняя версия ChatGPT, получившая название GPT-4o (март 2025 г.), занимает лишь 8-е место с результатом 1123 и показателем побед 62,5%, уступая своему предшественнику GPT-4.5 Preview (70,8%). Даже более старый «Сонет Клода 3.5» звучит лучше.

Эти результаты, хотя и экспериментальные, рисуют неожиданную картину современного ландшафта генеративного ИИ: некоторые модели, которые очень хороши в обработке языка, не способны преобразовывать простые инструкции в связные визуальные творения в Minecraft.

«Текущие рейтинги довольно точно отражают мои личные чувства по поводу этих моделей», — говорит он. «В отличие от других текстовых тестов, этот может действительно помочь понять, движется ли компания в правильном направлении».

Рейтинг: 5.0 (1 голос) Жанр: Новости Майнкрафт