Готов ли ИИ заменить собой офисных клерков? Microsoft провёл опыт


Корпорация Microsoft, заинтересованная в продвижении роботов с искусственным интеллектом, решила доказать, что они уже способны с успехом выполнять всё, что делает в офисе человек. И — опростоволосилась.

Что сделали эксперты Microsoft? Они собрали бенчмарк (то есть — тестовый вариант) под названием DELEGATE-52: 52, позволяющий проверить, насколько хорошо современные большие языковые модели справляются с рутинной офисной работой

 

Модели прогоняли через одну и ту же задачу: 20 раз подряд редактировать один и тот же документ, как делал бы живой сотрудник в течение рабочего дня.

 

Целью было — узнать, что останется от исходного документа к концу цепочки правок.

 

Результат неприятно их шокировал. С ним внимательно стоит ознакомиться всем горячим поклонникам чат-ботов, которые уверены, что можно сидеть и плевать в потолок, пока те пишут за них статью, курсовую или дипломную, а то и научную книгу.

 

Нейросети справились с задачей из рук вон плохо. У флагманских моделей — то есть, у самых знаменитых и популярных Gemini 3.1 Pro, Claude 4.6 Opus, GPT-5.4 к концу терялась в среднем четверть (25%) содержимого документа. А в целом по всем моделям сразу получалось — 50%.

 

Лучшая из всех, Gemini 3.1 Pro (разработка компании Google) оказалась пригодна для работы только в 11 профессиях из 52.

 

Самое примечательное — это индивидуальные ошибки разных моделей. Оказалось, что слабые модели тупо стирают куски текста, а сильные поступают ещё хуже: они тихо подменяют цифры, даты, формулировки, важные оговорки. В итоге документ выглядит неплохо, но его категорически нельзя использовать, он полон фальшивой информацией.

 

Поневоле вспоминается выражение Натальи Касперской, одного из лучших в России специалистов по ИТ-безопасности. Объясняя, почему она не дала интервью одной журналистке, Касперская сказала: «Потому что она галлюцинирует, как чат джи-пи-ти».

 

Возвращаясь к эксперименту: когда моделям улучшили условия для работы и дали полноценные инструменты (доступ к файлам, выполнение кода), они заработали ещё хуже (на 6%). Что неудивительно: чем больше информации, тем больше возможностей для искусственных фантазий.

 

Забавно, что на днях прошёл совсем другой эксперимент, где человек соревновался с роботом в физической работе. И — тоже выиграл.

 

Провёл этот опыт стартап Figure, который уже шестые сутки ведёт сейчас круглосуточный стрим, где их роботы F.03 разбирают посылки в реальном складском режиме. Трое роботов по имени Гэри, Боб и Фрэнк сменяют друг друга, сами уходят на зарядку и сами возвращаются. У стрима уже больше 10 миллионов просмотров. Кстати, вы тоже можете полюбоваться, как они работают прямо сейчас, заглянув вот на этот адрес.

 

Так вот, на пятые сутки к конвейеру встал живой человек – стажёр компании. Он выполнял ту же задачу, что и робот: ловил посылку и клал штрих-кодом вниз на ленту. За 10 часов робот отсортировал 12 732 посылки со скоростью 2,83 секунды на штуку. Тогда как человек — 12 924 посылок со скоростью 2,79.

 

При этом на пятом часу робот вырвался вперёд, пока стажёр был в туалете. Но потом с тажёр вернулся и отыграл отставание. Правда, к концу смены у него уже были волдыри на пальцах.

 

Тем не менее, факт: даже в такой примитивной работе представитель людского племени опередил робота на четыре сотые секунды.

 

Впрочем, компания Figure не смутилась и прокомментировала поражение так: «Это был последний раз, когда человек обогнал нашу машину».

 

О чём всё это говорит? О том, что в физическом труде роботы, несомненно, заменят человека — и это замечательно. Физический труд тяжёл, туп (если речь идёт о работе на конвейере), утомителен.

 

А вот что касается умственного труда, то тут пока даже не подходит формулировка «доверяй, но проверяй». Доверять ИИ нельзя категорически. А проверять за ними надо даже те задачи, решение которых не тянет за собой личной ответственности.