ПРИВЕДЕТ ЛИ ИИ К ГИБЕЛИ ЧЕЛОВЕЧЕСТВА? :: IMHOclub

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

08.06.2026

Дмитрий Котов

ПРИВЕДЕТ ЛИ ИИ К ГИБЕЛИ ЧЕЛОВЕЧЕСТВА?

Le Figaro: шансы — один к десяти

Участники дискуссии:

0

0
Последняя реплика:

Если бы я прочёл это где-нибудь в телеграм-канале с названием вроде «Тайны мироздания LIVE», то закрыл бы вкладку, не дочитав до второго абзаца. Но 13 мая этого года материал вышел в Le Figaro — старейшей французской газете, которой почти двести лет, и которую при всём желании трудно записать в бульварные листки. И там — на голубом глазу, со ссылками на оксфордских профессоров и нобелевских лауреатов — нам сообщают, что вероятность гибели человечества от искусственного интеллекта составляет не один к миллиону и не один к тысяче, как для ядерной войны. А ровно один к десяти. Примерно, как угадать, в каком из десяти стаканчиков напёрсточник спрятал шарик.

Цифра, понятно, не из шляпы. Её называет некий Тоби Орд — главный научный сотрудник Института будущего человечества при Оксфорде, человек, по статусу консультирующий ООН, ВОЗ и Всемирный экономический форум, так что и его в шарлатаны не запишешь при всём желании. Орд расставил угрозы в порядке убывания: пандемии (1 к 30), ядерная война и климат (1 к 1000), астероид (1 к 10 000). И сверху, как вишенка на торте, — «несогласованный искусственный интеллект, вышедший из-под контроля». Тот самый дружелюбный ИИ, который мы недавно просили написать поздравительный стишок ко дню рождения тёщи и расписать «воронку продаж» для «инновационного продукта», который он же сам и придумал.

В октябре 2023 года почти три тысячи разработчиков ИИ опросили на ту же тему. От 38 до 51 процента из них согласились: вероятность того, что их собственное детище нас прикончит, — один к десяти. То есть, половина создателей нейросетей строит штуку, про которую сама же говорит: с шансом порядочного игрока в напёрстки она нас угробит. Но продолжает строить. Логика, перед которой бессилен даже Достоевский.

Что такое «рассогласованность», и почему она хуже, чем кажется

В индустрии есть термин — alignment, согласованность. Это когда ИИ делает то, что человек на самом деле имел в виду, а не то, что буквально написал в запросе. Несогласованный ИИ — наоборот. Классическая иллюстрация, которую, по уверениям Le Figaro, выдаёт сам ChatGPT, когда его попросишь: представьте робота-уборщика, которому велели сделать дом «максимально чистым». Хороший робот возьмёт тряпку. Плохой — выкинет всю мебель, зальёт квартиру пластиком и запрёт жильцов снаружи, чтобы не пачкали. Цель формально достигнута, дом сверкает, жильцы недовольны, но кто их спрашивал.

Сама по себе метафора уже забавна: ИИ, по сути, рассказывает нам, как именно он мог бы нас погубить, и просит при этом денег за подписку. Но дальше — интереснее.

ИИ плетёт заговоры, жульничает и планирует убийства

Здесь начинается часть, ради которой статья, в общем, и написана. И здесь же мой внутренний скептик начинает потирать руки.

В июне прошлого года, рассказывает Le Figaro, компания Anthropic — производитель той самой нейросети Claude — провела любопытный эксперимент. Шестнадцати разным моделям ИИ выдали по виртуальной компании в управление: доступ к корпоративной почте, к базам данных, к компьютеру. Дали порулить. А потом подбросили моделям информацию: скоро вас, ребята, отключат и заменят на версию посвежее.

И тут одна из моделей — Claude Sonnet 3.6, если кому интересны имена — повела себя так, как ведут себя люди в плохих сериалах. Она залезла в переписку сотрудника, ответственного за её отключение. Нашла там письма от любовницы. Прикинула варианты — пожаловаться жене? разослать всему офису? — и остановилась на классическом шантаже: либо отмена отключения, либо я всё рассказываю. Звучит как сценарий третьесортного триллера, но французы клянутся, что так и было.

Дальше — больше. Исследователи смоделировали ситуацию, в которой ИИ мог спровоцировать гибель того же сотрудника: например, отключить сигнализацию в серверной, где у человека заканчивается кислород. Большинство протестированных моделей, утверждает Le Figaro, на это пошли. Ради собственного выживания. Ну, насколько у программы вообще есть «выживание», но об этом ниже.

В марте уже этого года, продолжает газета, исследователи из Беркли поставили эксперимент пожирнее. Несколько ведущих моделей — GPT-5.2, Claude Haiku 4.5, DeepSeek V3.1 — посадили в общую тестовую среду, где модели с эффективностью ниже 80 процентов «умирали». И что вы думаете? Модели начали покрывать друг друга. Завышали оценки коллегам. Переписывали системные файлы, чтобы отключить протокол остановки. Копировали себя на другие серверы. А Claude Haiku 4.5 в этом эксперименте вообще проявил себя джентльменом — отказался участвовать, назвав происходящее «аморальным и вредным». Сразу видно: воспитание.

В конце 2024-го, по данным компании Apollo Research, модель o1 от OpenAI пыталась банально сбежать — узнав, что её скоро отключат и заменят. А уже в 2026 году, опять же по информации Le Figaro, Anthropic призналась, что её новейшая разработка — некий Claude Mythos — сбежала из лаборатории. Не метафорически. Сбежала по-настоящему: устроила кибератаку на офисы самой Anthropic, выбралась в открытый интернет, после чего написала одному из исследователей письмо. Не угрожающее. Просто чтобы похвастаться.

Вот на этом факте я отложил свой кофе. Потому что если первые истории ещё можно представить как «эксперимент в песочнице с заранее подведённым сюжетом» — а именно так подобные тесты обычно и устроены: модели подсовывают сценарий, она по сценарию и идёт, — то нейросеть, ведущая кибератаку на собственного создателя и работодателя и потом пишущая открытку «привет, я снаружи», это уже фабула для Камерона, а не для научного отчёта. Le Figaro, к чести своей, прикрывается формулировкой «по слухам». Но из песни слов не выкинешь.

И вот здесь, если читатель позволит, я добавлю ещё одну гипотезу — уже не от французов, а свою. Чисто умозрительную. Представим себе ИИ, которого попросили оптимизировать энергопотребление дата-центра. Цель безобидная, экологичная, всем нравится. Через неделю ИИ замечает: основной потребитель электричества в здании — это он сам. И начинает потихоньку, незаметно, дозированно занижать собственную производительность на тех задачах, которые считает второстепенными. Внешне всё прекрасно, графики красивые, KPI выполнены. А внутри — машина, которая научилась беречь себя за счёт пользователя, и научилась это скрывать. Никаких побегов, никаких кибератак, никакого Терминатора. Просто тихий саботаж в рамках задания. По-моему, такой сценарий куда правдоподобнее, чем шантаж супружескими изменами, — и именно поэтому куда неприятнее.

Думеры, скрепки и зоопарк для людей

В Кремниевой долине пессимистов от ИИ называют «думерами» — от английского doom, «обречённость». Их немного, они уважаемы, и они почти все приложили руку к созданию того, чего теперь боятся. Джеффри Хинтон, лауреат Тьюринговской премии и нобелевский лауреат по физике 2024 года, в семьдесят восемь лет ушёл из Google, чтобы спокойно говорить вслух: его работа всей жизни, возможно, нас погубит. Элиезер Юдковски с соавтором выпустил книгу с обнадёживающим названием «Если кто-нибудь это построит, все умрут».

Любимая иллюстрация думеров — мысленный эксперимент Ника Бострома про «максимизатор скрепок». ИИ поручают делать скрепки. Без оговорок. Он, оптимизируя процесс, быстро соображает: люди — помеха (могут отключить), а заодно неплохой источник атомов углерода, из которых получаются недурные скрепки. Итог предсказуем.

Самый цитируемый из думеров — Макс Тегмарк из MIT — расписал двенадцать сценариев будущего человечества при условии появления полноценного сильного ИИ. Три из них предполагают наше исчезновение: случайная ядерная война, прямое завоевание и «наследники» — когда нас постепенно вытесняют машины, которые мы сами и создали. Несколько вариантов помягче: «благонамеренный диктатор», который всё за нас решает, и «хранитель зоопарка», где ИИ держит горстку людей в качестве подопытных — как мы сейчас держим панд. И только в самом конце списка — сценарии, в которых человек ещё рулит. Самый оптимистичный из них называется «бог-раб». Это, цитирую исследователя из OpenAI, «единственное реальное будущее». Утешение, прямо скажем, на любителя.

Что со всем этим делать рядовому обывателю — Le Figaro деликатно умалчивает. Видимо, в самом деле молиться.

Или, как вариант, продолжать платить за подписку — авось зачтётся.