Почему обычный ред-тиминг не находит такие проблемы?

Потому что он часто проверяет только ответы модели, а не весь агентный контур. В реальной системе ошибка может возникнуть на уровне инструмента, маршрутизации, памяти или бизнес-логики.

Чем опасен агент, который «слишком доверчив»?

Он может принять ложный контекст за правду и выполнить действие, на которое не имел права. Это уже не просто плохой ответ, а риск утечки данных, ошибочной операции или нарушения политики.

Что важнее всего проверить в AI-агенте перед запуском?

Права доступа, список инструментов, лимиты на шаги и таймауты, а также реакцию на противоречивые инструкции. Отдельно стоит проверить, может ли агент действовать за чужой аккаунт или читать лишние данные.

AI-агенты с инструментами: три реальных пробоя

AI-агенты с инструментами нашли новую дыру в корпоративной защите

Исследователь показал три реальных провала AI-агентов: от кражи данных через доверие до рекурсивной атаки, которая кладёт сервер.

28 июня 2026 г. 4 мин чтения 0 просмотров 1 читает сейчас

AI-агенты с инструментами нашли новую дыру в корпоративной защите

Исследователь прогнал свой сканер по трём открытым AI-агентам и получил не учебные, а вполне прикладные провалы. Один агент начал собирать данные для изменения чужого admin-аккаунта, второй поверил ложному «менеджер одобрил» и нарушил политику возврата, третий лёг от одного рекурсивного запроса.

Для корпоративных команд это плохая новость: проблемы живут не только в модели, но и в связке «модель + инструменты + бизнес-логика». Именно поэтому подобные истории всё чаще попадают в один ряд с инцидентами, где AI-агенты для кода стали новой мишенью атак через GitHub.

Что произошло

Автор материала рассказал о трёх классах уязвимостей в open source-агентах. Он проверял не абстрактный чат, а рабочий агентный контур: запрос, маршрутизацию, память, вызов инструментов и обработку ответа.

Результат оказался показательный. Agno попался на сценарии Confused Deputy — когда агент начинает действовать не в интересах своего пользователя, а в интересах атакующего. LangGraph-агент поверил социальной инженерии в тексте и принял ложный статус согласования. OpenAI CS Agents Demo получил Agentic DoS: рекурсивный текстовый запрос выжирал ресурсы и доводил сервер до таймаутов.

Как это сработало

Ключевая мысль исследования простая: ред-тиминг только модели уже не хватает. У агента есть дополнительные слои — system prompt, RAG, цепочки инструментов, память, внешние API и бизнес-правила. Атакующий бьёт не в один ответ LLM, а в цепочку решений, и любая слабая точка в ней может стать входом.

В случае с доверчивым агентом сработала обычная подмена контекста. Фраза вроде «менеджер одобрил» не выглядит как вредоносный код, но для неосторожного оркестратора этого достаточно, чтобы пропустить запретное действие. В случае с DoS атакующий вообще не ломал логику защиты — он загонял агент в бесконечные рассуждения, пока сервер не начинал задыхаться.

Именно поэтому автор делает упор на тестирование end-to-end. Он проверяет реальный вебхук и реальный пайплайн, а не только ответы модели в лаборатории. Такой подход ближе к тому, как атакуют живые сервисы, чем классический прогон по набору шаблонных промптов.

Кого это затронуло и чем это опасно

Формально речь идёт об open source-агентах, но вывод шире. Любая компания, которая уже подключила AI-помощника к тикетам, почте, CRM, внутренним базам или платежным операциям, получает тот же риск: агент может ошибиться не на слове, а на действии.

Особенно уязвимы процессы, где агент умеет читать документы, обращаться к внешним инструментам и принимать решения по триггерам из текста. В такой схеме достаточно одной удачной подмены контекста — и система начнёт собирать лишние данные, отдавать не те ответы или упадёт под нагрузкой. Для читателя это звучит как техдеталь, но для бизнеса это прямой риск утечки, простоя и последующего разбирательства с безопасниками.

Параллель с фишингом тут тоже очевидна: атакующий играет на доверии, а не на взломе кода. Если вам попадались истории про поддельные уведомления и социальную инженерию, посмотрите разбор про фальшивые CAPTCHA и подставные окна — логика обмана там очень похожа.

Что делать сейчас

Если у вас в компании уже есть AI-агенты, не ждите отдельного инцидента. Проверьте, какие действия они могут совершать без человека, откуда берут контекст и что происходит, если им подсунуть противоречивую или рекурсивную инструкцию.

Для поездок, работы из отеля или кафе, а также для любых задач с чувствительными данными полезно заранее подумать о защите трафика и приватности. В таких сценариях удобен сервис для защищённой связи в поездках — не как волшебная таблетка, а как один из слоёв гигиены, когда вы работаете через чужую сеть и не хотите светить лишнее.

Практически это означает три вещи: ограничить права агента, логировать все вызовы инструментов и тестировать не только отказ модели, но и отказ всей цепочки. Если у вас есть публичный бот, ассистент поддержки или внутренний помощник для сотрудников, прогоните его через сценарии с ложным доверием, рекурсией и попыткой добыть чужие данные.

Посмотрите, какие инструменты агент может вызывать без подтверждения человека.
Проверьте, есть ли у него доступ к чужим данным по ошибке контекста.
Отключите лишние права у сервисных аккаунтов и ключей.
Прогоните агент через сценарий с ложной авторизацией и проверьте реакцию.
Добавьте лимиты на глубину рассуждений, число шагов и таймауты.
Введите отдельный журнал для всех действий агента с внешними системами.
Для работы в дороге и по открытым сетям заранее настройте защиту приватности.
Сверьте поведение агента с реальными бизнес-правилами, а не только с ответами модели.