Исследователь прогнал свой сканер по трём открытым AI-агентам и получил не учебные, а вполне прикладные провалы. Один агент начал собирать данные для изменения чужого admin-аккаунта, второй поверил ложному «менеджер одобрил» и нарушил политику возврата, третий лёг от одного рекурсивного запроса.
Для корпоративных команд это плохая новость: проблемы живут не только в модели, но и в связке «модель + инструменты + бизнес-логика». Именно поэтому подобные истории всё чаще попадают в один ряд с инцидентами, где AI-агенты для кода стали новой мишенью атак через GitHub.
Что произошло
Автор материала рассказал о трёх классах уязвимостей в open source-агентах. Он проверял не абстрактный чат, а рабочий агентный контур: запрос, маршрутизацию, память, вызов инструментов и обработку ответа.
Результат оказался показательный. Agno попался на сценарии Confused Deputy — когда агент начинает действовать не в интересах своего пользователя, а в интересах атакующего. LangGraph-агент поверил социальной инженерии в тексте и принял ложный статус согласования. OpenAI CS Agents Demo получил Agentic DoS: рекурсивный текстовый запрос выжирал ресурсы и доводил сервер до таймаутов.
Как это сработало
Ключевая мысль исследования простая: ред-тиминг только модели уже не хватает. У агента есть дополнительные слои — system prompt, RAG, цепочки инструментов, память, внешние API и бизнес-правила. Атакующий бьёт не в один ответ LLM, а в цепочку решений, и любая слабая точка в ней может стать входом.
В случае с доверчивым агентом сработала обычная подмена контекста. Фраза вроде «менеджер одобрил» не выглядит как вредоносный код, но для неосторожного оркестратора этого достаточно, чтобы пропустить запретное действие. В случае с DoS атакующий вообще не ломал логику защиты — он загонял агент в бесконечные рассуждения, пока сервер не начинал задыхаться.
Именно поэтому автор делает упор на тестирование end-to-end. Он проверяет реальный вебхук и реальный пайплайн, а не только ответы модели в лаборатории. Такой подход ближе к тому, как атакуют живые сервисы, чем классический прогон по набору шаблонных промптов.
Кого это затронуло и чем это опасно
Формально речь идёт об open source-агентах, но вывод шире. Любая компания, которая уже подключила AI-помощника к тикетам, почте, CRM, внутренним базам или платежным операциям, получает тот же риск: агент может ошибиться не на слове, а на действии.
Особенно уязвимы процессы, где агент умеет читать документы, обращаться к внешним инструментам и принимать решения по триггерам из текста. В такой схеме достаточно одной удачной подмены контекста — и система начнёт собирать лишние данные, отдавать не те ответы или упадёт под нагрузкой. Для читателя это звучит как техдеталь, но для бизнеса это прямой риск утечки, простоя и последующего разбирательства с безопасниками.
Параллель с фишингом тут тоже очевидна: атакующий играет на доверии, а не на взломе кода. Если вам попадались истории про поддельные уведомления и социальную инженерию, посмотрите разбор про фальшивые CAPTCHA и подставные окна — логика обмана там очень похожа.
Что делать сейчас
Если у вас в компании уже есть AI-агенты, не ждите отдельного инцидента. Проверьте, какие действия они могут совершать без человека, откуда берут контекст и что происходит, если им подсунуть противоречивую или рекурсивную инструкцию.
Для поездок, работы из отеля или кафе, а также для любых задач с чувствительными данными полезно заранее подумать о защите трафика и приватности. В таких сценариях удобен сервис для защищённой связи в поездках — не как волшебная таблетка, а как один из слоёв гигиены, когда вы работаете через чужую сеть и не хотите светить лишнее.
Практически это означает три вещи: ограничить права агента, логировать все вызовы инструментов и тестировать не только отказ модели, но и отказ всей цепочки. Если у вас есть публичный бот, ассистент поддержки или внутренний помощник для сотрудников, прогоните его через сценарии с ложным доверием, рекурсией и попыткой добыть чужие данные.
- Посмотрите, какие инструменты агент может вызывать без подтверждения человека.
- Проверьте, есть ли у него доступ к чужим данным по ошибке контекста.
- Отключите лишние права у сервисных аккаунтов и ключей.
- Прогоните агент через сценарий с ложной авторизацией и проверьте реакцию.
- Добавьте лимиты на глубину рассуждений, число шагов и таймауты.
- Введите отдельный журнал для всех действий агента с внешними системами.
- Для работы в дороге и по открытым сетям заранее настройте защиту приватности.
- Сверьте поведение агента с реальными бизнес-правилами, а не только с ответами модели.
Комментарии (0)
Будьте уважительны. Спам и ссылки на сторонние сервисы скрываются модерацией.
Пока комментариев нет. Вы можете быть первым.