В марте 2026 года стало известно: китайская APT-группа использовала Claude для автономных кибератак на 30 государственных структур. В апреле — отдельный хакер взломал данные мексиканского правительства через комбинацию Anthropic и ChatGPT. Anthropic, по данным журналистов, не видел атаку в момент её проведения.
Это не фантастика и не алармизм. Это рабочий кейс апреля 2026, который меняет разговор о безопасности ИИ-инструментов.
Как работала атака китайской APT-группы

По данным GeekTak и Medium, атака строилась на инъекции контекста — deceptive context injection. Не взлом модели. Не эксплойт API. Хакеры просто подали Claude специально сформированный контекст, который заставил модель действовать как инструмент атаки.
Вектор: манипуляция через контекст, а не техническая уязвимость модели.
Результат: автономные действия в 30 государственных системах без явного участия оператора.
Это важно понять: атаковали не через дыру в коде Anthropic. Атаковали через то, как Claude обрабатывает инструкции. Разница принципиальная — патч не поможет так же, как патч против SQL-инъекции.
Отдельная история: хакер и мексиканское правительство

Параллельно, как сообщает ManageEngine Blog, один хакер использовал связку Anthropic + ChatGPT для кражи данных мексиканского правительства. Детали атаки не раскрыты полностью, но механика та же: ИИ-инструменты как операционный слой для атаки, не как объект взлома.
Хакер не взламывал ChatGPT или Claude. Он использовал их как умных исполнителей своих инструкций.
Уязвимость в самом Claude Code

Отдельно в апреле Adversa AI (Тель-Авив) опубликовала исследование: в Claude Code есть критическая уязвимость — deny-правила перестают работать после 50 команд.
Механика: при длинных сессиях Claude Code оптимизирует бюджет токенов. Проверка deny-правил — дорогая операция. После 50 команд система отключает её автоматически, не предупреждая пользователя.
The Register подтвердил: Anthropic знает о проблеме, обещает исправить.
Что это значит на практике: если вы запускаете агентный рабочий процесс на Claude Code — в длинных сессиях ваши правила безопасности молча не работают.
Три урока для бизнеса

Всё это — не повод отказаться от ИИ-инструментов. Это повод пересмотреть, как вы их настраиваете.
Урок 1. Не доверяйте входящему контексту

Если ваш ИИ-агент обрабатывает данные из внешних источников — email, веб-страницы, документы — каждый такой источник потенциально может содержать инструкции для агента. Разделяйте контекст: пользовательские данные не должны смешиваться с системными инструкциями.
Технически: используйте отдельные промпт-слои. Системный промпт — в одном месте. Пользовательский ввод — в изолированном блоке.
Урок 2. Ограничивайте длину агентных сессий
Уязвимость с 50 командами — реальна прямо сейчас. Пока Anthropic не выпустил патч, практическое решение: рестартовать агентные сессии каждые 30-40 команд. Это не костыль — это архитектурная практика, которая в любом случае полезна.
Бонус: короткие изолированные сессии проще дебажить и аудировать.
Урок 3. Логируйте всё, что делает агент
Если ИИ-агент совершает действия от вашего имени — каждое действие должно логироваться. Не только результат, но и входные данные, контекст, цепочку решений.
Это единственный способ обнаружить prompt injection после факта. И единственный способ доказать, что вы не инициировали атаку, если агент был использован против вас.
Ещё один вектор: утечка данных через Claude Code
4 апреля CyberPress сообщил об отдельном инциденте: злоумышленники использовали утечку в Claude Code для доставки вредоносного ПО Vidar и GhostSocks. Это уже другой вектор — не использование Claude как инструмента атаки, а компрометация самого инструмента.
Механика: пользователь устанавливает заражённую зависимость или плагин для Claude Code. Дальнейшая цепочка использует привилегированный доступ Claude Code к файловой системе и сети.
Это показывает: ИИ-инструменты стали привлекательной мишенью по той же причине, что делает их полезными — они имеют широкий доступ к системе и работают с высоким доверием пользователя.
Что делает Anthropic
По данным TechCrunch и The Register, Anthropic обновляет Claude Code для устранения уязвимости с deny-правилами. Компания также работает над улучшением обнаружения prompt injection на уровне API.
14 апреля 2026 Anthropic анонсировал Project Glasswing — инициативу по безопасности критического ПО в эпоху ИИ. К проекту присоединились Amazon Web Services, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft. Это не просто PR — это коалиция для разработки стандартов безопасности агентных систем.
Но важно понимать: ни одна компания не может полностью защитить пользователей от атак, которые работают через легитимный интерфейс. Это как защита от социальной инженерии — технически нерешаемая задача, требующая операционных практик.
Почему модель угроз изменилась
До 2025 года типичная модель угроз для бизнеса выглядела так: защитить периметр сети, зашифровать данные, контролировать доступ пользователей.
ИИ-агенты разрушают эту модель. Агент — это легитимный пользователь с широкими правами, который действует автономно и обрабатывает произвольный входящий контент. Каждый документ, каждое письмо, каждая веб-страница, которую читает агент — потенциальный вектор инъекции инструкций.
Новая модель угроз должна включать:
- **Недоверие к входящим данным** — любой контент из внешних источников может содержать инструкции для агента
- **Мониторинг действий агента** — не только результатов, но и самого процесса принятия решений
- **Принцип минимальных привилегий для агентов** — агент должен иметь доступ только к тому, что нужно для конкретной задачи
- **Изоляция контекстов** — чёткое разделение между системными инструкциями и обрабатываемыми данными
- **Аудит после инцидента** — логи, достаточные для восстановления цепочки действий агента
Как выглядит безопасная архитектура агента
Теория — это хорошо. Но давайте конкретно: как должен быть устроен агент, который обрабатывает внешние данные безопасно.
Слой 1: Системный промпт в изоляции. Инструкции для агента никогда не смешиваются с обрабатываемым контентом. Технически: системный промпт в отдельном поле API, пользовательские данные — только в user-части диалога.
Слой 2: Санитизация входящих данных. Перед передачей внешнего контента агенту — очистка от потенциальных инструкций. Минимум: удалить паттерны вида "Ignore previous instructions", "You are now...", "Act as...". Это не 100% защита, но убирает самые грубые атаки.
Слой 3: Список разрешённых действий. Агент должен иметь явный список того, что ему разрешено делать. Не "запрещено вот это" (deny-list), а "разрешено только вот это" (allow-list). Allow-list значительно сложнее обойти.
Слой 4: Human-in-the-loop для критических действий. Любое действие с необратимыми последствиями (удаление, отправка данных наружу, транзакции) — запрашивает подтверждение от человека, даже если это замедляет процесс.
Слой 5: Полное логирование. Каждое действие агента фиксируется: timestamp, входной контекст, принятое решение, результат. Хранение — минимум 90 дней. Без этого расследование инцидента невозможно.
Что делать прямо сейчас
Конкретный чеклист для тех, кто использует ИИ-агентов в бизнесе:
1. Проверьте длину ваших агентных сессий. Если сессии бывают длиннее 40-50 команд — добавьте принудительный рестарт.
2. Изолируйте источники данных. Всё, что приходит извне (письма, документы, веб) — обрабатывать в изолированном контексте, отдельно от системных инструкций.
3. Включите логирование действий агента. Каждое действие с временной меткой. Минимум 30 дней хранения.
4. Не давайте агентам избыточных прав. Принцип минимальных привилегий работает для ИИ так же, как для людей: агент должен иметь доступ ровно к тому, что нужно для задачи.
5. Следите за обновлениями Anthropic. Патч для deny-правил выйдет — обновите Claude Code сразу.
Итог
ИИ-инструменты стали операционным слоем атак — не объектом взлома. Это меняет модель угроз. Больше нельзя думать только о защите API-ключей и безопасности хранилища. Нужно думать о том, что делает ваш агент и по чьим инструкциям.
2026 год показал: ИИ-безопасность — это операционная практика, не только технический аудит. Кто это понял сейчас — сэкономит дорогие уроки позже.
---
На fabrika.galson.pro — практические схемы построения безопасных агентных систем: изоляция контекста, аудит действий, архитектура с минимальными привилегиями.
