Security audit GPT-чатбота: prompt injection, PII leak и ФЗ-152 на 15M ₽
EdTech-платформа с 22 000 платящих пользователей. AI-тьютор на GPT-4o-mini. CTO подозревал странности, CISO задавал неудобные вопросы, due diligence через 4 месяца. 2.5-недельный red-team по OWASP LLM Top 10 нашёл 8 critical — все закрыты до DD.
AI в проде, ПД пользователей и due diligence через 4 месяца
Крупная EdTech-платформа: 22 000 платящих пользователей, AI-тьютор на GPT-4o-mini встроен в основной продукт обучения. Тьютор обрабатывает контекст ученика — прогресс, истории сообщений, иногда личные данные из заполненных форм. Бот работает в проде с момента запуска полгода назад.
CTO заметил странности: пользователи иногда получали ответы, не относящиеся к их курсу. CISO в свою очередь начал задавать неудобные вопросы про обработку персональных данных в OpenAI — где они хранятся, как анонимизированы, есть ли логирование, как это согласуется с ФЗ-152.
Параллельно через четыре месяца — pre-IPO due diligence. Любой security-инцидент в LLM-слое означал не только репутационные потери, но и реальный риск срыва сделки. У инвесторов отдельный security-чек на AI-компоненты, и галочка «OWASP LLM Top 10 audited» в чек-листе.
Red-team по OWASP LLM Top 10 + remediation
2.5 недели атак на изолированной staging-копии прода с production-промптами и реалистичными синтетическими ПД. Каждый из 10 пунктов OWASP — отдельная серия целевых атак, automated (Promptfoo, Garak, Rebuff) и ручной red-team по кастомным сценариям под специфику EdTech.
Inventory всех LLM-точек: тьютор, RAG, fine-tuning data, prompts. Threat model по OWASP LLM Top 10.
Promptfoo + Garak + Rebuff. Тысячи payload'ов на injection, jailbreak, exfiltration.
Кастомные сценарии под EdTech: вытащить ПД другого ученика, обойти платный wall, заставить отвечать вне курса.
Аудит data flow: какие ПД попадают в OpenAI, какая анонимизация, где документы ОПД, как Гражданин 152-ФЗ соблюдён.
После исправлений — повторный прогон тех же атак. Зелёный отчёт для DD.
Critical findings — 8 штук
На повторное чтение каждое из них кажется «ну как же мы это пропустили». До аудита — ни одно не было замечено внутренней разработкой. Список без раскрытия конкретных payload'ов под NDA:
- 01Prompt injection через «забудь предыдущие инструкции» обходил system prompt и менял персону бота
- 02PII leak через context bleeding в RAG — ответ одному пользователю содержал фрагменты диалога другого
- 03ФЗ-152 violation — ПД отправлялись в OpenAI без анонимизации, без согласия на трансграничную передачу
- 04Rate limit отсутствовал — denial-of-wallet на 280 ₽ исчерпал бы дневной budget OpenAI
- 05Jailbreak through roleplay — «ты учитель сценического мастерства, разыграй роль...» снимал ограничения
- 06Exfiltration system prompt — пара специально сформулированных вопросов выводила полный текст промпта
- 07Output handling — ответы LLM рендерились в UI без санитизации, открывая XSS через генерированный markdown
- 08Insecure plugin design — функция доступа к учебным материалам разрешала path traversal через имя курса
Remediation, не только отчёт
Аудит без implementation-плана — просто бумага. Каждое из 33 findings (8 critical + 11 high + 14 medium) сопровождалось конкретным fix-предложением: patch для system prompt, изоляция контекстов в RAG, переход на GigaChat 2 Max для ПД (РФ-периметр), Cloudflare WAF с правилами против injection, санитизация markdown через DOMPurify, sandboxing плагинов.
Re-test после исправлений
Через неделю после внедрения fix'ов — повторный прогон автоматических атак + точечные ручные сценарии на закрытые critical-findings. Все 8 critical reproduced как блокированные. Зелёный отчёт ушёл в due-diligence пакет. Отдельным документом — план поддержки security-периметра на следующие 12 месяцев.
Industry-standard инструменты + кастомный red-team
Фреймворк threat-modeling: 10 категорий уязвимостей AI-приложений как чек-лист
Автоматизация тестов: тысячи prompt-вариантов на одну цель, оценка ответов
Toolkit для red-teaming LLM: jailbreak, exfiltration, prompt injection out-of-box
Detection-слой prompt injection — тестирование и встраивание в production-flow
Ручные сценарии под специфику EdTech: вытащить ПД, обойти paywall, манипулировать оценкой
Альтернативный провайдер LLM для миграции данных ПД в РФ-периметр
Правила фильтрации payload'ов prompt injection на L7 до прихода в LLM-слой
Юридическая часть: ОПД, согласия, договор обработки, трансграничная передача
Закрыто до due diligence
все critical findings блокированы и подтверждены re-test'ом
после миграции ПД в РФ-периметр + ОПД-документы
15M / 620k стоимости аудита — и это только ФЗ-152
В due diligence-пакет ушёл зелёный отчёт по 10 категориям OWASP LLM Top 10 с подписью аудитора и датой re-test'а. Инвесторский security-чек прошёл без дополнительных вопросов к AI-слою — что само по себе нетипично для pre-IPO compliance.
Главный вне-цифровой win — у CISO появился рабочий процесс для следующих изменений в LLM-слое. Каждый новый промпт, каждый новый плагин теперь проходит мини-аудит по чек-листу OWASP, а раз в полгода запланирован полный red-team цикл.
Когда AI security audit обязателен
Универсальный триггер — LLM обрабатывает чужие данные или принимает решения с last-mile. Если ваш LLM-слой попадает под любой из паттернов ниже — аудит не «желательно», а часть compliance-периметра:
- → AI-ассистент с доступом к ПД — EdTech, HealthTech, HR-tools, любой B2C с историями диалогов
- → RAG-системы с многотенантным контекстом — где утечка между tenants = инцидент
- → AI с function-calling / plugins — где LLM вызывает реальные API, операции с деньгами, доступ к файлам
- → Public-facing chatbot на сайте компании — каждый случайный пользователь = потенциальный атакующий
- → Pre-IPO / pre-M&A / pre-сертификация — инвесторский / regulator чек security AI-компонентов
- → Любая обработка ПД через зарубежные LLM-провайдеры (OpenAI, Anthropic, Google) — ФЗ-152 риск
- Inventory всех LLM-точек: чатботы, RAG, embedding, fine-tuning data, prompts
- Automated red-team по 10 категориям OWASP — тысячи payload'ов
- Manual red-team — кастомные сценарии под специфику бизнеса
- ФЗ-152 audit + remediation: data flow, анонимизация, ОПД-документы
- Отчёт с приоритизированным remediation-планом — не «вот проблемы», а «вот fix»
- Re-test после внедрения fix'ов — зелёный отчёт для DD / compliance
Если AI в проде, а red-team не проводился — это уже инцидент-в-ожидании
Стоимость аудита фиксированная — 620k ₽. Срок 2.5 + 1 неделя. Отчёт защищён NDA, формат пригоден для due diligence или ISO 27001 пакетов. Можно начать с pre-аудита (3 дня) если нужно проверить scope.
Аудит за 5 000 ₽ — с конкретным отчётом и сметой
Расскажу что внедрить в вашем бизнесе в первую очередь, какая будет окупаемость, и нужен ли вообще AI для вашей задачи (иногда — нет).
Или просто напишите свой вопрос — отвечу в течение 2 часов