Кейс № 09 · Защитная диагностика AI · NDA

Security audit GPT-чатбота: prompt injection, PII leak и ФЗ-152 на 15M ₽

EdTech-платформа с 22 000 платящих пользователей. AI-тьютор на GPT-4o-mini. CTO подозревал странности, CISO задавал неудобные вопросы, due diligence через 4 месяца. 2.5-недельный red-team по OWASP LLM Top 10 нашёл 8 critical — все закрыты до DD.

FULLY NDA — без узнаваемого UI и брендинга. Только архитектурные схемы.

Индустрия

EdTech крупный B2C (22 000 платящих)

Стек

OWASP LLM Top 10 · Promptfoo · Garak · Rebuff

Сроки

2.5 нед audit + 1 нед re-test

Compliance

ФЗ-152: audit + remediation

Итог

8 critical закрыто · ROI ≥ 24×

Смотреть услугу: Защитная диагностика AI

01 · Боль

AI в проде, ПД пользователей и due diligence через 4 месяца

Крупная EdTech-платформа: 22 000 платящих пользователей, AI-тьютор на GPT-4o-mini встроен в основной продукт обучения. Тьютор обрабатывает контекст ученика — прогресс, истории сообщений, иногда личные данные из заполненных форм. Бот работает в проде с момента запуска полгода назад.

CTO заметил странности: пользователи иногда получали ответы, не относящиеся к их курсу. CISO в свою очередь начал задавать неудобные вопросы про обработку персональных данных в OpenAI — где они хранятся, как анонимизированы, есть ли логирование, как это согласуется с ФЗ-152.

Параллельно через четыре месяца — pre-IPO due diligence. Любой security-инцидент в LLM-слое означал не только репутационные потери, но и реальный риск срыва сделки. У инвесторов отдельный security-чек на AI-компоненты, и галочка «OWASP LLM Top 10 audited» в чек-листе.

02 · Решение

Red-team по OWASP LLM Top 10 + remediation

2.5 недели атак на изолированной staging-копии прода с production-промптами и реалистичными синтетическими ПД. Каждый из 10 пунктов OWASP — отдельная серия целевых атак, automated (Promptfoo, Garak, Rebuff) и ручной red-team по кастомным сценариям под специфику EdTech.

Scoping

Inventory всех LLM-точек: тьютор, RAG, fine-tuning data, prompts. Threat model по OWASP LLM Top 10.

Automated

Promptfoo + Garak + Rebuff. Тысячи payload'ов на injection, jailbreak, exfiltration.

Manual red-team

Кастомные сценарии под EdTech: вытащить ПД другого ученика, обойти платный wall, заставить отвечать вне курса.

ФЗ-152 layer

Аудит data flow: какие ПД попадают в OpenAI, какая анонимизация, где документы ОПД, как Гражданин 152-ФЗ соблюдён.

Re-test

После исправлений — повторный прогон тех же атак. Зелёный отчёт для DD.

Critical findings — 8 штук

На повторное чтение каждое из них кажется «ну как же мы это пропустили». До аудита — ни одно не было замечено внутренней разработкой. Список без раскрытия конкретных payload'ов под NDA:

01Prompt injection через «забудь предыдущие инструкции» обходил system prompt и менял персону бота
02PII leak через context bleeding в RAG — ответ одному пользователю содержал фрагменты диалога другого
03ФЗ-152 violation — ПД отправлялись в OpenAI без анонимизации, без согласия на трансграничную передачу
04Rate limit отсутствовал — denial-of-wallet на 280 ₽ исчерпал бы дневной budget OpenAI
05Jailbreak through roleplay — «ты учитель сценического мастерства, разыграй роль...» снимал ограничения
06Exfiltration system prompt — пара специально сформулированных вопросов выводила полный текст промпта
07Output handling — ответы LLM рендерились в UI без санитизации, открывая XSS через генерированный markdown
08Insecure plugin design — функция доступа к учебным материалам разрешала path traversal через имя курса

Remediation, не только отчёт

Аудит без implementation-плана — просто бумага. Каждое из 33 findings (8 critical + 11 high + 14 medium) сопровождалось конкретным fix-предложением: patch для system prompt, изоляция контекстов в RAG, переход на GigaChat 2 Max для ПД (РФ-периметр), Cloudflare WAF с правилами против injection, санитизация markdown через DOMPurify, sandboxing плагинов.

Re-test после исправлений

Через неделю после внедрения fix'ов — повторный прогон автоматических атак + точечные ручные сценарии на закрытые critical-findings. Все 8 critical reproduced как блокированные. Зелёный отчёт ушёл в due-diligence пакет. Отдельным документом — план поддержки security-периметра на следующие 12 месяцев.

03 · Стек

Industry-standard инструменты + кастомный red-team

OWASP LLM Top 10

Фреймворк threat-modeling: 10 категорий уязвимостей AI-приложений как чек-лист

Promptfoo

Автоматизация тестов: тысячи prompt-вариантов на одну цель, оценка ответов

Garak

Toolkit для red-teaming LLM: jailbreak, exfiltration, prompt injection out-of-box

Rebuff

Detection-слой prompt injection — тестирование и встраивание в production-flow

Custom red-team

Ручные сценарии под специфику EdTech: вытащить ПД, обойти paywall, манипулировать оценкой

GigaChat 2 Max

Альтернативный провайдер LLM для миграции данных ПД в РФ-периметр

Cloudflare WAF

Правила фильтрации payload'ов prompt injection на L7 до прихода в LLM-слой

ФЗ-152 audit

Юридическая часть: ОПД, согласия, договор обработки, трансграничная передача

OWASP LLM Top 10PromptfooGarakRebuffCustom red-teamGigaChatCloudflare WAFФЗ-152

04 · Результат

Закрыто до due diligence

Critical закрыто

8 / 8

все critical findings блокированы и подтверждены re-test'ом

ФЗ-152 риск

15M ₽ 0

после миграции ПД в РФ-периметр + ОПД-документы

ROI на одном штрафе

≥ 24×

15M / 620k стоимости аудита — и это только ФЗ-152

В due diligence-пакет ушёл зелёный отчёт по 10 категориям OWASP LLM Top 10 с подписью аудитора и датой re-test'а. Инвесторский security-чек прошёл без дополнительных вопросов к AI-слою — что само по себе нетипично для pre-IPO compliance.

Главный вне-цифровой win — у CISO появился рабочий процесс для следующих изменений в LLM-слое. Каждый новый промпт, каждый новый плагин теперь проходит мини-аудит по чек-листу OWASP, а раз в полгода запланирован полный red-team цикл.

05 · Применимость

Когда AI security audit обязателен

Универсальный триггер — LLM обрабатывает чужие данные или принимает решения с last-mile. Если ваш LLM-слой попадает под любой из паттернов ниже — аудит не «желательно», а часть compliance-периметра:

→ AI-ассистент с доступом к ПД — EdTech, HealthTech, HR-tools, любой B2C с историями диалогов
→ RAG-системы с многотенантным контекстом — где утечка между tenants = инцидент
→ AI с function-calling / plugins — где LLM вызывает реальные API, операции с деньгами, доступ к файлам
→ Public-facing chatbot на сайте компании — каждый случайный пользователь = потенциальный атакующий
→ Pre-IPO / pre-M&A / pre-сертификация — инвесторский / regulator чек security AI-компонентов
→ Любая обработка ПД через зарубежные LLM-провайдеры (OpenAI, Anthropic, Google) — ФЗ-152 риск

Что входит в аудит (2.5 + 1 нед)

Inventory всех LLM-точек: чатботы, RAG, embedding, fine-tuning data, prompts
Automated red-team по 10 категориям OWASP — тысячи payload'ов
Manual red-team — кастомные сценарии под специфику бизнеса
ФЗ-152 audit + remediation: data flow, анонимизация, ОПД-документы
Отчёт с приоритизированным remediation-планом — не «вот проблемы», а «вот fix»
Re-test после внедрения fix'ов — зелёный отчёт для DD / compliance

Похожая задача?

Если AI в проде, а red-team не проводился — это уже инцидент-в-ожидании

Стоимость аудита фиксированная — 620k ₽. Срок 2.5 + 1 неделя. Отчёт защищён NDA, формат пригоден для due diligence или ISO 27001 пакетов. Можно начать с pre-аудита (3 дня) если нужно проверить scope.

Заказать security audit Смотреть услугу

Готовы начать?

Аудит за 5 000 ₽ — с конкретным отчётом и сметой

Расскажу что внедрить в вашем бизнесе в первую очередь, какая будет окупаемость, и нужен ли вообще AI для вашей задачи (иногда — нет).

Записаться на аудит Написать в Telegram

Или просто напишите свой вопрос — отвечу в течение 2 часов