Incidenta

IT-тренажер для тех кто релизит и чинит

Тренажер Incident Response Chaos Engineering
images/portfolio/incidenta-01.png
images/portfolio/incidenta-02.png

Обзор проекта

Incidenta — тренажер IT-инцидентов для тех, кто релизит и чинит. Создали решение, где SRE, DevOps, Back-end специалисты могут прожить реальные сбои: оформили их в интерактивные сценарии и дополнили теорией. Это позволяет обучать сотрудников компании не за годы, а за месяцы.

Ключевые возможности

  • Коллекция реальных инцидентов: сценарии от удаления базы данных до массового DDoS
  • Интерактивные тренировки: одновременно со сбоем видны метрики приложения и системы
  • Практика без риска: безопасная среда для отработки действий и коммуникаций
  • Диагностика и теория: подсказки, чек-листы и объяснения внутри сценариев

Задача

До 50% компаний сталкиваются с серьезными инцидентами каждую неделю и теряют тысячи долларов на простоях. Новичкам требуется до трех лет, чтобы накопить опыт реагирования на сбои, а реальные тренировки обходятся слишком дорого. Нужен контролируемый способ обучить сотрудников, чтобы при реальном сбое потери были ниже.

Решение

Мы создали Incidenta — онлайн-тренажер IT-инцидентов, собранный на основе реальных сбоев и дополнили минимальной теорией. Теперь сотрудник может посмотреть, что произойдет, если случайно удалить базу данных или начнется DDoS атака. Сотрудники тренируются в безопасной среде, которую не нужно разворачивать, достаточно только “включить” и прокачивать навык.

Этапы работы

Сбор реальных сценариев

Интервью с инженерами и анализ инцидентов

  • Интервью с SRE и разработчиками о болях релизов
  • Отбор типовых аварий: удаление БД, деградация сетей, DDoS
  • Формализация шагов диагностики и решений
  • Подготовка теоретических блоков к сценариям

Механизм тренировок

Подбор технологий и решений

  • Описание механики прохождения тренировки
  • Подбор инструментов для реализации
  • Сборка прототипа решения
  • Первичное тестирование и доработка под фидбэк

Платформа

Разработка веб-приложения и обвязки

  • Личный кабинет с программами тренировок
  • Отслеживание прогресса и повторное прохождение
  • Реализация механизма оплаты

Пилоты и масштабирование

Тестирование и накопление базы сбоев

  • Проведение демо сессий и сбор обратной связи
  • Добавление новых инцидентов
  • Оптимизация сценариев по сложности и таймингу

Технологии

Python Chaos Engineering Kubernetes Django Celery Locust

Результаты

50+ сценариев

Коллекция инцидентов от «удалили БД» до массового DDoS

3 года опыта за месяцы

Сотрудники проходят десятки сбоев и ускоряют реакцию

Снижение простоев

Команды быстрее диагностируют и устраняют повторяющиеся аварии

Уверенность команды

Инженеры знают, как действовать ночью и не поддаются панике

Отзыв клиента
"Теперь у нас есть тестовый полигон для новых сотрудников компании. Вместо тонны инструкций, можем дать тренажер и проверить сотрудника. Скорость реакции на инциденты увеличилась, меньше нарушаем SLA."
Руководитель SRE