Incidenta
IT-тренажер для тех кто релизит и чинит
Тренажер
Incident Response
Chaos Engineering
Обзор проекта
Incidenta — тренажер IT-инцидентов для тех, кто релизит и чинит. Создали решение, где SRE, DevOps, Back-end специалисты могут прожить реальные сбои: оформили их в интерактивные сценарии и дополнили теорией. Это позволяет обучать сотрудников компании не за годы, а за месяцы.
Ключевые возможности
- Коллекция реальных инцидентов: сценарии от удаления базы данных до массового DDoS
- Интерактивные тренировки: одновременно со сбоем видны метрики приложения и системы
- Практика без риска: безопасная среда для отработки действий и коммуникаций
- Диагностика и теория: подсказки, чек-листы и объяснения внутри сценариев
Задача
До 50% компаний сталкиваются с серьезными инцидентами каждую неделю и теряют тысячи долларов на простоях.
Новичкам требуется до трех лет, чтобы накопить опыт реагирования на сбои, а реальные тренировки обходятся слишком дорого.
Нужен контролируемый способ обучить сотрудников, чтобы при реальном сбое потери были ниже.
Решение
Мы создали Incidenta — онлайн-тренажер IT-инцидентов, собранный на основе реальных сбоев и дополнили минимальной теорией.
Теперь сотрудник может посмотреть, что произойдет, если случайно удалить базу данных или начнется DDoS атака.
Сотрудники тренируются в безопасной среде, которую не нужно разворачивать, достаточно только “включить” и прокачивать навык.
Этапы работы
Сбор реальных сценариев
Интервью с инженерами и анализ инцидентов
- • Интервью с SRE и разработчиками о болях релизов
- • Отбор типовых аварий: удаление БД, деградация сетей, DDoS
- • Формализация шагов диагностики и решений
- • Подготовка теоретических блоков к сценариям
Механизм тренировок
Подбор технологий и решений
- • Описание механики прохождения тренировки
- • Подбор инструментов для реализации
- • Сборка прототипа решения
- • Первичное тестирование и доработка под фидбэк
Платформа
Разработка веб-приложения и обвязки
- • Личный кабинет с программами тренировок
- • Отслеживание прогресса и повторное прохождение
- • Реализация механизма оплаты
Пилоты и масштабирование
Тестирование и накопление базы сбоев
- • Проведение демо сессий и сбор обратной связи
- • Добавление новых инцидентов
- • Оптимизация сценариев по сложности и таймингу
Технологии
Python
Chaos Engineering
Kubernetes
Django
Celery
Locust
Результаты
50+ сценариев
Коллекция инцидентов от «удалили БД» до массового DDoS
3 года опыта за месяцы
Сотрудники проходят десятки сбоев и ускоряют реакцию
Снижение простоев
Команды быстрее диагностируют и устраняют повторяющиеся аварии
Уверенность команды
Инженеры знают, как действовать ночью и не поддаются панике
Отзыв клиента
"Теперь у нас есть тестовый полигон для новых сотрудников компании. Вместо тонны инструкций, можем дать тренажер и проверить сотрудника. Скорость реакции на инциденты увеличилась, меньше нарушаем SLA."
Руководитель SRE

