Incidenta

Обзор проекта

Incidenta — тренажер IT-инцидентов для тех, кто релизит и чинит. Создали решение, где SRE, DevOps, Back-end специалисты могут прожить реальные сбои: оформили их в интерактивные сценарии и дополнили теорией. Это позволяет обучать сотрудников компании не за годы, а за месяцы.

Ключевые возможности

Коллекция реальных инцидентов: сценарии от удаления базы данных до массового DDoS
Интерактивные тренировки: одновременно со сбоем видны метрики приложения и системы
Практика без риска: безопасная среда для отработки действий и коммуникаций
Диагностика и теория: подсказки, чек-листы и объяснения внутри сценариев

Задача

До 50% компаний сталкиваются с серьезными инцидентами каждую неделю и теряют тысячи долларов на простоях. Новичкам требуется до трех лет, чтобы накопить опыт реагирования на сбои, а реальные тренировки обходятся слишком дорого. Нужен контролируемый способ обучить сотрудников, чтобы при реальном сбое потери были ниже.

Решение

Мы создали Incidenta — онлайн-тренажер IT-инцидентов, собранный на основе реальных сбоев и дополнили минимальной теорией. Теперь сотрудник может посмотреть, что произойдет, если случайно удалить базу данных или начнется DDoS атака. Сотрудники тренируются в безопасной среде, которую не нужно разворачивать, достаточно только “включить” и прокачивать навык.

Этапы работы

Сбор реальных сценариев

Интервью с инженерами и анализ инцидентов

• Интервью с SRE и разработчиками о болях релизов
• Отбор типовых аварий: удаление БД, деградация сетей, DDoS
• Формализация шагов диагностики и решений
• Подготовка теоретических блоков к сценариям

Механизм тренировок

Подбор технологий и решений

• Описание механики прохождения тренировки
• Подбор инструментов для реализации
• Сборка прототипа решения
• Первичное тестирование и доработка под фидбэк

Платформа

Разработка веб-приложения и обвязки

• Личный кабинет с программами тренировок
• Отслеживание прогресса и повторное прохождение
• Реализация механизма оплаты

Пилоты и масштабирование

Тестирование и накопление базы сбоев

• Проведение демо сессий и сбор обратной связи
• Добавление новых инцидентов
• Оптимизация сценариев по сложности и таймингу

Результаты

50+ сценариев

Коллекция инцидентов от «удалили БД» до массового DDoS

3 года опыта за месяцы

Сотрудники проходят десятки сбоев и ускоряют реакцию

Снижение простоев

Команды быстрее диагностируют и устраняют повторяющиеся аварии

Уверенность команды

Инженеры знают, как действовать ночью и не поддаются панике