Перейти к содержанию

Поддержка

Команда

Имя Роль Контакт
Max Product Owner Telegram
zardes / Костя DevOps Lead Telegram
Ярослав DevOps L2 Telegram
Глеб DevOps L2 Telegram
Марат DevOps L2 Telegram
Даниил DevOps L2 Telegram

Основной канал коммуникации — Telegram.

Ресурсы

Ресурс URL
Мониторинг (Grafana) monitor.karmann.tech
Wiki wiki.shiva-app.io
GitLab git.karmann.tech
Vaultwarden (пароли) vault.shivavpn.io

Диагностика перед эскалацией

# Проверка бэкенда
./scripts/ssh-internal.sh 10.99.87.249 \
  "curl -s http://localhost:8080/actuator/health"

# Статус контейнеров
./scripts/ssh-internal.sh 10.99.87.249 "docker ps"

# Проверка прокси
ssh -p 2255 root@212.70.189.60 "docker ps; nginx -t"

# Ошибки в логах за последний час
./scripts/ssh-internal.sh 10.99.87.249 \
  "docker logs vpn-back-blue --since 1h 2>&1 | grep -i error | tail -20"

Уровни критичности и эскалация

P0 — Критическая проблема

Влияние: Полная недоступность сервиса SLA: Реакция в 15 минут, разрешение в 2 часа Примеры: API недоступен, массовый разлогин, DDoS Эскалация: Сообщение в Telegram-группу команды немедленно

P1 — Высокий приоритет

Влияние: Значительная деградация SLA: Реакция в 30 минут, разрешение в 4 часа Примеры: VPN серверы не синхронизируются, ошибки оплаты Эскалация: Telegram-группа команды

P2 — Средний приоритет

Влияние: Частичная деградация SLA: Реакция в 2 часа, разрешение в 1 день Примеры: Замедление на отдельных серверах, периодические ошибки Эскалация: Сообщение в Telegram

Создание тикета (инцидент)

Задокументировать в monorepo: incidents/INCIDENT-NAME-YYYY-MM-DD.md

Структура:

## Инцидент: <краткое описание>

**Начало:** YYYY-MM-DD HH:MM
**Обнаружил:** <кто>
**Влияние:** <что сломано, сколько пользователей>

### Хронология
- HH:MM — <событие>
- HH:MM — <действие>

### Root cause
<причина>

### Решение
<что сделали>

### Предотвращение
<что изменить чтобы не повторилось>