Перейти к содержимому













Фотография
Скачать

[Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив [2020]



  • Авторизуйтесь для ответа в теме
В этой теме нет ответов

#1 НЛО

НЛО

    Запись опубликована анонимно ✔

  • Сливапер LVL 6
  • Сообщений: 26 650
  • Регистрация: 04.06.2018
  • Заработано: 10 179 руб.
Репутация: 12 564

Награды: 55

  
  
  
  
  
  
  
  

Отправлено 22 Январь 2021 - 14:31

Название: [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив [2020]

Автор: Слёрм


На курсе вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
 
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
нагрузкой.
 
Чинить
Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.
 
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
 
Требования к участникам:
- Свободное владение Linux;
- Любой язык программирования: уровень Junior;
- GitLab: навыки автоматизации;
- Prometheus: навыки мониторинга;
- Kubernetes: навыки работы в кластере.
 
Тема №1: Основные принципы и методы SRE
Что нужно чтобы стать SRE?
DevOps vs SRE
Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
SLI, SLO и SLA
Error budget и его роль в SRE
Тема №2: Дизайн распределенных систем
Архитектура и функционал приложения
Non-Abstract Large System Design
Operability / Design for failure
gRPC или REST
Версионирование и обратная совместимость
Тема №3: Как принимают проект SRE
Лучшие практики от SRE
Чек-лист приема проекта
Логирование, метрики, трейсинг
Забираем CI/CD в свои руки
Тема №4: Проектирование и запуск распределенной системы
Обратное проектирование — как работает система?
Согласовываем SLI и SLO
Практика capacity planning
Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
Запускаем Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and Alerting
Monitoring vs. Observability
Настраиваем мониторинг и алертинг с Prometheus
Практический мониторинг SLI и SLO
Symptoms vs. Causes
Black-Box vs. White-Box Monitoring
Распределенный мониторинг доступности приложений и серверов
4 золотых сигнала (обнаружение аномалий)
Тема №6: Практика тестирования надежности систем
Работа под давлением
Failure-injection
Chaos Monkey
Тема №7: Практика incident response
Алгоритм управления стрессом
Взаимодействие между участниками инцидента
Постмортем
Knowledge sharing
Формирование культуры
Контроль неисправностей
Проведение blameless разбора полетов
Тема №8: Практика управления нагрузкой
Балансировка нагрузки
Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
DDoS (создаем нагрузку) + Cascading Failures
Тема №9: Реагирование на инциденты
Разбор полетов
Практика On-Call
Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
Протоколы управления инцидентами
Тема №10: Диагностика и решение проблем
Журналирование
Отладка
Практика анализа и отладки на нашем приложении
Тема №11: Тестирование надежности систем
Нагрузочное тестирование
Тестирование конфигураций
Тестирование производительности
Canary release
Тема №12: Самостоятельная работа и ревью
Реальные кейсы
Проверка спикерами

Anonymous poster hash: c4bc1...2ab


Скрытый контент:

  Для просмотра необходимо войти или зарегистрироваться


Скачать:

Скрытый контент:

  Для просмотра содержимого необходимо 100 очков репутации (вам не хватает 100)

 Скачать без ограничений   Купить этот материал за 390 руб.



🔔 Подпишись на наш канал telegram @slivup_live и бота @kurs_slivup, что бы следить за крутыми новинками форума

  • 1



Похожие темы Collapse

Количество пользователей, читающих эту тему: 1

0 пользователей, 1 гостей, 0 анонимных

×

Зарегистрируйся моментально!