Старший разработчик Go мониторинг

Обязанности:
- Разрабатывать инструмент для оркестрации инфраструктуры мониторинга и распределения нагрузки.
- Исправлять баги и дорабатывать Prometheus/Thanos для Ozon-специфичных задач, по возможности пропихивая их в апстрим.
- Искать и оптимизировать узкие места при выполнении запросов к метрикам.
- Писать сервисы и утилиты вокруг Prometheus/Thanos, которые позволяли бы нам разбираться с проблемами и оптимизировать использование ресурсов.
- Разрабатывать сервис управления мониторингом серверов и сетевых устройств, чтобы все наши админы и сетевые инженеры чувствовали себя в безопасности.
- Разрабатывать сервис управления дежурствами и нотификациями о возникших алертах, которыми пользуются все команды Озона.
- Разрабатывать сервис с помощью которого разработчики и админы смогут удобно добавлять и тестировать новые алерты.
- Собирать данные с различных компонентов: серверов, сетевых устройств, систем учёта серверов, нового ПО и внешних аналитических систем.
- Внедрять мониторинг там, где его нет: склады, доставка, почтоматы и т.д.
- Обеспечивать команды общими инструментами и решениями для мониторинга и алертинга.
- Разрабатывать экспортеры под Prometheus для ПО, которое не умеет выдавать метрики в нужном формате.
- Консультировать разработчиков и технических специалистов по интеграции с системой мониторинга и создавать общие дашборды
Требования:
- Вы умеете писать понятный и тестируемый код на одном или более языках: C, C++, Java, Python, Go, Ruby, PHP (мы пишем на Go).
- Вы свободно пользуетесь терминалом в Linux и понимаете, куда посмотреть, когда сервер тупит.
- Вы работали с распределёнными системами (микросервисы, service discovery) и соответствующими инструментами (LXC, Docker, orchestration systems).
- Вы понимаете принципы обеспечения высокой доступности приложений и слышали о балансировщиках нагрузки и rate-limiter'ах.
- Опыт разработки отказоустойчивых сервисов и высоконагруженных систем.
- Понимание архитектуры, принципов и механизмов работы ОС Linux (управление процессами, файловые системы, сетевой стек).
Будет плюсом:
- Вам интересен анализ и решение проблем в масштабных системах, состоящих из большого числа компонентов.
- Вы умеете дебажить и оптимизировать код, автоматизировать рутинные операции.
- Алгоритмический бэкграунд.
- Вы умеете делать CI, build pipeline и собирать Docker-образы и писать Makefile;
- Вы хорошо знакомы с эксплуатацией софта и работал с системами мониторинга (Prometheus, Nagios, Zabbix), логирования и трейсинга.
- Вам интересен анализ и решение проблем в масштабных системах, состоящих из большого числа компонентов.
- Вы умеете дебажить и оптимизировать код, автоматизировать рутинные операции.
Интересные факты:
- Все метрики начиная от сетевых железок и оборудования на складах, заканчивая метриками приложений, хранятся в централизованной системе.
- У нас собирается больше 300 миллионов метрик каждую секунду.
- Огромный продакшен кластер Prometheus — 100+ инстансов.
- Мы активно взаимодействуем с мейнтейнерами Prometheus/Thanos.
- Вся инфраструктура развернута в Kubernetes.
Условия:
- Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе лучший продукт на рынке e-commerce.
- Свободу принимать решения при разработке.
- Достойный уровень заработной платы.
- Профессиональную команду, которой мы гордимся.
- Возможность развиваться вместе с нашим бизнесом.
Похожие вакансии
-
Стажёр-разработчик (Machine Learning)
-
Стажёр-разработчик бэкенда
-
IT Project Manager
-
Стажёр-разработчик (Machine Learning)
-
Стажер в группу безопасности сервисов
-
Младший аналитик SOC (1-ая линия)
-
Сервисный менеджер SOC
-
Стажёр-разработчик бэкенда
-
Стажер UNIX
-
Стажер - Junior QA Automation (Java)
-
Стажёр-разработчик бэкенда
-
Стажер-проектный менеджер
-
Технический менеджер-стажер
-
IT Business Solutions Analyst
-
Стажер-консультант 1С
-
Стажёр-разработчик бэкенда
-
TechAdmin Bootcamp в Омске
-
Стажёр-разработчик бэкенда
-
Стажёр-менеджер по продукту
-
Инженер по информационной безопасности