Alternance - Ingénieur(e) Site Reliability Engineer (SRE) - H/F
Groupe CLS
- Ramonville-Saint-Agne, Haute-Garonne
- Alternance
- Temps-plein
- D'assurer la sécurité, la fiabilité et les performances d'un cluster K8S en automatisant le processus de mise à jour.
- De réduire les risques liés aux mises à jour de l'application et assurer une transition en douceur vers de nouvelles fonctionnalités en mettant en place un système de déploiement en canary.
- De réduire la charge de travail manuelle et répétitive associée à la résolution des incidents récurrents.
- A travers les ateliers spécifiques de la cellule :
- Industrialisation des sondes d'observabilité opérationnelle,
- Nagios, alert manager, prometheus, …
- Mise en place des règles de gestion de flux réseaux en mode Cloud,
- Industrialisation et mutualisation du CICD pour toutes les nouvelles plateformes,
- Automatisation, bonnes pratiques, gestion des pipelines, fiabilité …
- Mise en place et gestion du tracing,
- En accompagnant l'évolution de la plateforme d'observabilité,
- Analyse performances, KPI, indicateurs, gestion des logs …
- En accompagnant l'évolution de l'Infrastructure As Code (IaC).
- Sur les technologies de type Cloud : Git, terraform/Terragrunt, HELM, Prometheus, FluentBeat, OpenSearch, K8S, Kafka, Docker, OpenTelemetry, Grafana, Ansible, service MESH, Jaeger ...
- Dans diverses environnements & OS : Linux, Windows, AWS, AZURE.