
Site Reliability Engineer (expérimenté, CDI)
- Valbonne, Alpes-Maritimes
- CDI
- Temps-plein
- Maintien en conditions opérationnelles des systèmes et des applications en production, en optimisant leur disponibilité, performance et évolutivité.
- Automatisation des tâches répétitives et des processus de déploiement, de surveillance et d'alerting.
- Conception et mise en œuvre de solutions permettant d'améliorer la fiabilité des systèmes et de réduire le taux de pannes.
- Analyse des incidents et gestion des urgences, avec pour objectif de diminuer le Mean Time To Recovery (MTTR) et d'accroître la résilience.
- Optimisation des performances des applications et de l'infrastructure, notamment via la gestion des capacités et des coûts.
- Collaboration avec les équipes de développement pour favoriser une approche DevOps et intégrer les pratiques SRE dès les phases de conception.
- Création et suivi de métriques pour mesurer la fiabilité et les performances des systèmes (SLI, SLO, SLA).
- Veille technologique pour assurer l'amélioration continue des outils et des processus SRE.
- Expérience en ingénierie système : Linux/Unix, gestion de serveurs, stockage, et réseaux.
- Maîtrise des outils de monitoring et d'alerting (ex. : Prometheus, Grafana, Datadog, ELK Stack).
- Compétences en automatisation : scripting (Python, Bash, etc.), outils de CI/CD (ex. : Jenkins, GitLab CI, GitHub Actions), et infrastructure-as-code (Terraform, Ansible).
- Expérience avec les environnements cloud : AWS, GCP, Azure ou autres services cloud, ainsi que les architectures de microservices et conteneurs (Docker, Kubernetes).
- Compétences en bases de données : administration et optimisation de bases SQL et NoSQL.
- Capacité à gérer les incidents : compétences en diagnostic et résolution de pannes dans un environnement de production.
- Bonnes compétences en communication pour collaborer avec des équipes pluridisciplinaires et documenter les processus et solutions.
- Expérience en tant que DevOps ingénieur système ou développeur logiciel
- Connaissance des méthodologies de développement agile et des pratiques DevOps
- Participation à la mise en place de processus d'observabilité, de monitoring et de gestion des incidents
- Expérience dans la gestion de la disponibilité et de la performance
- Résistance au stress et capacité à travailler efficacement en cas d'incidents critiques.