
Ingénieur Observabilité / SRE H/F
- Toulouse
- CDI
- Temps-plein
- Assurer la fiabilité, la performance et l'évolutivité des systèmes de production.
- Collaborer étroitement avec les équipes de développement et d'opérations pour mettre en œuvre les meilleures pratiques SRE et réduire le "toil" (travail manuel répétitif).
- Surveiller et gérer la fiabilité des services et applications en production.
- Définir et maintenir les indicateurs clés de performance (KPIs) et les objectifs de niveau de service (SLOs).
- Répondre aux incidents, mener des analyses de causes profondes (RCA) et rédiger des post-mortems.
- Automatiser les tâches manuelles et répétitives pour réduire le "toil".
- Développer et maintenir l'infrastructure en tant que code (IaC) avec des outils comme Terraform et Ansible.
- Mettre en œuvre et gérer des pipelines CI/CD et des pratiques GitOps.
- Mettre en place des outils de surveillance et d'observabilité (par exemple, Prometheus, Grafana, ELK, Datadog).
- Surveiller les "quatre signaux d'or" : latence, trafic, erreurs et saturation.
- Configurer des alertes et des notifications pour les incidents potentiels.
- Travailler en étroite collaboration avec les équipes de développement et d'opérations.
- Promouvoir une culture "blameless" (sans culpabilité) pour l'analyse des incidents et l'apprentissage.
- Communiquer efficacement avec les parties prenantes sur les questions de fiabilité et de performance.
- Expérience en administration système (SysAdmin/SysOps) avec une orientation vers l'architecture.
- Expérience en développement ou DevOps avec une orientation vers l'architecture.
- Expérience en production.
- Systèmes d'Exploitation: Linux (administration).
- Cloud Computing: AWS, GCP, Azure.
- Automatisation et Configuration: Ansible, Terraform, Puppet, Chef, SaltStack.
- Scripting: Python, Bash, NodeJS.
- CI/CD et GitOps: GitLab, GitHub, FluxCD, ArgoCD.
- Observabilité et Surveillance: Prometheus, Grafana, ELK, DataDog.
- Bases de Données: Connaissance de DBA Oracle.
- Versioning: GIT.
- Compréhension des principes et pratiques SRE.
- Connaissance des différences entre SRE et DevOps.
- Capacité à mesurer et gérer la performance et la fiabilité des services.
- Expérience dans la gestion des incidents et la rédaction de post-mortems.
- Aptitude à identifier et réduire le "toil".
- Esprit d'équipe et capacité à collaborer efficacement.
- Ouverture d'esprit et volonté d'apprendre de nouvelles technologies et méthodes.
- Force de persuasion.
- Mentalité axée sur la qualité de service (QoS).
- Esprit d'équipe et responsabilité collective.