Site Reliability Engineer

Axelon Services Corporation

Montreal (Hybride)

Temporaire à temps plein

Offre publiée le 2026-05-28

Compétences recherchées — Connectez-vous et téléversez votre CV pour comparer avec votre profil

Gestion des risques Analyse de données Cybersécurité +9 autres

Détails du poste

Lieu de travail : Montreal (Hybride)
Type de poste : Temporaire à temps plein

Description du poste

Le Site Reliability Engineer assistera Cyber Data Risk & Resilience en garantissant la fiabilité, la disponibilité, les performances et la visibilité opérationnelle des plateformes et services de cybersécurité critiques. Ce rôle est responsable du maintien du bon fonctionnement des systèmes de production, de l’instrumentation des couches infrastructure et application, de la création de systèmes de surveillance significatifs et d’alertes actionnables, du support à la réponse aux incidents, et de l’amélioration continue des tableaux de bord utilisés par les équipes d’ingénierie, d’opérations, de risque et les parties prenantes exécutives.

Responsabilités

Maintenir et améliorer la fiabilité, la disponibilité, la scalabilité et les performances des plateformes, services de cybersécurité et de l’infrastructure de support
Assurer la stabilité opérationnelle au quotidien en surveillant la santé des systèmes, en identifiant les risques, en répondant aux incidents, et en menant à une résolution rapide des problèmes ayant un impact sur les services
Instrumenter l’infrastructure, les applications, les services, les APIs, les pipelines de données et les composants cloud afin de fournir une visibilité de bout en bout sur le comportement du système et la santé du service
Concevoir, construire et affiner continuellement les capacités de monitoring, d’alerting, de logging, de tracing et d’observabilité sur les systèmes distribués et les environnements cloud
Développer des alertes significatives et actionnables afin de réduire le bruit, améliorer la qualité du signal et permettre aux équipes de réagir rapidement aux problèmes émergents
Définir et suivre des métriques clés de fiabilité, incluant la disponibilité, la latence, le débit, les taux d’erreur, la saturation, les indicateurs de niveau de service, les objectifs de niveau de service et les indicateurs de risque opérationnel
Construire, maintenir et améliorer des tableaux de bord pour les parties prenantes en ingénierie, opérations, produit, risque et direction, en s’assurant que l’information est exacte, opportune et prête à la décision
Modifier et améliorer continuellement les tableaux de bord exécutifs afin de soutenir les revues régulières de la direction sur la santé des services, les tendances de fiabilité, les incidents, les risques et les performances opérationnelles
Collaborer avec les équipes d’ingénierie, de cybersécurité, d’infrastructure, de cloud et d’applications pour identifier les lacunes de fiabilité et mettre en œuvre des améliorations à long terme
Participer à la réponse aux incidents, à l’analyse des causes racines, à la gestion des problèmes et aux revues post-incidents afin d’empêcher la récurrence et d’améliorer la maturité opérationnelle
Automatiser les tâches opérationnelles, les contrôles de santé, les rapports, la validation des déploiements et les procédures de reprise afin d’améliorer l’efficacité et de réduire l’effort manuel
Collaborer avec les équipes d’applications et de plateforme afin d’intégrer les exigences de fiabilité, de monitoring et de supportabilité dans le cycle de développement logiciel
Supporter les pratiques CI/CD, DevOps et de gestion des releases en validant la préparation opérationnelle, la couverture de monitoring, les plans de rollback et les exigences de support en production
Contribuer aux efforts d’ingénierie de résilience, incluant la planification de capacité, l’optimisation des performances, la validation du basculement, la préparation à la reprise après sinistre et les tests de chaos/résilience lorsque applicable
S’assurer que le monitoring, l’alerting, les tableaux de bord et les processus opérationnels s’alignent avec les standards de sécurité d’entreprise, de risque, de conformité et de gouvernance

Qualifications requises

10+ ans d’expérience en ingénierie de fiabilité des sites, ingénierie des systèmes, ingénierie logicielle, DevOps, ingénierie d’infrastructure ou opérations de production
Forte expérience dans le support de plateformes technologiques cloud distribuées, hautement disponibles ou critiques pour la mission
Expérience pratique des pratiques d’observabilité, incluant le monitoring, l’alerting, le logging, les métriques, le tracing, les tableaux de bord et les rapports sur la santé des services
Expérience en instrumentation des applications, services, APIs, infrastructures, bases de données et composants cloud afin d’activer une visibilité opérationnelle de bout en bout
Bonne compréhension des concepts d’ingénierie de fiabilité, incluant SLIs, SLOs, SLAs, budgets d’erreur, gestion des incidents, gestion de capacité et préparation opérationnelle
Expérience en conception d’alertes actionnables pour soutenir une détection rapide des problèmes, le triage, l’escalade et la résolution
Expérience dans la création et la maintenance de tableaux de bord opérationnels pour les équipes techniques, équipes de support, et parties prenantes seniors/exécutives
Compétences solides en scripts ou programmation avec Python, Java, Bash, PowerShell ou langages similaires pour l’automatisation et les outils opérationnels
Expérience avec des plateformes cloud telles que AWS, Azure ou GCP
Expérience avec des outils Infrastructure-as-Code tels que Terraform ou technologies similaires
Expérience avec les pipelines CI/CD, les workflows DevOps, les processus de release et les modèles de support en production
Expérience en dépannage des systèmes distribués, services REST, architectures orientées événements, plateformes de messagerie et intégrations service-à-service
Notions de bases de données relationnelles et non relationnelles, telles que PostgreSQL, MSSQL, MongoDB ou plateformes similaires
Compétences analytiques solides, dépannage et résolution de problèmes avec la capacité de diagnostiquer des problèmes techniques complexes à travers plusieurs couches de la pile
Compétences solides en communication écrite et verbale, incluant la capacité de traduire des problèmes techniques en mises à jour claires pour les parties prenantes commerciales et exécutives

Compétences préférées

Expérience dans le support de plateformes de cybersécurité, de risque, de résilience, de conformité ou de sécurité d’entreprise
Expérience avec des outils d’observabilité et de monitoring tels que Splunk, Grafana, Prometheus, Datadog, Dynatrace, New Relic, Azure Monitor, CloudWatch, OpenTelemetry ou plateformes similaires
Expérience dans la création de tableaux de bord exécutifs de santé des services, de cartes de fiabilité, de reporting sur le risque opérationnel ou de reporting sur les tendances d’incidents
Expérience dans le développement de contrôles de santé automatisés, de monitoring synthétique, de cartes de dépendances de service et de runbooks opérationnels
Expérience dans la réponse aux incidents, la gestion des incidents majeurs, les postmortems, l’analyse des causes racines et les pratiques de gestion des problèmes
Expérience avec des environnements conteneurisés et cloud-natifs, incluant Kubernetes, Docker, des services serverless ou des plateformes cloud managées
Expérience avec des plateformes de messagerie distribuée ou de streaming telles que Apache Kafka
Notions de sécurité cloud-natives, gouvernance et outils de politique tels que Azure Policy, AWS SCP, contraintes GCP ou contrôles connexes
Notions d’outils Cloud Security Posture Management tels que Wiz, Prisma, CloudGuard ou plateformes similaires
Expérience avec des services d’IA basés sur le cloud tels que Azure AI, AWS Bedrock ou Google Vertex AI, particulièrement du point de vue du monitoring opérationnel, de la fiabilité ou de la gouvernance
Expérience en support d’environnements Linux et Windows via la programmation, l’automatisation, le monitoring et le dépannage opérationnel
Exposition à des technologies web, APIs, services front-end ou monitoring d’applications orientées utilisateurs

Compétences additionnelles

Esprit de responsabilité solide, avec un focus sur l’excellence opérationnelle et la fiabilité des services
Capacité à opérer efficacement dans des environnements à rythme rapide orientés production avec une supervision minimale
Capacité solide à prioriser les problèmes selon l’impact client, le risque pour l’entreprise, la criticité du service et l’urgence opérationnelle
Compétences de collaboration efficaces à travers les équipes d’ingénierie, d’opérations, de cybersécurité, d’infrastructure, de risque et les groupes de parties prenantes exécutives
Capacité à communiquer clairement la santé des services, les risques opérationnels, les incidents et les tendances de fiabilité à la fois à des audiences techniques et non techniques
Esprit proactif et axé sur l’amélioration continue, avec un focus sur l’automatisation, la simplification, la résilience et des résultats mesurables
Attention aux détails lors de la création de tableaux de bord, la définition de métriques, l’ajustement des alertes et la préparation des rapports opérationnels pour la direction

Informations sur le poste

Titre du poste : Site Reliability Engineer
Niveau d’expérience : Level 4 (7-15 years)
Postes ouverts : 1
Niveau du poste : FTC
Contrat : 12 Months Contract
Lieu : Montreal (Day 1 onboarding onsite / in office presence 3x week)

Offre publiée le 2026-05-28