Compétences recherchées — Connectez-vous et téléversez votre CV pour comparer avec votre profil
Détails du poste
- Lieu de travail : Montreal (Hybride)
- Type de poste : Temporaire à temps plein
Description du poste
Le Site Reliability Engineer assistera Cyber Data Risk & Resilience en garantissant la fiabilité, la disponibilité, les performances et la visibilité opérationnelle des plateformes et services de cybersécurité critiques. Ce rôle est responsable du maintien du bon fonctionnement des systèmes de production, de l’instrumentation des couches infrastructure et application, de la création de systèmes de surveillance significatifs et d’alertes actionnables, du support à la réponse aux incidents, et de l’amélioration continue des tableaux de bord utilisés par les équipes d’ingénierie, d’opérations, de risque et les parties prenantes exécutives.
Responsabilités
- Maintenir et améliorer la fiabilité, la disponibilité, la scalabilité et les performances des plateformes, services de cybersécurité et de l’infrastructure de support
- Assurer la stabilité opérationnelle au quotidien en surveillant la santé des systèmes, en identifiant les risques, en répondant aux incidents, et en menant à une résolution rapide des problèmes ayant un impact sur les services
- Instrumenter l’infrastructure, les applications, les services, les APIs, les pipelines de données et les composants cloud afin de fournir une visibilité de bout en bout sur le comportement du système et la santé du service
- Concevoir, construire et affiner continuellement les capacités de monitoring, d’alerting, de logging, de tracing et d’observabilité sur les systèmes distribués et les environnements cloud
- Développer des alertes significatives et actionnables afin de réduire le bruit, améliorer la qualité du signal et permettre aux équipes de réagir rapidement aux problèmes émergents
- Définir et suivre des métriques clés de fiabilité, incluant la disponibilité, la latence, le débit, les taux d’erreur, la saturation, les indicateurs de niveau de service, les objectifs de niveau de service et les indicateurs de risque opérationnel
- Construire, maintenir et améliorer des tableaux de bord pour les parties prenantes en ingénierie, opérations, produit, risque et direction, en s’assurant que l’information est exacte, opportune et prête à la décision
- Modifier et améliorer continuellement les tableaux de bord exécutifs afin de soutenir les revues régulières de la direction sur la santé des services, les tendances de fiabilité, les incidents, les risques et les performances opérationnelles
- Collaborer avec les équipes d’ingénierie, de cybersécurité, d’infrastructure, de cloud et d’applications pour identifier les lacunes de fiabilité et mettre en œuvre des améliorations à long terme
- Participer à la réponse aux incidents, à l’analyse des causes racines, à la gestion des problèmes et aux revues post-incidents afin d’empêcher la récurrence et d’améliorer la maturité opérationnelle
- Automatiser les tâches opérationnelles, les contrôles de santé, les rapports, la validation des déploiements et les procédures de reprise afin d’améliorer l’efficacité et de réduire l’effort manuel
- Collaborer avec les équipes d’applications et de plateforme afin d’intégrer les exigences de fiabilité, de monitoring et de supportabilité dans le cycle de développement logiciel
- Supporter les pratiques CI/CD, DevOps et de gestion des releases en validant la préparation opérationnelle, la couverture de monitoring, les plans de rollback et les exigences de support en production
- Contribuer aux efforts d’ingénierie de résilience, incluant la planification de capacité, l’optimisation des performances, la validation du basculement, la préparation à la reprise après sinistre et les tests de chaos/résilience lorsque applicable
- S’assurer que le monitoring, l’alerting, les tableaux de bord et les processus opérationnels s’alignent avec les standards de sécurité d’entreprise, de risque, de conformité et de gouvernance
Qualifications requises
- 10+ ans d’expérience en ingénierie de fiabilité des sites, ingénierie des systèmes, ingénierie logicielle, DevOps, ingénierie d’infrastructure ou opérations de production
- Forte expérience dans le support de plateformes technologiques cloud distribuées, hautement disponibles ou critiques pour la mission
- Expérience pratique des pratiques d’observabilité, incluant le monitoring, l’alerting, le logging, les métriques, le tracing, les tableaux de bord et les rapports sur la santé des services
- Expérience en instrumentation des applications, services, APIs, infrastructures, bases de données et composants cloud afin d’activer une visibilité opérationnelle de bout en bout
- Bonne compréhension des concepts d’ingénierie de fiabilité, incluant SLIs, SLOs, SLAs, budgets d’erreur, gestion des incidents, gestion de capacité et préparation opérationnelle
- Expérience en conception d’alertes actionnables pour soutenir une détection rapide des problèmes, le triage, l’escalade et la résolution
- Expérience dans la création et la maintenance de tableaux de bord opérationnels pour les équipes techniques, équipes de support, et parties prenantes seniors/exécutives
- Compétences solides en scripts ou programmation avec Python, Java, Bash, PowerShell ou langages similaires pour l’automatisation et les outils opérationnels
- Expérience avec des plateformes cloud telles que AWS, Azure ou GCP
- Expérience avec des outils Infrastructure-as-Code tels que Terraform ou technologies similaires
- Expérience avec les pipelines CI/CD, les workflows DevOps, les processus de release et les modèles de support en production
- Expérience en dépannage des systèmes distribués, services REST, architectures orientées événements, plateformes de messagerie et intégrations service-à-service
- Notions de bases de données relationnelles et non relationnelles, telles que PostgreSQL, MSSQL, MongoDB ou plateformes similaires
- Compétences analytiques solides, dépannage et résolution de problèmes avec la capacité de diagnostiquer des problèmes techniques complexes à travers plusieurs couches de la pile
- Compétences solides en communication écrite et verbale, incluant la capacité de traduire des problèmes techniques en mises à jour claires pour les parties prenantes commerciales et exécutives
Compétences préférées
- Expérience dans le support de plateformes de cybersécurité, de risque, de résilience, de conformité ou de sécurité d’entreprise
- Expérience avec des outils d’observabilité et de monitoring tels que Splunk, Grafana, Prometheus, Datadog, Dynatrace, New Relic, Azure Monitor, CloudWatch, OpenTelemetry ou plateformes similaires
- Expérience dans la création de tableaux de bord exécutifs de santé des services, de cartes de fiabilité, de reporting sur le risque opérationnel ou de reporting sur les tendances d’incidents
- Expérience dans le développement de contrôles de santé automatisés, de monitoring synthétique, de cartes de dépendances de service et de runbooks opérationnels
- Expérience dans la réponse aux incidents, la gestion des incidents majeurs, les postmortems, l’analyse des causes racines et les pratiques de gestion des problèmes
- Expérience avec des environnements conteneurisés et cloud-natifs, incluant Kubernetes, Docker, des services serverless ou des plateformes cloud managées
- Expérience avec des plateformes de messagerie distribuée ou de streaming telles que Apache Kafka
- Notions de sécurité cloud-natives, gouvernance et outils de politique tels que Azure Policy, AWS SCP, contraintes GCP ou contrôles connexes
- Notions d’outils Cloud Security Posture Management tels que Wiz, Prisma, CloudGuard ou plateformes similaires
- Expérience avec des services d’IA basés sur le cloud tels que Azure AI, AWS Bedrock ou Google Vertex AI, particulièrement du point de vue du monitoring opérationnel, de la fiabilité ou de la gouvernance
- Expérience en support d’environnements Linux et Windows via la programmation, l’automatisation, le monitoring et le dépannage opérationnel
- Exposition à des technologies web, APIs, services front-end ou monitoring d’applications orientées utilisateurs
Compétences additionnelles
- Esprit de responsabilité solide, avec un focus sur l’excellence opérationnelle et la fiabilité des services
- Capacité à opérer efficacement dans des environnements à rythme rapide orientés production avec une supervision minimale
- Capacité solide à prioriser les problèmes selon l’impact client, le risque pour l’entreprise, la criticité du service et l’urgence opérationnelle
- Compétences de collaboration efficaces à travers les équipes d’ingénierie, d’opérations, de cybersécurité, d’infrastructure, de risque et les groupes de parties prenantes exécutives
- Capacité à communiquer clairement la santé des services, les risques opérationnels, les incidents et les tendances de fiabilité à la fois à des audiences techniques et non techniques
- Esprit proactif et axé sur l’amélioration continue, avec un focus sur l’automatisation, la simplification, la résilience et des résultats mesurables
- Attention aux détails lors de la création de tableaux de bord, la définition de métriques, l’ajustement des alertes et la préparation des rapports opérationnels pour la direction
Informations sur le poste
- Titre du poste : Site Reliability Engineer
- Niveau d’expérience : Level 4 (7-15 years)
- Postes ouverts : 1
- Niveau du poste : FTC
- Contrat : 12 Months Contract
- Lieu : Montreal (Day 1 onboarding onsite / in office presence 3x week)