Reinforcement Learning Engineer - Ingénieur(e) en apprentissage par renforcement

NBCUniversal

Montreal

Permanent à temps plein

Postulez

Offre publiée le 2026-06-30

Compétences recherchées — Connectez-vous et téléversez votre CV pour comparer avec votre profil

Analyse de données Intelligence artificielle Agile +6 autres

Détails du poste

Lieu de travail : Montreal
Type de poste : Permanent à temps plein

Description du poste

Nous sommes à la recherche d’un(e) ingénieur(e) en apprentissage par renforcement ayant de l’expérience dans la création et l’exploitation d’environnements virtuels pour l’entraînement d’agents autonomes. Ce rôle consiste à concevoir des environnements de simulation robustes, des structures de récompense et des architectures de politiques capables d’évoluer dans des contextes complexes et multi-capteurs.

Vous jouerez un rôle clé dans le rapprochement entre simulation et performance réelle en développant des systèmes RL évolutifs et en garantissant un comportement fiable des agents dans des conditions variées.

Responsabilités clés

Collaboration interfonctionnelle : Travailler avec les ingénieurs ML, les équipes d’annotation et les TPM afin de définir les besoins en données, en simulation et en entraînement.
Conception d’environnements : Développer et maintenir des environnements de simulation 2D/3D à haute fidélité à l’aide d’outils tels que Unity, Unreal ou Isaac Sim.
Ingénierie des récompenses : Concevoir et optimiser des fonctions de récompense afin d’aligner le comportement des agents avec les objectifs produit et les contraintes de sécurité.
Implémentation d’algorithmes : Développer et optimiser des algorithmes d’apprentissage par renforcement (ex. : PPO, SAC, RL hors ligne) adaptés à des espaces d’observation à haute dimension.
Stratégie sim-to-real : Réduire l’écart entre simulation et réalité à l’aide de techniques comme la randomisation de domaine et l’adaptation afin d’assurer des performances fiables en conditions réelles.

Qualifications

Formation : Maîtrise ou Doctorat en robotique, informatique, intelligence artificielle ou domaine connexe avec une spécialisation en apprentissage par renforcement, imitation ou apprentissage en ligne.
Expérience : Expérience démontrée en tant qu’ingénieur(e) en apprentissage par renforcement ou en recherche dans un environnement dynamique.
Contexte industriel : Une expérience dans des secteurs multidisciplinaires tels que la robotique, les réseaux intelligents, l’agriculture de précision, les jeux vidéo ou l’aérospatiale est fortement valorisée.

Compétences techniques

Outils principaux : Excellente maîtrise de Python, Git et des environnements Unix.
Frameworks RL : Expérience avec des frameworks tels que Ray RLlib, Stable Baselines3 ou CleanRL.
Physique et simulation : Expérience avec des moteurs physiques (MuJoCo, Bullet) ou des environnements de simulation 3D.
Écosystème : Familiarité avec des outils collaboratifs tels que Jira, Confluence, Slack, les workflows Git et les plateformes de suivi d’expériences.

Qualités recherchées

Solides bases mathématiques : Bonne compréhension des processus de décision de Markov (MDP) et de l’optimisation basée sur le gradient.
Rigueur et précision : Capacité à déboguer des systèmes non déterministes et à assurer la cohérence et la précision des environnements de simulation.

Informations complémentaires

As part of our selection process, external candidates may be required to attend an in-person interview with an NBCUniversal employee at one of our locations prior to a hiring decision. NBCUniversal's policy is to provide equal employment opportunities to all applicants and employees without regard to race, color, religion, creed, gender, gender identity or expression, age, national origin or ancestry, citizenship, disability, sexual orientation, marital status, pregnancy, veteran status, membership in the uniformed services, genetic information, or any other basis protected by applicable law.

If you are a qualified individual with a disability or a disabled veteran and require support throughout the application and/or recruitment process as a result of your disability, you have the right to request a reasonable accommodation. You can submit your request to

Postulez

Offre publiée le 2026-06-30

Postulez