Détails du poste
- Lieu de travail : Montreal
- Type de poste : Permanent à temps plein
Compensation
Compensation: $95,-, plus up to 5% bonus, capped at %
Description du poste
Giesecke+Devrient est une entreprise mondialement leader en SecurityTech. Nous recherchons un Data Engineer technique, orienté exécution, pour rejoindre le nouvel AI Hub de G+D. Le/la candidat(e) idéal(e) combine une expérience pratique en ingénierie des données pour les systèmes d’IA avec de solides compétences en Python, SQL et en ingénierie de pipelines de données. Ce rôle soutiendra à la fois les initiatives d’ingénierie IA et les projets de machine learning en rendant les données d’entreprise fiables, accessibles, bien structurées et prêtes pour une utilisation en production.
Ce poste est axé sur l’ingénierie des données pour la Generative AI, le RAG, l’ingestion de documents, la vector search, les knowledge graphs et les workflows de machine learning, y compris la préparation des données, la qualité des données, le feature engineering et des actifs de données réutilisables pour les solutions d’IA.
Responsabilités principales
- Concevoir, construire et maintenir des pipelines de données qui prennent en charge l’ingénierie IA, le RAG et les initiatives de machine learning, de l’expérimentation à la mise en production.
- Développer des pipelines d’ingestion et de traitement de documents pour le contenu d’entreprise structuré, semi-structuré et non structuré, y compris l’analyse, le nettoyage, la normalisation, l’extraction de métadonnées et l’enrichissement.
- Mettre en œuvre des stratégies de chunking, des pipelines d’embeddings, des workflows d’indexation et des ensembles de données prêts pour la récupération (retrieval-ready) pour les applications RAG et Graph RAG.
- Construire et maintenir des intégrations avec des bases de données vectorielles, des index de recherche, des bases de données de graphes, des data lakes, des entrepôts de données et des systèmes sources d’entreprise.
- Soutenir les initiatives de knowledge graph en préparant les entités, les relations, les ontologies, les métadonnées et des pipelines de données prêts pour le graphe.
- Préparer et transformer les données pour des projets de machine learning, y compris le nettoyage des données, le support à l’annotation, le feature engineering, la validation des features et le versioning des jeux de données.
- Mettre en œuvre des contrôles de qualité des données, la lignée, l’observabilité, la surveillance et des validations automatisées pour les pipelines de données IA et ML.
- Collaborer avec des data scientists, des applied AI engineers, des platform engineers, la sécurité, les équipes de data governance et des parties prenantes business afin de livrer des solutions IA évolutives.
- Contribuer à des composants d’ingestion réutilisables, à des patterns d’ingénierie des données, à des standards techniques et aux meilleures pratiques pour l’AI Hub.
- Toutes autres tâches selon les besoins.
Qualifications
Expérience et exigences éducatives
Work Experience:
- Trois + années d’expérience pratique en ingénierie des données, analytics engineering, machine learning engineering, ou dans des rôles logiciels/développement de données connexes.
- Expérience dans la création de pipelines de données prêts pour la production, des workflows ETL/ELT, des API, des services de données, ou des systèmes de traitement de données distribués.
- Expérience dans la préparation des données pour des projets de machine learning, y compris le nettoyage des données, le feature engineering, la création d’ensembles de données et la validation de la qualité des données.
- Une expérience avec le RAG, le traitement de documents, les embeddings, les bases de données vectorielles, les systèmes de recherche ou les knowledge graphs est fortement préférée.
- Une expérience contribuant à des systèmes prêts pour la production dans des environnements d’entreprise, réglementés ou sensibles à la sécurité est préférée.
Skills and Competencies:
- De solides compétences en Python et SQL, avec une expérience pratique dans la création de pipelines de données fiables, maintenables et testables.
- Une expérience pratique avec des outils et frameworks d’ingénierie des données tels que Pandas, PySpark, Airflow, Dagster, Prefect, dbt, ou technologies similaires.
- Connaissance pratique de l’ingestion de documents, de l’analyse de documents, du chunking, des embeddings, de la recherche sémantique, de la recherche hybride et des pipelines de retrieval.
- Une expérience pratique avec des bases de données vectorielles et des technologies de recherche telles que pgvector, Pinecone, Weaviate, Milvus, OpenSearch, Elasticsearch, ou plateformes similaires.
- Une expérience pratique avec des bases de données de graphes ou des technologies de knowledge graph telles que Neo4j, RDF, SPARQL, la modélisation de données de graphe, ou l’extraction entité-relation est un atout.
- Expérience avec des plateformes cloud de données, des patterns lakehouse, du stockage objet, des bases de données relationnelles et des technologies d’entrepôt de données.
- Compréhension des workflows de machine learning, du feature engineering, des feature stores, des exigences de données pour l’entraînement des modèles et du versioning des jeux de données.
- Capacité à implémenter des contrôles de qualité des données, des tests de validation, la lignée, la surveillance, le contrôle d’accès et des workflows de données tenant compte de la gouvernance.
- Capacité à travailler avec des spécifications techniques, des data contracts, des patterns d’architecture et des standards d’ingénierie.
- Une expérience dans des environnements spec-first, contract-driven, ou Spec-Driven Development est un atout.
- De solides compétences en résolution de problèmes et capacité à travailler dans un environnement dynamique, orienté delivery.
Éducation
:
- Un diplôme de Bachelor en Computer Science, Software Engineering, Data Engineering, Artificial Intelligence, Data Science, ou dans un domaine connexe est préféré.
- Un Master est considéré comme un atout.