L'essentiel
Nomenclature
du niveau de qualification
Niveau 7
Code(s) NSF
326 : Informatique, traitement de l'information, réseaux de transmission
326p : Informatique, traitement de l'information (organisation, gestion)
326t : Programmation, mise en place de logiciels
Formacode(s)
31023 : Données massives
Date d’échéance
de l’enregistrement
14-12-2025
Nom légal | Siret | Nom commercial | Site internet |
---|---|---|---|
PMN | 88436959600025 | Ecole PMN | http://www.ecole-pmn.fr |
Objectifs et contexte de la certification :
Le Data Engineer préconise et met en place les ressources techniques nécessaires à la performance de l’analyse des données massives et de l’intelligence artificielle.
Véritable interface entre la technique et le métier, le Data Engineer est au cœur du déploiement des technologies Big Data et de l’exploitation des données métier. À partir de la problématique métier, et en fonction des algorithmes pertinents envisagés, il met en place une plateforme de collecte et de traitements des données adaptée, suit l’ensemble du processus de développement de Big Data et de l’intelligence artificielle, et en propose les adaptations.
Les nombreuses utilisations de l’intelligence artificielle font émerger des besoins de compétences : de la collecte à l’analyse de données, du langage de programmation en passant par l’architecture.
Activités visées :
Concevoir un projet d’architecture de gestion de données massives
Elaborer une solution technique de collecte et de traitement de données massives
Déployer l’architecture de gestion de données massives
Piloter un projet de gestion de données massives
Compétences attestées :
Analyser le fonctionnement d’une organisation et ses flux de données à partir d’une cartographie des données et d’une étude préalable afin d’identifier l’opportunité de développement d’un projet d’architecture
Décrire, en les formalisant, des cas d’usages du domaine de la Data en exploitant des méthodes d’idéation et en prenant en compte les spécificités de l’écosystème pour déterminer les besoins d’une architecture de gestion de données
Elaborer un système de veille technologique et réglementaire propre au secteur du numérique avec une attention particulière sur les thèmes du cloud, du décisionnel et du Big Data en sélectionnant différentes sources vérifiées, en collectant et en analysant les informations afin d’adapter les choix technologiques et les pratiques associées aux tendances observées
Identifier les sources critiques relatives au respect du cadre juridique et de la démarche de responsabilité sociétale en suivant les publications des organismes officiels afin d’améliorer la conformité du projet d’architecture de gestion de données massives en continu et de garantir le respect du cadre juridique
Partager les résultats issus de la veille en les synthétisant en interne via un outil de partage documentaire professionnel afin de diffuser les bonnes pratiques et le respect réglementaire auprès des équipes projet
Initier une étude de faisabilité de l’architecture data en collaboration avec un Data Scientist ou un Data Analyst, en sélectionnant et en catégorisant les données à traiter en fonction de leur disponibilité, leur valeur ajoutée et leur adéquation vis-à-vis du projet d’architecture, afin de définir le périmètre du prototype
Elaborer un prototype de l’architecture data en utilisant la technologie retenue sur un périmètre fonctionnel réduit afin d’évaluer son opérationnalité et sa pertinence au regard des besoins identifiés
Rédiger un cahier des charges formalisant les besoins, les objectifs, les risques, les contraintes, les sources de données ainsi que les enjeux réglementaires (RGAA, RGPD) et éthiques associés tels que la RSE et la sobriété énergétique Green IT afin de définir le périmètre du projet
Rédiger les spécifications techniques et fonctionnelles générales de l’architecture d’analyse de données massives en analysant les besoins et les retours d’expérience du prototype afin de préparer la mise en œuvre du projet
Concevoir un processus de collecte et de traitement de données massives en déterminant le référentiel de données, en créant des procédures de sélection et d’extraction de données multiples ainsi que des solutions de stockages afin de préparer le paramétrage des outils d’extraction, de traitement et de chargement
Elaborer une doctrine de collecte et de traitement des données exhaustive et commune à l’organisation en décrivant les étapes et calculs de traitement et de visualisation des données dans le respect des normes juridiques et des procédures garantissant la sécurité des données et des systèmes afin de réduire les risques juridiques
Intégrer des donnés à la solution de traitement en extrayant les sources au préalable, en élaborant des circuits automatisant les flux de données et en transformant les données de différentes sources afin de les mettre en forme et les harmoniser avant de les stocker
Alimenter les environnements de stockage en lançant la procédure de chargement des données et en supervisant son bon fonctionnement afin d’avoir à disposition une base correctement structurée et des données actualisées et exploitables
Installer et paramétrer des solutions de stockage de données massives en structurant des bases de données NoSQL, en organisant des systèmes de fichiers distribués et de stockage répartis de données afin d’obtenir un environnement de stockage opérationnel et conforme aux spécifications
Mettre à disposition l’ensemble des données aux Data Scientists ou aux Data Analysts selon un format exploitable en s’appuyant sur les données de référence du système d’information afin de garantir la qualité de données et la consolidation des systèmes de stockage de données sur le cloud au sein de Data Warehouse/Data Lake
Analyser de gros volumes de données en développant des algorithmes et en réalisant des analyses statistiques et techniques au moyen de langages d’exploration ou statistiques afin de produire des résultats chiffrés et quantifiés
Présenter les résultats aux utilisateurs de la solution sous forme de rapports structurés et intelligibles en exploitant des outils de restitution de données, en ajoutant des moyens de segmentation et d’organisation des données afin de garantir la compréhension des points importants de l'analyse aux utilisateurs
Tester l’architecture d’exploitation de données massives élaborée en concevant des tests de validation et en les menant sur l’environnement de recette afin de garantir son bon fonctionnement .et de décider ou non de mettre en production la solution
Rédiger le bilan des tests dans un procès-verbal de recette après consignation des résultats dans un tableau afin de valider la mise en production de la solution par une instance décisionnaire
Déployer la solution informatique en installant tous les composants sur le SI avec les équipe techniques d’exploitation, en installant la solution et en définissant les rôles et habilitations utilisateurs afin de rendre l’architecture opérationnelle
Activer les procédures d’échanges et de synchronisation des données avec les autres briques fonctionnelles du SI afin de les interconnecter au moyen des outils et automatismes du SI
Accompagner les équipes utilisatrices à la prise en main de la solution en présentant les méthodes et concepts associés, en explicitant les fonctionnalités de l’architecture, en prenant en compte les éventuelles situations de handicap afin d’assurer la montée en compétences des équipes clients
Assurer un appui technique aux équipes utilisatrices au moyen d’outils de collecte et de traitement d’anomalies, d’incidents ou de problèmes afin d’assurer l’appropriation de la solution par les équipes
Conduire une maintenance corrective régulière en implémentant un système d’enregistrement et de gestion des incidents et anomalies, afin d’assurer le maintien opérationnel de l’architecture et des outils développés
Conduire une maintenance évolutive compte tenu des évolutions réglementaires et techniques liés à la sécurité des données et des systèmes, en intégrant de nouveaux besoins identifiés dans une feuille de route applicative (RoadMap) validé par une instance décisionnaire afin d’assurer l’opérationnalité de l’architecture et de ses outils dans le temps et de répondre aux besoins émergents sur le marché
Déterminer l’organisation du projet en rédigeant un plan de projet formalisant les facteurs clés de succès, l’inclusion des personnes en situation de handicap, l’évaluation des charges, l’identification des acteurs, un plan d’actions intégrant les spécifications techniques et fonctionnelles afin de partager ce cadrage avec les acteurs du projet
Définir les conditions de suivi du projet et les instances de pilotage en les décrivant dans le plan de projet afin de répondre aux orientations du projet de gestion de données massives dans le délai imparti
Superviser un projet d’architecture de gestion de données massives en organisant et coordonnant l’équipe projet, en vérifiant le respect des clauses contractuelles, effectuant des reporting, en exploitant des méthodes agiles et en prenant en compte les éventuelles situations de handicap afin d’assurer l’exécution du projet
Suivre le budget alloué au projet en identifiant les charges consommées et le reste à produire et en mesurant les écarts entre le prévu et le réalisé afin de respecter la limite financière du projet
Coordonner efficacement les membres de l’équipe projet en assurant un suivi RH régulier, la gestion des compétences et les entretiens annuels des acteurs en tenant compte des périmètres métiers de chacun ainsi que des éventuelles situations de handicap afin d’en assurer un déroulement optimal
Déterminer les modalités, les outils et les étapes formalisés dans un plan d’accompagnement en tenant compte du contexte du projet d’architecture de données massives, des outils de communication et de formation disponibles afin de préparer l’accompagnement au changement adapté au contexte du projet
Rédiger la documentation fonctionnelle à destination des utilisateurs et de l’équipe technique dans un outil de partage documentaire afin d’assurer leur appropriation de la solution et leur adhésion
Modalités d'évaluation :
Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale
Présentation d'un mémoire construit autour d’actions menées en entreprise liées aux compétences de la certification.
RNCP37172BC01 - Concevoir un projet d’architecture de gestion de données massives
Liste de compétences | Modalités d'évaluation |
---|---|
Analyser le fonctionnement d’une organisation et ses flux de données à partir d’une cartographie des données et d’une étude préalable afin d’identifier l’opportunité de développement d’un projet d’architecture Décrire, en les formalisant, des cas d’usages du domaine de la Data en exploitant des méthodes d’idéation et en prenant en compte les spécificités de l’écosystème pour déterminer les besoins d’une architecture de gestion de données Elaborer un système de veille technologique et réglementaire propre au secteur du numérique avec une attention particulière sur les thèmes du cloud, du décisionnel et du Big Data en sélectionnant différentes sources vérifiées, en collectant et en analysant les informations afin d’adapter les choix technologiques et les pratiques associées aux tendances observées Identifier les sources critiques relatives au respect du cadre juridique et de la démarche de responsabilité sociétale en suivant les publications des organismes officiels afin d’améliorer la conformité du projet d’architecture de gestion de données massives en continu et de garantir le respect du cadre juridique Partager les résultats issus de la veille en les synthétisant en interne via un outil de partage documentaire professionnel afin de diffuser les bonnes pratiques et le respect réglementaire auprès des équipes projet Initier une étude de faisabilité de l’architecture data en collaboration avec un Data Scientist ou un Data Analyst, en sélectionnant et en catégorisant les données à traiter en fonction de leur disponibilité, leur valeur ajoutée et leur adéquation vis-à-vis du projet d’architecture, afin de définir le périmètre du prototype Elaborer un prototype de l’architecture data en utilisant la technologie retenue sur un périmètre fonctionnel réduit afin d’évaluer son opérationnalité et sa pertinence au regard des besoins identifiés Rédiger un cahier des charges formalisant les besoins, les objectifs, les risques, les contraintes, les sources de données ainsi que les enjeux réglementaires (RGAA, RGPD) et éthiques associés tels que la RSE et la sobriété énergétique Green IT afin de définir le périmètre du projet Rédiger les spécifications techniques et fonctionnelles générales de l’architecture d’analyse de données massives en analysant les besoins et les retours d’expérience du prototype afin de préparer la mise en œuvre du projet |
Mise en situation professionnelle - Cas pratique avec rendu de livrables
|
RNCP37172BC02 - Elaborer une solution technique de collecte et de traitement de données massives
Liste de compétences | Modalités d'évaluation |
---|---|
Concevoir un processus de collecte et de traitement de données massives en déterminant le référentiel de données, en créant des procédures de sélection et d’extraction de données multiples ainsi que des solutions de stockages afin de préparer le paramétrage des outils d’extraction, de traitement et de chargement Elaborer une doctrine de collecte et de traitement des données exhaustive et commune à l’organisation en décrivant les étapes et calculs de traitement et de visualisation des données dans le respect des normes juridiques et des procédures garantissant la sécurité des données et des systèmes afin de réduire les risques juridiques Intégrer des donnés à la solution de traitement en extrayant les sources au préalable, en élaborant des circuits automatisant les flux de données et en transformant les données de différentes sources afin de les mettre en forme et les harmoniser avant de les stocker Alimenter les environnements de stockage en lançant la procédure de chargement des données et en supervisant son bon fonctionnement afin d’avoir à disposition une base correctement structurée et des données actualisées et exploitables Installer et paramétrer des solutions de stockage de données massives en structurant des bases de données NoSQL, en organisant des systèmes de fichiers distribués et de stockage répartis de données afin d’obtenir un environnement de stockage opérationnel et conforme aux spécifications Mettre à disposition l’ensemble des données aux Data Scientists ou aux Data Analysts selon un format exploitable en s’appuyant sur les données de référence du système d’information afin de garantir la qualité de données et la consolidation des systèmes de stockage de données sur le cloud au sein de Data Warehouse/Data Lake Analyser de gros volumes de données en développant des algorithmes et en réalisant des analyses statistiques et techniques au moyen de langages d’exploration ou statistiques afin de produire des résultats chiffrés et quantifiés Présenter les résultats aux utilisateurs de la solution sous forme de rapports structurés et intelligibles en exploitant des outils de restitution de données, en ajoutant des moyens de segmentation et d’organisation des données afin de garantir la compréhension des points importants de l'analyse aux utilisateurs Tester l’architecture d’exploitation de données massives élaborée en concevant des tests de validation et en les menant sur l’environnement de recette afin de garantir son bon fonctionnement .et de décider ou non de mettre en production la solution Rédiger le bilan des tests dans un procès-verbal de recette après consignation des résultats dans un tableau afin de valider la mise en production de la solution par une instance décisionnaire. |
Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale |
RNCP37172BC03 - Déployer l’architecture de gestion de données massives
Liste de compétences | Modalités d'évaluation |
---|---|
Déployer la solution informatique en installant tous les composants sur le SI avec les équipe techniques d’exploitation, en installant la solution et en définissant les rôles et habilitations utilisateurs afin de rendre l’architecture opérationnelle Activer les procédures d’échanges et de synchronisation des données avec les autres briques fonctionnelles du SI afin de les interconnecter au moyen des outils et automatismes du SI Accompagner les équipes utilisatrices à la prise en main de la solution en présentant les méthodes et concepts associés, en explicitant les fonctionnalités de l’architecture, en prenant en compte les éventuelles situations de handicap afin d’assurer la montée en compétences des équipes clients Assurer un appui technique aux équipes utilisatrices au moyen d’outils de collecte et de traitement d’anomalies, d’incidents ou de problèmes afin d’assurer l’appropriation de la solution par les équipes Conduire une maintenance corrective régulière en implémentant un système d’enregistrement et de gestion des incidents et anomalies, afin d’assurer le maintien opérationnel de l’architecture et des outils développés Conduire une maintenance évolutive compte tenu des évolutions réglementaires et techniques liés à la sécurité des données et des systèmes, en intégrant de nouveaux besoins identifiés dans une feuille de route applicative (RoadMap) validé par une instance décisionnaire afin d’assurer l’opérationnalité de l’architecture et de ses outils dans le temps et de répondre aux besoins émergents sur le marché |
Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale |
RNCP37172BC04 - Piloter un projet de gestion de données massives
Liste de compétences | Modalités d'évaluation |
---|---|
Déterminer l’organisation du projet en rédigeant un plan de projet formalisant les facteurs clés de succès, l’inclusion des personnes en situation de handicap, l’évaluation des charges, l’identification des acteurs, un plan d’actions intégrant les spécifications techniques et fonctionnelles afin de partager ce cadrage avec les acteurs du projet Définir les conditions de suivi du projet et les instances de pilotage en les décrivant dans le plan de projet afin de répondre aux orientations du projet de gestion de données massives dans le délai imparti Superviser un projet d’architecture de gestion de données massives en organisant et coordonnant l’équipe projet, en vérifiant le respect des clauses contractuelles, effectuant des reporting, en exploitant des méthodes agiles et en prenant en compte les éventuelles situations de handicap afin d’assurer l’exécution du projet Suivre le budget alloué au projet en identifiant les charges consommées et le reste à produire et en mesurant les écarts entre le prévu et le réalisé afin de respecter la limite financière du projet Coordonner efficacement les membres de l’équipe projet en assurant un suivi RH régulier, la gestion des compétences et les entretiens annuels des acteurs en tenant compte des périmètres métiers de chacun ainsi que des éventuelles situations de handicap afin d’en assurer un déroulement optimal Déterminer les modalités, les outils et les étapes formalisés dans un plan d’accompagnement en tenant compte du contexte du projet d’architecture de données massives, des outils de communication et de formation disponibles afin de préparer l’accompagnement au changement adapté au contexte du projet Rédiger la documentation fonctionnelle à destination des utilisateurs et de l’équipe technique dans un outil de partage documentaire afin d’assurer leur appropriation de la solution et leur adhésion |
Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale |
Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :
L’obtention de la certification est conditionnée à la validation de l’ensemble des blocs de compétences. Les blocs de compétences peuvent être acquis séparément. Un bloc acquis l’est à vie.
La validation de la certification est soumise à une évaluation complémentaire prenant la forme d’un mémoire évaluant les compétences de façon transversale faisant l’objet d’en rendu écrit et d’une soutenance orale devant jury.
La certification sera acquise pour les candidats ayant obtenu une moyenne globale supérieure ou égale à 10/20 et une moyenne par bloc de compétence supérieure ou égale à 5/20.
Secteurs d’activités :
Tous les secteurs d’activités sont potentiellement concernés par l’usage de l’intelligence artificielle dès lors que des solutions de résolution de problèmes complexes s’appuyant sur l’informatique font l’objet de projets de développement. L’activité du Data Engineer peut s’exercer au sein d’entreprise utilisatrices, de service de conseils, d’organismes publics ou encore chez des constructeurs informatiques. Ainsi, le professionnel peut évoluer dans des entreprises de taille variable, aussi bien au sein d’un grand groupe qu’au sein d’une PME ou d’un service public. En tant qu'indépendant, il intervient majoritairement sur des projets de plusieurs clients différents. Ses missions sont plus larges en indépendant : son expertise est couplée avec les missions du Data Scientist et du Data Analyst.
Dans une PME / TPE, chez un éditeur de logiciel, il joue un rôle clé dans la définition et l'évolution du produit/système. La demande de compétences sera ici plus variée et les projets de taille inférieure, en règle générale. Il sera aussi amené à travailler avec des partenaires extérieurs et ainsi maîtriser les règles de fonctionnement de ce type de relation.
Dans les petites et moyennes entreprises, le métier est également couplé avec celui de Data Scientist et Data Analyst.
Dans une grande Entreprise de Service Numérique, il apporte son expertise technique sur les infrastructures. Il sera ici focalisé sur son périmètre de projet et son expertise métier, souvent de plus grande taille et interne. Le besoin d'expertise métier y sera équivalent dans une structure moyenne ou grande et va intervenir sur des missions en interne et externe.
Type d'emplois accessibles :
Data Ingénieur
Ingénieur de données
Ingénieur Big Data
Concepteur Big Data
Data Scientist
Data Analyst
Code(s) ROME :
- M1403 - Études et prospectives socio-économiques
- M1802 - Expertise et support en systèmes d''information
- M1805 - Études et développement informatique
Références juridiques des règlementations d’activité :
Dans l’exercice de son activité, le Data Engineer doit respecter le Règlement Général sur la Protection des Données (RGPD), nouveau règlement européen entré en vigueur le 25 mai 2018 faisant écho à la Loi française Informatique et Liberté du 6 janvier 1978.
Ce nouveau règlement accroit la protection des citoyens en renforçant le contrôle de l’utilisation pouvant être faite des données les concernant.
Le Data Engineer participe activement à la politique de responsabilité sociétale des entreprises (RSE) mise en place dans l’organisation à laquelle il appartient ou par le client pour lequel il effectue ses missions. Notamment la transparence et l’éthique dans l’exploitation des données ou l’application des bonnes pratiques du Green IT pour les aspects environnementaux.
Les règle d’accessibilité numériques, Référentiel général d'amélioration de l'accessibilité (RGAA) définissent les bonnes pratiques en termes d’interfaces, de navigation et d’assistance aux utilisateurs des outils qui sont mis à disposition des utilisateurs.
Le cas échant, prérequis à l’entrée en formation :
L'accès au dispositif menant à la certification de Data Engineer est soumis à la condition préalable de détenir un diplôme ou une certification de niveau 6 dans le domaine visé et enregistrée au RNCP.
Le dispositif s’adresse à des candidats détenant à minima ce niveau 6.
Le cas échant, prérequis à la validation de la certification :
Pré-requis disctincts pour les blocs de compétences :
Non
Validité des composantes acquises :
Voie d’accès à la certification | Oui | Non | Composition des jurys | Date de dernière modification |
---|---|---|---|---|
Après un parcours de formation sous statut d’élève ou d’étudiant | X |
Le jury est composé de 3 membres dont 2 professionnels du domaine |
14-12-2022 | |
En contrat d’apprentissage | X |
Le jury est composé de 3 membres dont 2 professionnels du domaine |
14-12-2022 | |
Après un parcours de formation continue | X |
Le jury est composé de 3 membres dont 2 professionnels du domaine |
14-12-2022 | |
En contrat de professionnalisation | X |
Le jury est composé de 3 membres dont 2 professionnels du domaine |
14-12-2022 | |
Par candidature individuelle | X | - | - | |
Par expérience | X |
Le jury est composé de 3 membres dont 2 professionnels du domaine |
14-12-2022 |
Oui | Non | |
---|---|---|
Inscrite au cadre de la Nouvelle Calédonie | X | |
Inscrite au cadre de la Polynésie française | X |
Aucune correspondance
Date de décision | 14-12-2022 |
---|---|
Durée de l'enregistrement en années | 3 |
Date d'échéance de l'enregistrement | 14-12-2025 |
Date de dernière délivrance possible de la certification | 14-12-2029 |
Statistiques :
Lien internet vers le descriptif de la certification :
https://www.ecole-pmn.fr/formations/mastere-data-engineer-alternance/
Liste des organismes préparant à la certification :
Référentiel d'activité, de compétences et d'évaluation :