L'essentiel
Nomenclature
du niveau de qualification
Niveau 7
Code(s) NSF
326 : Informatique, traitement de l'information, réseaux de transmission
Formacode(s)
31023 : Données massives
31094 : Conduite projet informatique
Date d’échéance
de l’enregistrement
27-03-2026
Nom légal | Siret | Nom commercial | Site internet |
---|---|---|---|
INSTITUT EUROPEEN F 2I | 41904518200013 | - | https://www.institut-f2i.fr/ |
Objectifs et contexte de la certification :
Les technologies Big Data sont en plein essor et les emplois, qui en découlent, croissent également. Les entreprises ont besoin d’une structure informatique solide pour stocker leurs données. Dans ce cadre le Data Engineer ou l’Ingénieur Data occupe un rôle substantiel, et ce quelque soit le secteur d'activité ou la taille de l'organisation. De fait, le Data Engineer conçoit et développe les infrastructures et outils nécessaires au traitement des données massives et au déploiement de solutions d'Intelligence Artificielle. Le Data Engineer a pour mission de mettre en place la collecte et la mise à disposition des données au sein de l’entreprise. Il est également en charge d’industrialiser et mettre en production des traitements sur les données (par exemple : mise à disposition de tableaux de bord, intégration de modèles statistiques) en lien avec les équipes métiers et les équipes qui les analysent.
Activités visées :
Mise en œuvre d’un processus de veilles technologique et réglementaire en matière d’intelligence artificielle.
Analyse des besoins d'architectures issus des fonctionnalités attendues par les parties prenantes et de la capitalisation de l’expérience acquise.
Définition du projet de développement d’infrastructures de données massives adapté au contexte.
Evaluation des compétences nécessaires adaptées au projet et aux nouveaux enjeux du secteur de l’intelligence artificielle.
Conception de l'architecture de données massives à partir des propositions validées par les parties prenantes.
Développement d’une base de données massive.
Pilotage de l’implémentation de l'architecture de données massives avec les parties prenantes.
Animation et management de l’équipe projet d’intelligence artificielle.
Conception et communication de la stratégie de l’architecture d’entrepôt de données massives (Data Lake, Data Warehouse).
Collecte des ensembles volumineux de données structurées et non structurées provenant de différentes sources.
Développement des composants de l’Intelligence artificielle.
Evaluation des solutions de formatage et de stockage des données massives.
Optimisation du traitement et de la visualisation des données.
Identification des usages et conditions d'utilisation sur la durée de vie de la solution ou de l'équipement d’intelligence artificielle.
Rédaction d'un protocole de maintenance et la documentation technique/technologique d’exploitation mis à disposition des entités utilisatrices.
Maintenance de l’infrastructure de données massives garantissant sa fiabilité.
Compétences attestées :
Mettre en place un processus de veilles technologique et réglementaire en matière d’intelligence artificielle en s’appuyant sur des sources dédiées afin d’anticiper l’évolution des normes et règlements applicables à la certificabilité des systèmes intégrant des intelligences artificielles ou des traitements de données massives.
Exercer une veille technologique et réglementaire à l’aide de sources dédiées, en collectant, classifiant et en analysant l’information afin de mettre en place de nouvelles technologies issues de la recherche en intelligence artificielle et en Science des données les mieux adaptées au projet de développement des infrastructures de données.
Analyser les cas d'usage en data et en intelligence artificielle déjà implémentés, en s’appuyant sur la réalisation d’une cartographie des exigences normatives et règlementaires de l’entreprise, pour les évaluer, les enrichir et en créer de nouveaux en capitalisant sur l’expérience acquise.
Définir le projet de développement d’infrastructures de données massives à réaliser en interaction avec les parties prenantes, en procédant par itérations successives, en vue d’établir une liste exhaustive de ses attentes et prenant en compte les situations de handicap.
Identifier les outils de data science applicables selon le contexte et les objectifs attendus afin de présenter des préconisation et d’intégrer des outils inclusifs IA/Data science adaptés à la problématique métier ainsi qu’à la politique RSE de la structure.
Evaluer toutes les compétences nécessaires à la réalisation du projet d’intelligence artificielle, s’appuyant sur la cartographie des profils nécessaires au projet et prenant en compte les situations de handicap, en vue de constituer une équipe inclusive de développement spécialisée en intelligence artificielle.
Intégrer les profils recrutés en favorisant l’inclusion des personnes en situation de handicap, en collaborant avec le référent handicap de l’entreprise et en identifiant les besoins en formation, afin de permettre leur pleine intégration au sein de l’équipe projet.
Superviser la rédaction du cahier des charges fonctionnels et techniques, en justifiant les choix opérés, et spécifier les livrables afin de déterminer les budgets et les ressources alloués pour la réalisation du projet.
Vérifier l’adéquation du cahier des charges avec les besoins de l’entreprise, en s’appuyant sur des échanges avec celle-ci et en prenant en compte les spécificités techniques et fonctionnelles (sécurisation des données, handicap), en vue de prévenir tout risque d’écarts en cours de réalisation.
Définir la structure générale d’une base de données en ayant recours à la méthodologie de conception et en respectant les cahiers des charges afin de mettre en place une solution d’intelligence artificielle.
Définir un format des données stockées adapté à la structure de la base de données, en utilisant les méthodologies de conception et d’exploitation des données adaptés, en vue de faciliter la saisie et la recherche d’informations.
Vérifier la cohérence de la base de données définie et des formats en s’appuyant sur la méthodologie de conception des bases de données dans le but de les rendre exploitables par une solution d’intelligence artificielle.
Définir et mettre en place des indicateurs de mesure de la performance à partir opérations des tests et des processus de maintenance curative/préventive dans le but de monitorer le retour sur investissement des projets applicatifs.
Gérer les données historiques en utilisant des indicateurs de performance afin de garantir la disponibilité, la qualité et l’amélioration continue de la fiabilité des données.
Etablir un plan d’investissement pluriannuel et mobiliser les financements en se basant sur les plans d’évolution du système d’information afin de réaliser un plan global d’intelligence artificielle et de valorisation des données.
Mobiliser les techniques et outils de conduite de projets inclusifs en mobilisant la culture DevOps et mettant en place des indicateurs de suivi afin de produire les livrables du projet dans le temps imparti, au niveau de qualité attendu.
Maîtriser les méthodes de management de projet en utilisant les outils et les techniques de résolution de problèmes s’inscrivant dans la culture DevOps afin de surmonter les difficultés techniques et humaines rencontrées lors d’un projet.
Motiver et fédérer les équipes projet d’intelligence artificielle en les sensibilisant au processus d’amélioration continue et en construisant les objectifs individuels ou collectifs à travers le dialogue et le consensus prenant en compte les situations de handicap et le développement durable.
Concevoir une architecture d’entrepôt de données massives en mobilisant une expertise des solutions de manipulation des données (ETL/ELT) pour optimiser le stockage et la protection de données structurées ou non structurées provenant de sources multivariées.
Communiquer la stratégie de mise en œuvre de l’architecture d’entrepôt de données massives et ses résultats aux parties prenantes en respectant le cahier des charges ainsi que la réglementation en matière de sécurité informatique afin de dégager un avantage stratégique et commercial pour l’entreprise.
Collecter des ensembles volumineux de données structurées et non structurées issues de sources internes et externes de l’entreprise à l’aide de solutions adaptées de manipulation de données afin d’en dégager des résultats visualisables sur des interfaces de visualisation et/ou modélisation.
Développer les composants de l’intelligence artificielle en langage de programmation approprié en respectant les normes du domaine et les principes déontologiques établis afin de respecter la démarche d’assurance qualité du code produit.
Développer des algorithmes tels que les forêts aléatoires, les arbres de décision, l’algorithme K-Nearest Neighbors, la régression linéaire, l’algorithme de Naïve Bayes, la machine à vecteurs de support (SVM), régression logistique et boosting de gradient, reposant sur des modèles statistiques en vue de mettre en œuvre les processus d’apprentissage automatique (« Machine learning »).
Mettre en œuvre les technologies reposant sur les réseaux de neurones et prenant en compte les principes éthiques selon les normes en vigueur en vue d’intégrer les processus d’apprentissage profond (« Deep learning »).
Evaluer différentes solutions de formatage et de stockage en se basant sur les solutions de chiffrements et de pare-feux ainsi qu’en prenant en compte les contraintes éthiques et légales en vue de favoriser leur traitement, leur centralisation et leur sécurisation.
Créer ou identifier les différents algorithmes d’optimisation du traitement et de la visualisation des données pour évaluer leur capacité à résoudre des problèmes spécifiques.
Mettre en œuvre un algorithme répondant au besoin d’optimisation du traitement des données répondant aux besoins des parties prenantes afin de résoudre un problème de décision séquentiel simple.
Présenter les résultats d’analyses de données massives sous la forme d’infographies en mettant en la configuration des requêtes de manière à faciliter la prise de décision managériale ou opérationnelle.
Etablir le schéma général des accès à l’application développée prenant en compte le référentiel d’accessibilité (RGAA), en vue d’assurer leur cohérence avec l’organisation de l’entreprise utilisatrice et les différentes parties prenantes.
Valider régulièrement la production de la solution d’intelligence artificielle en s’appuyant sur le retour d’expérience des utilisateurs en interne et en externe afin d’adapter les fonctionnalités et les caractéristiques techniques du projet d’intelligence artificielle.
Assurer la pérennité de la solution informatique en surveillant l’évolution des données de travail afin d’éviter la dégradation des performances des modèles d’intelligence artificielle mis en production et assurer un niveau de sécurisation des données optimal défini par la DSI.
Rédiger les protocoles de maintenance et les procédures techniques/technologiques d'exploitation à destination des entités utilisatrices, en configurant les éléments nécessaires garantissant la sécurisation des données et des systèmes afin de mener à bien tout projet de développement et anticiper les risques du système de gouvernance des données.
Identifier le cycle de vie des cas d’usage de l’intelligence artificielle en monitorant le modèle en production afin d’assurer la maintenance de l’infrastructure et d’en anticiper les évolutions.
Concevoir un ensemble de tests de surveillance des pipelines pipelines d’intégration continue et de déploiement continu (CI/CD) en se basant sur un traitement des données par flux et par lot afin d’anticiper les montées en charge et optimiser la fiabilité globale de l’infrastructure de données massives.
Reproduire une chaîne de modélisation à partir du versionnage des différents types d’application (modèles prédictifs) afin de gérer le déploiement sur un serveur ou un cloud.
Mesurer et détecter la dérive des données en se basant sur des indicateurs-clés afin d’appliquer des correctifs dans le cadre de la résolution de bugs techniques et/ou fonctionnels.
Modalités d'évaluation :
Les compétences sont évaluées par le biais d'études de cas, de mises en situation professionnelle.
RNCP37422BC01 - Analyser les besoins en matière d'infrastructures de données adaptés au projet d'intelligence artificielle
Liste de compétences | Modalités d'évaluation |
---|---|
Mettre en place un processus de veilles technologique et réglementaire en matière d’intelligence artificielle en s’appuyant sur des sources dédiées afin d’anticiper l’évolution des normes et règlements applicables à la certificabilité des systèmes intégrant des intelligences artificielles ou des traitements de données massives. Exercer une veille technologique et réglementaire à l’aide de sources dédiées, en collectant, classifiant et en analysant l’information afin de mettre en place de nouvelles technologies issues de la recherche en intelligence artificielle et en Science des données les mieux adaptées au projet de développement des infrastructures de données. Analyser les cas d'usage en data et en intelligence artificielle déjà implémentés, en s’appuyant sur la réalisation d’une cartographie des exigences normatives et règlementaires de l’entreprise, pour les évaluer, les enrichir et en créer de nouveaux en capitalisant sur l’expérience acquise. Définir le projet de développement d’infrastructures de données massives à réaliser en interaction avec les parties prenantes, en procédant par itérations successives, en vue d’établir une liste exhaustive de ses attentes et prenant en compte les situations de handicap. Identifier les outils de data science applicables selon le contexte et les objectifs attendus afin de présenter des préconisation et d’intégrer des outils inclusifs IA/Data science adaptés à la problématique métier ainsi qu’à la politique RSE de la structure. Evaluer toutes les compétences nécessaires à la réalisation du projet d’intelligence artificielle, s’appuyant sur la cartographie des profils nécessaires au projet et prenant en compte les situations de handicap, en vue de constituer une équipe inclusive de développement spécialisée en intelligence artificielle. Intégrer les profils recrutés en favorisant l’inclusion des personnes en situation de handicap, en collaborant avec le référent handicap de l’entreprise et en identifiant les besoins en formation, afin de permettre leur pleine intégration au sein de l’équipe projet. |
EPREUVE N°1 (C1 à C7) : Etude de cas (production et soutenance) « Analyse des besoins en matière d’infrastructures de données adaptés au projet d’intelligence artificielle » EPREUVE N°2 (C6 à C7) : Mise en situation professionnelle (production) « Evaluation des compétences nécessaires adaptées au projet de développement d’intelligence artificielle » |
RNCP37422BC02 - Piloter le projet de développement de l'infrastructure de données massives
Liste de compétences | Modalités d'évaluation |
---|---|
Superviser la rédaction du cahier des charges fonctionnels et techniques, en justifiant les choix opérés, et spécifier les livrables afin de déterminer les budgets et les ressources alloués pour la réalisation du projet. Vérifier l’adéquation du cahier des charges avec les besoins de l’entreprise, en s’appuyant sur des échanges avec celle-ci et en prenant en compte les spécificités techniques et fonctionnelles (sécurisation des données, handicap), en vue de prévenir tout risque d’écarts en cours de réalisation. Définir la structure générale d’une base de données en ayant recours à la méthodologie de conception et en respectant les cahiers des charges afin de mettre en place une solution d’intelligence artificielle. Définir un format des données stockées adapté à la structure de la base de données, en utilisant les méthodologies de conception et d’exploitation des données adaptés, en vue de faciliter la saisie et la recherche d’informations. Vérifier la cohérence de la base de données définie et des formats en s’appuyant sur la méthodologie de conception des bases de données dans le but de les rendre exploitables par une solution d’intelligence artificielle. Définir et mettre en place des indicateurs de mesure de la performance à partir opérations des tests et des processus de maintenance curative/préventive dans le but de monitorer le retour sur investissement des projets applicatifs. Gérer les données historiques en utilisant des indicateurs de performance afin de garantir la disponibilité, la qualité et l’amélioration continue de la fiabilité des données. Etablir un plan d’investissement pluriannuel et mobiliser les financements en se basant sur les plans d’évolution du système d’information afin de réaliser un plan global d’intelligence artificielle et de valorisation des données. Mobiliser les techniques et outils de conduite de projets inclusifs en mobilisant la culture DevOps et mettant en place des indicateurs de suivi afin de produire les livrables du projet dans le temps imparti, au niveau de qualité attendu. Maîtriser les méthodes de management de projet en utilisant les outils et les techniques de résolution de problèmes s’inscrivant dans la culture DevOps afin de surmonter les difficultés techniques et humaines rencontrées lors d’un projet. Motiver et fédérer les équipes projet d’intelligence artificielle en les sensibilisant au processus d’amélioration continue et en construisant les objectifs individuels ou collectifs à travers le dialogue et le consensus prenant en compte les situations de handicap et le développement durable. |
EPREUVE N°3 (C8 à C18) : Mise en situation professionnelle (production et soutenance) « Pilotage du projet de développement de l’infrastructure de données massives » |
RNCP37422BC03 - Concevoir les architectures big data valorisant les données
Liste de compétences | Modalités d'évaluation |
---|---|
Concevoir une architecture d’entrepôt de données massives en mobilisant une expertise des solutions de manipulation des données (ETL/ELT) pour optimiser le stockage et la protection de données structurées ou non structurées provenant de sources multivariées. Communiquer la stratégie de mise en œuvre de l’architecture d’entrepôt de données massives et ses résultats aux parties prenantes en respectant le cahier des charges ainsi que la réglementation en matière de sécurité informatique afin de dégager un avantage stratégique et commercial pour l’entreprise. Collecter des ensembles volumineux de données structurées et non structurées issues de sources internes et externes de l’entreprise à l’aide de solutions adaptées de manipulation de données afin d’en dégager des résultats visualisables sur des interfaces de visualisation et/ou modélisation. Développer les composants de l’intelligence artificielle en langage de programmation approprié en respectant les normes du domaine et les principes déontologiques établis afin de respecter la démarche d’assurance qualité du code produit. Développer des algorithmes tels que les forêts aléatoires, les arbres de décision, l’algorithme K-Nearest Neighbors, la régression linéaire, l’algorithme de Naïve Bayes, la machine à vecteurs de support (SVM), régression logistique et boosting de gradient, reposant sur des modèles statistiques en vue de mettre en œuvre les processus d’apprentissage automatique (« Machine learning »). Mettre en œuvre les technologies reposant sur les réseaux de neurones et prenant en compte les principes éthiques selon les normes en vigueur en vue d’intégrer les processus d’apprentissage profond (« Deep learning »). Evaluer différentes solutions de formatage et de stockage en se basant sur les solutions de chiffrements et de pare-feux ainsi qu’en prenant en compte les contraintes éthiques et légales en vue de favoriser leur traitement, leur centralisation et leur sécurisation. Créer ou identifier les différents algorithmes d’optimisation du traitement et de la visualisation des données pour évaluer leur capacité à résoudre des problèmes spécifiques. Mettre en œuvre un algorithme répondant au besoin d’optimisation du traitement des données répondant aux besoins des parties prenantes afin de résoudre un problème de décision séquentiel simple. Présenter les résultats d’analyses de données massives sous la forme d’infographies en mettant en la configuration des requêtes de manière à faciliter la prise de décision managériale ou opérationnelle. Etablir le schéma général des accès à l’application développée prenant en compte le référentiel d’accessibilité (RGAA), en vue d’assurer leur cohérence avec l’organisation de l’entreprise utilisatrice et les différentes parties prenantes. |
EPREUVE N°4 (C19 à C29) : Mise en situation professionnelle (production) « Conception d’une architecture d’entrepôt de données massives » |
RNCP37422BC04 - Piloter la maintenance de l'architecture de données massives
Liste de compétences | Modalités d'évaluation |
---|---|
Valider régulièrement la production de la solution d’intelligence artificielle en s’appuyant sur le retour d’expérience des utilisateurs en interne et en externe afin d’adapter les fonctionnalités et les caractéristiques techniques du projet d’intelligence artificielle. Assurer la pérennité de la solution informatique en surveillant l’évolution des données de travail afin d’éviter la dégradation des performances des modèles d’intelligence artificielle mis en production et assurer un niveau de sécurisation des données optimal défini par la DSI. Rédiger les protocoles de maintenance et les procédures techniques/technologiques d'exploitation à destination des entités utilisatrices, en configurant les éléments nécessaires garantissant la sécurisation des données et des systèmes afin de mener à bien tout projet de développement et anticiper les risques du système de gouvernance des données. Identifier le cycle de vie des cas d’usage de l’intelligence artificielle en monitorant le modèle en production afin d’assurer la maintenance de l’infrastructure et d’en anticiper les évolutions. Concevoir un ensemble de tests de surveillance des pipelines pipelines d’intégration continue et de déploiement continu (CI/CD) en se basant sur un traitement des données par flux et par lot afin d’anticiper les montées en charge et optimiser la fiabilité globale de l’infrastructure de données massives. Reproduire une chaîne de modélisation à partir du versionnage des différents types d’application (modèles prédictifs) afin de gérer le déploiement sur un serveur ou un cloud. Mesurer et détecter la dérive des données en se basant sur des indicateurs-clés afin d’appliquer des correctifs dans le cadre de la résolution de bugs techniques et/ou fonctionnels.
|
EPREUVE N°5 (C30 à C36) : Mise en situation professionnelle (production et soutenance) « Pilotage de la maintenance de l’infrastructure de données massives » |
Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :
La certification professionnelle Data Engineer s’articule autour de quatre blocs de compétences. La certification est délivrée au vu de la validation des quatre blocs de compétences. Les blocs de compétences sont capitalisables. La validation des quatre blocs de compétences est obligatoire pour l’obtention de la certification professionnelle. La validation partielle d’un bloc n’est pas possible.
Secteurs d’activités :
Le Data engineer peut exercer dans différents contextes professionnels, dans des entreprises de toute taille et tout type de structures :
- Grandes entreprises
- PME / TPE
- Industrie
- Sociétés de services et SSII
- Agence web et agence de communication
- Associations
- Secteur public
- Indépendant
Type et taille de projet : Selon la taille de projet, le Data Engineer interviendra sur un ou plusieurs projets avec des équipes projet de différentes tailles. Il travaille en équipe selon la taille du projet et de l'équipe et est lié aux autres métiers de la Data.
Type et taille d'entreprise :
- En tant qu'indépendant, il intervient majoritairement sur des projets de plusieurs clients différents. Ses missions sont plus larges en indépendant, son expertise est couplée avec les missions du Data Scientist et Data Analyst.
- Dans une PME/TPE, chez un éditeur de logiciel, il joue un rôle clé dans la définition et l'évolution du produit/système. La demande de compétences sera ici plus variée et les projets de taille inférieure, en règle générale. Il sera aussi amené à travailler avec des partenaires extérieurs et ainsi maîtriser les règles de fonctionnement de ce type de relation. Dans les petites et moyennes entreprises, le métier est couplé avec celui de Data Scientist et Data Analyst.
- Dans une grande Entreprise de Service Numérique, il apporte son expertise technique sur les infrastructures. Il sera ici focalisé sur son périmètre de projet et son expertise métier, souvent de plus grande taille et interne. Le besoin d'expertise métier y sera équivalent dans une structure moyenne ou grande et va intervenir sur des missions en interne et externe.
Type d'emplois accessibles :
- Data Engineer ;
- Ingénieur data/big data ;
- Ingénieur de données ;
- Data Pipeline Engineer ;
- Big data architecte ;
- Big data consultant ;
- Ingénieur en développement big data.
Code(s) ROME :
- M1806 - Conseil et maîtrise d''ouvrage en systèmes d''information
- M1802 - Expertise et support en systèmes d''information
- M1805 - Études et développement informatique
- M1810 - Production et exploitation de systèmes d''information
- M1801 - Administration de systèmes d''information
Références juridiques des règlementations d’activité :
Le métier de Data Engineer n'est pas réglementé. Néanmoins, des contraintes réglementaires s'exerce dans son quotidien (RGPD, droits et obligations des normes de sécurisation des données, des réseaux et des systèmes, plan de sécurisation du SI, obligations réglementaires et normatives du marché, etc.) mais aussi l’éthique et la prise en compte des situations de handicap.
Le cas échant, prérequis à l’entrée en formation :
Être titulaire d’une certification de niveau 6 (EU) ou d’un diplôme équivalent ou disposer d’une expérience professionnelle dans le domaine.
Le cas échant, prérequis à la validation de la certification :
Pré-requis disctincts pour les blocs de compétences :
Non
Validité des composantes acquises :
Voie d’accès à la certification | Oui | Non | Composition des jurys | Date de dernière modification |
---|---|---|---|---|
Après un parcours de formation sous statut d’élève ou d’étudiant | X |
Le jury de certification est constitué de cinq personnes :
|
28-03-2023 | |
En contrat d’apprentissage | X |
Le jury de certification est constitué de cinq personnes :
|
28-03-2023 | |
Après un parcours de formation continue | X |
Le jury de certification est constitué de cinq personnes :
|
28-03-2023 | |
En contrat de professionnalisation | X |
Le jury de certification est constitué de cinq personnes :
|
28-03-2023 | |
Par candidature individuelle | X | - | - | |
Par expérience | X |
Le jury de certification est constitué de cinq personnes :
|
28-03-2023 |
Oui | Non | |
---|---|---|
Inscrite au cadre de la Nouvelle Calédonie | X | |
Inscrite au cadre de la Polynésie française | X |
Aucune correspondance
Date de décision | 27-03-2023 |
---|---|
Durée de l'enregistrement en années | 3 |
Date d'échéance de l'enregistrement | 27-03-2026 |
Date de dernière délivrance possible de la certification | 27-03-2030 |
Statistiques :
Lien internet vers le descriptif de la certification :
Le certificateur n'habilite aucun organisme préparant à la certification
Référentiel d'activité, de compétences et d'évaluation :