L'essentiel
Nomenclature
du niveau de qualification
Niveau 7
Code(s) NSF
326 : Informatique, traitement de l'information, réseaux de transmission
Formacode(s)
31009 : Architecture système information
31052 : Data Warehouse
31023 : Données massives
31094 : Conduite projet informatique
31006 : Sécurité informatique
Date d’échéance
de l’enregistrement
19-07-2026
Nom légal | Siret | Nom commercial | Site internet |
---|---|---|---|
EXCELIA GROUP | 34876850800015 | Excelia | https://www.excelia-group.fr/ |
Objectifs et contexte de la certification :
La certification « Concepteur-Manager des infrastructures de données massives » prépare le titulaire à l’exercice d’activités requérant des savoirs et savoir-faire techniques et technologiques hautement spécialisés dans le domaine de la conception et du management de solutions pour l’extraction, le traitement et l’entreposage de données massives. Ces professionnels interviennent en amont des Data scientistes et des Data analystes avec lesquels ils sont amenés à collaborer activement. Le rôle des titulaires de la certification consiste à concevoir puis développer les infrastructures ou pipeline de données et déployer ensuite des solutions techniques robustes qui permettent aux utilisateurs d’accéder à des données pertinentes et fiables via des plateformes logicielles et des outils d’interface (API). Ces données serviront à éclairer les analyses et les prises de décision métiers (Direction Générale, Marketing, Finances, RH, logistique, ...).
Activités visées :
- Veille scientifique, technologique et règlementaire, identification de l’état de l’art des outils et plateformes logiciels ETL
- Spécification des besoins et dimensionnement des infrastructures de données massives dans une perspective pluriannuelle
- Evaluation et sélection d’une solution ETL globale incluant des développements en propre, des plateformes logicielles et des API disponibles sur le marché
- Développement d’une infrastructure et management des flux et des stocks de données dans le respect du RGAA et du RGPD
- Identification et sélection des solutions data lake les plus performantes sur le marché
- Déploiement d’outils d’extraction et de stockage de données brutes en interne ou dans le cloud
- Management des opérations de traitement des données brutes avant stockage dans un data lake
- Supervision de la rédaction des documents supports à l’utilisation des outils et plateformes logicielles
- Management de la mise en place des bases de données internes et externes dans le respect du RGPD et des critères du RGAA
- Evaluation et sélection d’une solution de traitement et d’entreposage des données
- Déploiement des processus de traitement et de formatage des données brutes pour entreposage
- Mise à disposition de données fiables et pertinentes pour les utilisateurs
- Elaboration d’un guide d’utilisation des plateformes et des API déployées
- Elaboration d’un cahier des charges technique et fonctionnel répondant aux besoins des scientistes et des analystes
- Pilotage du développement d’API, de requêtes et de routines automatisées avec implication de l’ensemble des parties prenantes
- Anticipation des besoins utilisateurs et amélioration continue des plateformes logicielles ETL
- Mise en œuvre d’indicateurs de performance des projets sur l’ensemble de leur cycle de vie
- Management des processus d’automatisation et de fiabilisation des infrastructures, des plateformes et des interfaces
- Contribution à l’amélioration de la qualité des données mises à dispositions des utilisateurs
- Conception et mise en œuvre de Tests d’intégration avant déploiement d’algorithmes d’IA, de nouvelles plateformes logicielles ou d’API
Compétences attestées :
- Mettre en œuvre une veille scientifique, technologique et règlementaire concernant les outils et plateformes logiciels d’extraction de traitement et de stockage (ETL) de données massives;
- Anticiper les besoins futurs pour concevoir et dimensionner une architecture compatible avec la montée en charge des cas d’usage notamment ceux liés à l’IA ;
- Mobiliser des savoirs techniques hautement spécialisés en plateformes et outils logiciels pour évaluer différentes solutions ETL assurant la collecte, le nettoyage et l’entreposage de données massives internes ou externes structurées, semi-structurées et non structurées;
- Recueillir les besoins des différents cas d’usage notamment ceux liés à l’intelligence artificielle pour développer une architecture de flux de données en établissant un cahier des charges fonctionnel et technique ;
- Concevoir une infrastructure fonctionnelle et matérielle pour organiser les flux et les traitements de données depuis des sources multivariées internes et externes jusqu’à un utilisateur final (DG, Direction marketing, Data analystes, data scientistes …) ;
- Mobiliser les principes de la RSE et le RGPD pour participer à l’établissement des règles de gouvernance et de conservation des données et garantir l’accessibilité des data selon les normes du RGAA;
- Recenser et caractériser les outils d’extraction et de stockage de données brutes disponibles sur le marché pour sélectionner la solution la plus adaptée aux besoins de l’entreprise ;
- Mobiliser des savoirs techniques approfondis en déploiement de bases de données pour évaluer les mérites et les limites d’un stockage en propre par rapport à une solution déportée sur le cloud;
- Mettre en œuvre un processus complet d’extraction pour recueillir des données issues de sources multiples et les stocker dans une base de données brutes (lac) centralisée ;
- Identifier et préparer toutes les données pertinentes afin de faciliter leur traitement et leur stockage ultérieurs dans un entrepôt de données ;
- Documenter l’utilisation des bases de données externes et internes pour gérer et entretenir le lac de données en respectant le RGPD et en garantissant l’accessibilité des données selon les normes du RGAA;
- Synthétiser les besoins des utilisateurs pour concevoir des modèles de données performants et résilients afin de faciliter les travaux de data science et de datavisualisation ;
- Mobiliser des savoirs techniques avancés en gestion de bases de données pour sélectionner et mettre en œuvre les solutions de traitement et de stockage massifs adaptées au besoin de l’entreprise ;
- Veiller à l’application des critères du RGAA dans la mise en œuvre des solutions pour garantir l’accessibilité des données aux PSH ;
- Trier, nettoyer et structurer des données brutes pour fabriquer des données propres exploitables par les data scientistes et les data analystes ;
- Organiser le stockage des données dans un entrepôt de manière à assurer la gestion de la data durant la totalité de son cycle de vie conformément aux directives RGPD ;
- Mettre en place des solutions innovantes de types API pour améliorer le temps de mise à disposition de données fiables et exploitables par les data analystes;
- Etablir un cahier des charges technique et fonctionnel pour répondre aux besoins évolutifs des data scientistes, data analystes, partenaires métiers et de la direction générale de l’entreprise ;
- Piloter des projets en mobilisant des équipes pluridisciplinaires (data scientistes, responsable marketing, direction générale, …) pour développer des interfaces types API et des requêtes automatisées à destination de cas d’usage multivariés ;
- Mobiliser des connaissances approfondies en programmation pour développer et superviser le développement des routines informatiques en mode DEV/OPS[1] et réduire le temps de mise à disposition de nouvelles fonctionnalités utiles à l’utilisateur des données;
- Collaborer avec les chefs de produits, les responsables métiers et la direction générale afin d’anticiper les nouveaux usages de la data et élaborer des nouvelles fonctionnalités ;
- Optimiser en continu les processus ETL pour proposer des solutions accessibles aux PSH et plus efficientes en termes de consommation d’énergie et de ressources ;
- Mettre en place des indicateurs de performance projet pour assurer la production de livrables au niveau de qualité attendu, dans les délais et les budgets fixés par le cahier des charges;
- Automatiser et fiabiliser les processus d’extraction et de traitement pour réduire le temps de mise à disposition de données fiables et pertinentes ;
- Fiabiliser une infrastructure, des plateformes logicielles et des API, pour mettre des données fiables et pertinentes à disposition des utilisateurs en anticipant les opérations de maintenance et de mise à jour ;
- Réaliser des tests d’intégration avant déploiement et organiser des retours sur expérience utilisateurs pour contribuer à l‘assurance qualité de l’architecture et de l’infrastructure des mouvements et stockages de données ;
- Mobiliser des savoirs hautement spécialisés pour évaluer et anticiper les risques concernant la sécurité des données en lien avec le RSSI et la protection des données en lien avec le DPO;
- Assurer la fourniture de données propres et pertinentes pour faciliter l’apprentissage machine et la science des données en collaboration avec les data scientistes ;
- Déployer à grande échelle de nouveaux algorithmes conçus en laboratoire par les data scientistes pour mieux modéliser les relations entre les données ;
- Prendre en compte les risques sur le plan de l’éthique et la RSE vis-à-vis des technologies d’intelligence artificielle pour définir les critères qualité d’une infrastructure data fiabilisée et industrialisée.
Modalités d'évaluation :
Webographie – bibliographie professionnelle
Etude de cas
Projet applicatif tutoré
Travaux pratiques
Hackathons
RNCP37750BC01 - Concevoir et développer une architecture fonctionnelle et matérielle pour assurer l’acquisition, le traitement et le stockage de données massives
Liste de compétences | Modalités d'évaluation |
---|---|
Mettre en œuvre une veille scientifique, technologique et règlementaire concernant les outils et plateformes logiciels d’extraction de traitement et de stockage (ETL) de données massives; Anticiper les besoins futurs pour concevoir et dimensionner une architecture compatible avec la montée en charge des cas d’usage notamment ceux liés à l’IA ; Mobiliser des savoirs techniques hautement spécialisés en plateformes et outils logiciels pour évaluer différentes solutions ETL assurant la collecte, le nettoyage et l’entreposage de données massives internes ou externes structurées, semi-structurées et non structurées; Recueillir les besoins des différents cas d’usage notamment ceux liés à l’intelligence artificielle pour développer une architecture de flux de données en établissant un cahier des charges fonctionnel et technique ; Concevoir une infrastructure fonctionnelle et matérielle pour organiser les flux et les traitements de données depuis des sources multivariées internes et externes jusqu’à un utilisateur final (DG, Direction marketing, Data analystes, data scientistes …) ; Mobiliser les principes de la RSE et le RGPD pour participer à l’établissement des règles de gouvernance et de conservation des données et garantir l’accessibilité des data selon les normes du RGAA. |
Webographie / bibliographie professionnelle - Etude de cas - Projet applicatif tutoré |
RNCP37750BC02 - Déployer des outils d’extraction et de stockage pour recueillir des données brutes structurées, non structurées, internes ou externes dans un lac de données
Liste de compétences | Modalités d'évaluation |
---|---|
Recenser et caractériser les outils d’extraction et de stockage de données brutes disponibles sur le marché pour sélectionner la solution la plus adaptée aux besoins de l’entreprise ; Mobiliser des savoirs techniques approfondis en déploiement de bases de données pour évaluer les mérites et les limites d’un stockage en propre par rapport à une solution déportée sur le cloud; Mettre en œuvre un processus complet d’extraction pour recueillir des données issues de sources multiples et les stocker dans une base de données brutes (lac) centralisée ; Identifier et préparer toutes les données pertinentes afin de faciliter leur traitement et leur stockage ultérieurs dans un entrepôt de données ; Documenter l’utilisation des bases de données externes et internes pour gérer et entretenir le lac de données en respectant le RGPD et en garantissant l’accessibilité des données selon les normes du RGAA. |
Etude de cas - Travaux pratiques |
RNCP37750BC03 - Mettre en œuvre des solutions informatiques pour traiter et entreposer des données exploitables par l’intelligence artificielle et l’analyse humaine
Liste de compétences | Modalités d'évaluation |
---|---|
Synthétiser les besoins des utilisateurs pour concevoir des modèles de données performants et résilients afin de faciliter les travaux de data science et de datavisualisation ; Mobiliser des savoirs techniques avancés en gestion de bases de données pour sélectionner et mettre en œuvre les solutions de traitement et de stockage massifs adaptées au besoin de l’entreprise ; Veiller à l’application des critères du RGAA dans la mise en œuvre des solutions pour garantir l’accessibilité des données aux PSH ; Trier, nettoyer et structurer des données brutes pour fabriquer des données propres exploitables par les data scientistes et les data analystes ; Organiser le stockage des données dans un entrepôt de manière à assurer la gestion de la data durant la totalité de son cycle de vie conformément aux directives RGPD ; Mettre en place des solutions innovantes de types API pour améliorer le temps de mise à disposition de données fiables et exploitables par les data analystes. |
Etude de cas - Travaux pratiques |
RNCP37750BC04 - Piloter des projets pour anticiper les besoins et développer en continu les plateformes logicielles (ETL) et les interfaces de programmation applicatives (API)
Liste de compétences | Modalités d'évaluation |
---|---|
Etablir un cahier des charges technique et fonctionnel pour répondre aux besoins évolutifs des data scientistes, data analystes, partenaires métiers et de la direction générale de l’entreprise ; Piloter des projets en mobilisant des équipes pluridisciplinaires (data scientistes, responsable marketing, direction générale, …) pour développer des interfaces types API et des requêtes automatisées à destination de cas d’usage multivariés ; Mobiliser des connaissances approfondies en programmation pour développer et superviser le développement des routines informatiques en mode DEV/OPS[1] et réduire le temps de mise à disposition de nouvelles fonctionnalités utiles à l’utilisateur des données; Collaborer avec les chefs de produits, les responsables métiers et la direction générale afin d’anticiper les nouveaux usages de la data et élaborer des nouvelles fonctionnalités ; Optimiser en continu les processus ETL pour proposer des solutions accessibles aux PSH et plus efficientes en termes de consommation d’énergie et de ressources ; Mettre en place des indicateurs de performance projet pour assurer la production de livrables au niveau de qualité attendu, dans les délais et les budgets fixés par le cahier des charges;
|
Hackathon 1 - Travaux pratiques - Projet applicatif tutoré |
RNCP37750BC05 - Manager l’industrialisation des mouvements de data au sein de l’entreprise pour mettre à disposition des utilisateurs des données fiables et pertinentes
Liste de compétences | Modalités d'évaluation |
---|---|
Automatiser et fiabiliser les processus d’extraction et de traitement pour réduire le temps de mise à disposition de données fiables et pertinentes ; Fiabiliser une infrastructure, des plateformes logicielles et des API, pour mettre des données fiables et pertinentes à disposition des utilisateurs en anticipant les opérations de maintenance et de mise à jour ; Réaliser des tests d’intégration avant déploiement et organiser des retours sur expérience utilisateurs pour contribuer à l‘assurance qualité de l’architecture et de l’infrastructure des mouvements et stockages de données ; Mobiliser des savoirs hautement spécialisés pour évaluer et anticiper les risques concernant la sécurité des données en lien avec le RSSI et la protection des données en lien avec le DPO; Assurer la fourniture de données propres et pertinentes pour faciliter l’apprentissage machine et la science des données en collaboration avec les data scientistes ; Déployer à grande échelle de nouveaux algorithmes conçus en laboratoire par les data scientistes pour mieux modéliser les relations entre les données ; Prendre en compte les risques sur le plan de l’éthique et la RSE vis-à-vis des technologies d’intelligence artificielle pour définir les critères qualité d’une infrastructure data fiabilisée et industrialisée. |
Travaux pratiques - Hackathon 2 |
Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :
Chaque bloc de compétences peut être évalué séparément, la certification complète s’obtient par la validation des 5 blocs qui la composent
Secteurs d’activités :
Initiée au milieu des années 2000 dans les grands groupes du secteur banque et assurances, l’exploitation de données massives à des fins prédictives et prescriptives se développe aujourd’hui au sein de plus petites structures de types ETI et PME dans des secteurs très variés : bancassurance, grande distribution, énergie, industries, transports, services… Le secteur de la data est également structuré à partir d’un écosystème comprenant des startups technologiques (TPE), des agences de conseil en data (TPE et PME), des Entreprises de Services Numériques (ESN) spécialisées en data (PME et ETI) et des éditeurs de plateformes logicielles (grands groupes informatiques internationaux et PME) spécifiques au secteur de la data.
Type d'emplois accessibles :
Data Engineer - Data Architecte - Expert en infrastructure data - Ingénieur DEV / OPS Data - Ingénieur Big Data
Code(s) ROME :
- M1805 - Études et développement informatique
- M1806 - Conseil et maîtrise d''ouvrage en systèmes d''information
- M1803 - Direction des systèmes d''information
- M1802 - Expertise et support en systèmes d''information
Références juridiques des règlementations d’activité :
Il n’existe pas de réglementation spécifique au métier de data engineer
Le cas échant, prérequis à l’entrée en formation :
Être Titulaire d’une certification de Niveau 6, d’un Bachelor ou d’une licence en développement data et logiciel, informatique, ou formations similaires
Le cas échant, prérequis à la validation de la certification :
Pré-requis disctincts pour les blocs de compétences :
Non
Validité des composantes acquises :
Voie d’accès à la certification | Oui | Non | Composition des jurys | Date de dernière modification |
---|---|---|---|---|
Après un parcours de formation sous statut d’élève ou d’étudiant | X |
Au moins quatre membres composent le jury de certification : - Un président de jury : personnalité qualifiée du monde économique ; - Au moins deux professionnels issus du secteur du titre visé ; - Au moins un représentant de la certification. Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel.
|
- | |
En contrat d’apprentissage | X |
Au moins quatre membres composent le jury de certification : - Un président de jury : personnalité qualifiée du monde économique ; - Au moins deux professionnels issus du secteur du titre visé ; - Au moins un représentant de la certification. Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel. |
- | |
Après un parcours de formation continue | X |
Au moins quatre membres composent le jury de certification : - Un président de jury : personnalité qualifiée du monde économique ; - Au moins deux professionnels issus du secteur du titre visé ; - Au moins un représentant de la certification. Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel. |
- | |
En contrat de professionnalisation | X |
Au moins quatre membres composent le jury de certification : - Un président de jury : personnalité qualifiée du monde économique ; - Au moins deux professionnels issus du secteur du titre visé ; - Au moins un représentant de la certification. Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel. |
- | |
Par candidature individuelle | X | - | - | |
Par expérience | X |
Au moins quatre membres composent le jury de certification : - Un président de jury : personnalité qualifiée du monde économique ; - Au moins deux professionnels issus du secteur du titre visé ; - Au moins un représentant de la certification. Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel. |
- |
Oui | Non | |
---|---|---|
Inscrite au cadre de la Nouvelle Calédonie | X | |
Inscrite au cadre de la Polynésie française | X |
Certifications professionnelles enregistrées au RNCP en correspondance partielle :
Bloc(s) de compétences concernés | Code et intitulé de la certification professionnelle reconnue en correspondance partielle | Bloc(s) de compétences en correspondance partielle |
---|---|---|
RNCP37750BC01 - Concevoir et développer une architecture fonctionnelle et matérielle pour assurer l’acquisition, le traitement et le stockage de données massives | RNCP36398 - Expert Big Data Engineer (MS) | RNCP36398BC01 - Analyser l'existant et proposer des solutions liées à la data |
RNCP37750BC01 - Concevoir et développer une architecture fonctionnelle et matérielle pour assurer l’acquisition, le traitement et le stockage de données massives | RNCP37422 - Data Engineer |
RNCP37422BC01 - Analyser les besoins en matière d'infrastructures de données adaptés au projet d'intelligence artificielle ET RNCP37422BC02 - Piloter le projet de développement de l'infrastructure de données massives ET RNCP37422BC03 - Concevoir les architectures big data valorisant les données |
RNCP37750BC02 - Déployer des outils d’extraction et de stockage pour recueillir des données brutes structurées, non structurées, internes ou externes dans un lac de données | RNCP36398 - Expert Big Data Engineer (MS) | RNCP36398BC02 - Déployer des infrastructures informatiques pour stocker, extraire et analyser la data |
RNCP37750BC02 - Déployer des outils d’extraction et de stockage pour recueillir des données brutes structurées, non structurées, internes ou externes dans un lac de données | RNCP37172 - Data Engineer | RNCP37172BC03 - Déployer l’architecture de gestion de données massives |
RNCP37750BC02 - Déployer des outils d’extraction et de stockage pour recueillir des données brutes structurées, non structurées, internes ou externes dans un lac de données | RNCP37638 - Expert en infrastructures de données massives |
RNCP37638BC02 - Réaliser la collecte, le stockage et la mise à disposition des données d’un projet data au sein d’une organisation ET RNCP37638BC04 - Encadrer la collecte massive et la mise à disposition des données issues de l’activité de l’organisation grâce à un data lake |
RNCP37750BC04 - Piloter des projets pour anticiper les besoins et développer en continu les plateformes logicielles (ETL) et les interfaces de programmation applicatives (API) | RNCP32123 - Développeur Full Stack BIG DATA | RNCP32123BC01 - Gestion de projet |
RNCP37750BC04 - Piloter des projets pour anticiper les besoins et développer en continu les plateformes logicielles (ETL) et les interfaces de programmation applicatives (API) | RNCP37172 - Data Engineer | RNCP37172BC04 - Piloter un projet de gestion de données massives |
RNCP37750BC04 - Piloter des projets pour anticiper les besoins et développer en continu les plateformes logicielles (ETL) et les interfaces de programmation applicatives (API) | RNCP37638 - Expert en infrastructures de données massives | RNCP37638BC01 - Piloter la conduite d’un projet data au sein d’une organisation |
Date de décision | 19-07-2023 |
---|---|
Durée de l'enregistrement en années | 3 |
Date d'échéance de l'enregistrement | 19-07-2026 |
Date de dernière délivrance possible de la certification | 19-07-2030 |
Statistiques :
Lien internet vers le descriptif de la certification :
www.excelia-group.com
Le certificateur n'habilite aucun organisme préparant à la certification
Référentiel d'activité, de compétences et d'évaluation :