L'essentiel

Icon de la nomenclature

Nomenclature
du niveau de qualification

Niveau 7

Icon NSF

Code(s) NSF

326 : Informatique, traitement de l'information, réseaux de transmission

Icon formacode

Formacode(s)

31009 : Architecture système information

31052 : Data Warehouse

31023 : Données massives

31094 : Conduite projet informatique

31006 : Sécurité informatique

Icon date

Date d’échéance
de l’enregistrement

19-07-2026

Niveau 7

326 : Informatique, traitement de l'information, réseaux de transmission

31009 : Architecture système information

31052 : Data Warehouse

31023 : Données massives

31094 : Conduite projet informatique

31006 : Sécurité informatique

19-07-2026

Nom légal Siret Nom commercial Site internet
EXCELIA GROUP 34876850800015 Excelia https://www.excelia-group.fr/

Objectifs et contexte de la certification :

La certification « Concepteur-Manager des infrastructures de données massives » prépare le titulaire à l’exercice d’activités requérant des savoirs et savoir-faire techniques et technologiques hautement spécialisés dans le domaine de la conception et du management de solutions pour l’extraction, le traitement et l’entreposage de données massives. Ces professionnels interviennent en amont des Data scientistes et des Data analystes avec lesquels ils sont amenés à collaborer activement. Le rôle des titulaires de la certification consiste à concevoir puis développer les infrastructures ou pipeline de données et déployer ensuite des solutions techniques robustes qui permettent aux utilisateurs d’accéder à des données pertinentes et fiables via des plateformes logicielles et des outils d’interface (API). Ces données serviront à éclairer les analyses et les prises de décision métiers (Direction Générale, Marketing, Finances, RH, logistique, ...).

Activités visées :

  • Veille scientifique, technologique et règlementaire, identification de l’état de l’art des outils et plateformes logiciels ETL
  • Spécification des besoins et dimensionnement des infrastructures de données massives dans une perspective pluriannuelle
  • Evaluation et sélection d’une solution ETL globale incluant des développements en propre, des plateformes logicielles et des API disponibles sur le marché
  • Développement d’une infrastructure et management des flux et des stocks de données dans le respect du RGAA et du RGPD
  • Identification et sélection des solutions data lake les plus performantes sur le marché
  • Déploiement d’outils d’extraction et de stockage de données brutes en interne ou dans le cloud
  • Management des opérations de traitement des données brutes avant stockage dans un data lake
  • Supervision de la rédaction des documents supports à l’utilisation des outils et plateformes logicielles
  • Management de la mise en place des bases de données internes et externes dans le respect du RGPD et des critères du RGAA
  • Evaluation et sélection d’une solution de traitement et d’entreposage des données
  • Déploiement des processus de traitement et de formatage des données brutes pour entreposage
  • Mise à disposition de données fiables et pertinentes pour les utilisateurs
  • Elaboration d’un guide d’utilisation des plateformes et des API déployées
  • Elaboration d’un cahier des charges technique et fonctionnel répondant aux besoins des scientistes et des analystes
  • Pilotage du développement d’API, de requêtes et de routines automatisées avec implication de l’ensemble des parties prenantes
  • Anticipation des besoins utilisateurs et amélioration continue des plateformes logicielles ETL
  • Mise en œuvre d’indicateurs de performance des projets sur l’ensemble de leur cycle de vie
  • Management des processus d’automatisation et de fiabilisation des infrastructures, des plateformes et des interfaces
  • Contribution à l’amélioration de la qualité des données mises à dispositions des utilisateurs
  • Conception et mise en œuvre de Tests d’intégration avant déploiement d’algorithmes d’IA, de nouvelles plateformes logicielles ou d’API

 

Compétences attestées :

  • Mettre en œuvre une veille scientifique, technologique et règlementaire concernant les outils et plateformes logiciels d’extraction de traitement et de stockage (ETL) de données massives;
  • Anticiper les besoins futurs pour concevoir et dimensionner une architecture compatible avec la montée en charge des cas d’usage notamment ceux liés à l’IA ;
  • Mobiliser des savoirs techniques hautement spécialisés en plateformes et outils logiciels pour évaluer différentes solutions ETL assurant la collecte, le nettoyage et l’entreposage de données massives internes ou externes structurées, semi-structurées et non structurées;
  • Recueillir les besoins des différents cas d’usage notamment ceux liés à l’intelligence artificielle pour développer une architecture de flux de données en établissant un cahier des charges fonctionnel et technique ;
  •  Concevoir une infrastructure fonctionnelle et matérielle pour organiser les flux et les traitements de données depuis des sources multivariées internes et externes jusqu’à un utilisateur final (DG, Direction marketing, Data analystes, data scientistes …) ;
  • Mobiliser les principes de la RSE et le RGPD pour participer à l’établissement des règles de gouvernance et de conservation des données et garantir l’accessibilité des data selon les normes du RGAA;
  • Recenser et caractériser les outils d’extraction et de stockage de données brutes disponibles sur le marché pour sélectionner la solution la plus adaptée aux besoins de l’entreprise ;
  • Mobiliser des savoirs techniques approfondis en déploiement de bases de données pour évaluer les mérites et les limites d’un stockage en propre par rapport à une solution déportée sur le cloud;
  • Mettre en œuvre un processus complet d’extraction pour recueillir des données issues de sources multiples et les stocker dans une base de données brutes (lac) centralisée ;
  • Identifier et préparer toutes les données pertinentes afin de faciliter leur traitement et leur stockage ultérieurs dans un entrepôt de données ;
  • Documenter l’utilisation des bases de données externes et internes pour gérer et entretenir le lac de données en respectant le RGPD et en garantissant l’accessibilité des données selon les normes du RGAA;
  • Synthétiser les besoins des utilisateurs pour concevoir des modèles de données performants et résilients afin de faciliter les travaux de data science et de datavisualisation ;
  • Mobiliser des savoirs techniques avancés en gestion de bases de données pour sélectionner et mettre en œuvre les solutions de traitement et de stockage massifs adaptées au besoin de l’entreprise ;
  • Veiller à l’application des critères du RGAA dans la mise en œuvre des solutions pour garantir l’accessibilité des données aux PSH ;
  • Trier, nettoyer et structurer des données brutes pour fabriquer des données propres exploitables par les data scientistes et les data analystes ;
  • Organiser le stockage des données dans un entrepôt de manière à assurer la gestion de la data durant la totalité de son cycle de vie conformément aux directives RGPD ;
  • Mettre en place des solutions innovantes de types API pour améliorer le temps de mise à disposition de données fiables et exploitables par les data analystes;
  • Etablir un cahier des charges technique et fonctionnel pour répondre aux besoins évolutifs des data scientistes, data analystes, partenaires métiers et de la direction générale de l’entreprise ;
  • Piloter des projets en mobilisant des équipes pluridisciplinaires (data scientistes, responsable marketing, direction générale, …) pour développer des interfaces types API et des requêtes automatisées à destination de cas d’usage multivariés ;
  • Mobiliser des connaissances approfondies en programmation pour développer et superviser le développement des routines informatiques en mode DEV/OPS[1] et réduire le temps de mise à disposition de nouvelles fonctionnalités utiles à l’utilisateur des données;
  • Collaborer avec les chefs de produits, les responsables métiers et la direction générale afin d’anticiper les nouveaux usages de la data et élaborer des nouvelles fonctionnalités ;
  • Optimiser en continu les processus ETL pour proposer des solutions accessibles aux PSH et plus efficientes en termes de consommation d’énergie et de ressources ;
  • Mettre en place des indicateurs de performance projet pour assurer la production de livrables au niveau de qualité attendu, dans les délais et les budgets fixés par le cahier des charges;
  • Automatiser et fiabiliser les processus d’extraction et de traitement pour réduire le temps de mise à disposition de données fiables et pertinentes ;
  • Fiabiliser une infrastructure, des plateformes logicielles et des API, pour mettre des données fiables et pertinentes à disposition des utilisateurs en anticipant les opérations de maintenance et de mise à jour ;
  • Réaliser des tests d’intégration avant déploiement et organiser des retours sur expérience utilisateurs pour contribuer à l‘assurance qualité de l’architecture et de l’infrastructure des mouvements et stockages de données ;
  • Mobiliser des savoirs hautement spécialisés pour évaluer et anticiper les risques concernant la sécurité des données en lien avec le RSSI et la protection des données en lien avec le DPO;
  • Assurer la fourniture de données propres et pertinentes pour faciliter l’apprentissage machine et la science des données en collaboration avec les data scientistes ;
  • Déployer à grande échelle de nouveaux algorithmes conçus en laboratoire par les data scientistes pour mieux modéliser les relations entre les données ;
  • Prendre en compte les risques sur le plan de l’éthique et la RSE vis-à-vis des technologies d’intelligence artificielle pour définir les critères qualité d’une infrastructure data fiabilisée et industrialisée.

Modalités d'évaluation :

Webographie – bibliographie professionnelle

Etude de cas

Projet applicatif tutoré

Travaux pratiques

Hackathons

RNCP37750BC01 - Concevoir et développer une architecture fonctionnelle et matérielle pour assurer l’acquisition, le traitement et le stockage de données massives

Liste de compétences Modalités d'évaluation

Mettre en œuvre une veille scientifique, technologique et règlementaire concernant les outils et plateformes logiciels d’extraction de traitement et de stockage (ETL) de données massives;

Anticiper les besoins futurs pour concevoir et dimensionner une architecture compatible avec la montée en charge des cas d’usage notamment ceux liés à l’IA ;

Mobiliser des savoirs techniques hautement spécialisés en plateformes et outils logiciels pour évaluer différentes solutions ETL assurant la collecte, le nettoyage et l’entreposage de données massives internes ou externes structurées, semi-structurées et non structurées;

Recueillir les besoins des différents cas d’usage notamment ceux liés à l’intelligence artificielle pour développer une architecture de flux de données en établissant un cahier des charges fonctionnel et technique ;

 Concevoir une infrastructure fonctionnelle et matérielle pour organiser les flux et les traitements de données depuis des sources multivariées internes et externes jusqu’à un utilisateur final (DG, Direction marketing, Data analystes, data scientistes …) ;

Mobiliser les principes de la RSE et le RGPD pour participer à l’établissement des règles de gouvernance et de conservation des données et garantir l’accessibilité des data selon les normes du RGAA.

Webographie / bibliographie professionnelle - Etude de cas - Projet applicatif tutoré

RNCP37750BC02 - Déployer des outils d’extraction et de stockage pour recueillir des données brutes structurées, non structurées, internes ou externes dans un lac de données

Liste de compétences Modalités d'évaluation

Recenser et caractériser les outils d’extraction et de stockage de données brutes disponibles sur le marché pour sélectionner la solution la plus adaptée aux besoins de l’entreprise ;

Mobiliser des savoirs techniques approfondis en déploiement de bases de données pour évaluer les mérites et les limites d’un stockage en propre par rapport à une solution déportée sur le cloud;

Mettre en œuvre un processus complet d’extraction pour recueillir des données issues de sources multiples et les stocker dans une base de données brutes (lac) centralisée ;

Identifier et préparer toutes les données pertinentes afin de faciliter leur traitement et leur stockage ultérieurs dans un entrepôt de données ;

Documenter l’utilisation des bases de données externes et internes pour gérer et entretenir le lac de données en respectant le RGPD et en garantissant l’accessibilité des données selon les normes du RGAA.

Etude de cas - Travaux pratiques

RNCP37750BC03 - Mettre en œuvre des solutions informatiques pour traiter et entreposer des données exploitables par l’intelligence artificielle et l’analyse humaine

Liste de compétences Modalités d'évaluation

Synthétiser les besoins des utilisateurs pour concevoir des modèles de données performants et résilients afin de faciliter les travaux de data science et de datavisualisation ;

Mobiliser des savoirs techniques avancés en gestion de bases de données pour sélectionner et mettre en œuvre les solutions de traitement et de stockage massifs adaptées au besoin de l’entreprise ;

Veiller à l’application des critères du RGAA dans la mise en œuvre des solutions pour garantir l’accessibilité des données aux PSH ;

Trier, nettoyer et structurer des données brutes pour fabriquer des données propres exploitables par les data scientistes et les data analystes ;

Organiser le stockage des données dans un entrepôt de manière à assurer la gestion de la data durant la totalité de son cycle de vie conformément aux directives RGPD ;

Mettre en place des solutions innovantes de types API pour améliorer le temps de mise à disposition de données fiables et exploitables par les data analystes.

Etude de cas - Travaux pratiques

RNCP37750BC04 - Piloter des projets pour anticiper les besoins et développer en continu les plateformes logicielles (ETL) et les interfaces de programmation applicatives (API)

Liste de compétences Modalités d'évaluation

Etablir un cahier des charges technique et fonctionnel pour répondre aux besoins évolutifs des data scientistes, data analystes, partenaires métiers et de la direction générale de l’entreprise ;

Piloter des projets en mobilisant des équipes pluridisciplinaires (data scientistes, responsable marketing, direction générale, …) pour développer des interfaces types API et des requêtes automatisées à destination de cas d’usage multivariés ;

Mobiliser des connaissances approfondies en programmation pour développer et superviser le développement des routines informatiques en mode DEV/OPS[1] et réduire le temps de mise à disposition de nouvelles fonctionnalités utiles à l’utilisateur des données;

Collaborer avec les chefs de produits, les responsables métiers et la direction générale afin d’anticiper les nouveaux usages de la data et élaborer des nouvelles fonctionnalités ;

Optimiser en continu les processus ETL pour proposer des solutions accessibles aux PSH et plus efficientes en termes de consommation d’énergie et de ressources ;

Mettre en place des indicateurs de performance projet pour assurer la production de livrables au niveau de qualité attendu, dans les délais et les budgets fixés par le cahier des charges;

 

Hackathon 1 - Travaux pratiques - Projet applicatif tutoré

RNCP37750BC05 - Manager l’industrialisation des mouvements de data au sein de l’entreprise pour mettre à disposition des utilisateurs des données fiables et pertinentes

Liste de compétences Modalités d'évaluation

Automatiser et fiabiliser les processus d’extraction et de traitement pour réduire le temps de mise à disposition de données fiables et pertinentes ;

Fiabiliser une infrastructure, des plateformes logicielles et des API, pour mettre des données fiables et pertinentes à disposition des utilisateurs en anticipant les opérations de maintenance et de mise à jour ;

Réaliser des tests d’intégration avant déploiement et organiser des retours sur expérience utilisateurs pour contribuer à l‘assurance qualité de l’architecture et de l’infrastructure des mouvements et stockages de données ;

Mobiliser des savoirs hautement spécialisés pour évaluer et anticiper les risques concernant la sécurité des données en lien avec le RSSI et la protection des données en lien avec le DPO;

Assurer la fourniture de données propres et pertinentes pour faciliter l’apprentissage machine et la science des données en collaboration avec les data scientistes ;

Déployer à grande échelle de nouveaux algorithmes conçus en laboratoire par les data scientistes pour mieux modéliser les relations entre les données ;

Prendre en compte les risques sur le plan de l’éthique et la RSE vis-à-vis des technologies d’intelligence artificielle pour définir les critères qualité d’une infrastructure data fiabilisée et industrialisée.

Travaux pratiques - Hackathon 2

Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :

Chaque bloc de compétences peut être évalué séparément, la certification complète s’obtient par la validation des 5 blocs qui la composent

Secteurs d’activités :

Initiée au milieu des années 2000 dans les grands groupes du secteur banque et assurances, l’exploitation de données massives à des fins prédictives et prescriptives se développe aujourd’hui au sein de plus petites structures de types ETI et PME dans des secteurs très variés : bancassurance, grande distribution, énergie, industries, transports, services… Le secteur de la data est également structuré à partir d’un écosystème comprenant des startups technologiques (TPE), des agences de conseil en data (TPE et PME), des Entreprises de Services Numériques (ESN) spécialisées en data (PME et ETI) et des éditeurs de plateformes logicielles (grands groupes informatiques internationaux et PME) spécifiques au secteur de la data.

Type d'emplois accessibles :

Data Engineer - Data Architecte - Expert en infrastructure data - Ingénieur DEV / OPS Data - Ingénieur Big Data

Code(s) ROME :

  • M1805 - Études et développement informatique
  • M1806 - Conseil et maîtrise d''ouvrage en systèmes d''information
  • M1803 - Direction des systèmes d''information
  • M1802 - Expertise et support en systèmes d''information

Références juridiques des règlementations d’activité :

Il n’existe pas de réglementation spécifique au métier de data engineer

Le cas échant, prérequis à l’entrée en formation :

 

Être Titulaire d’une certification de Niveau 6, d’un Bachelor ou d’une licence en développement data et logiciel, informatique, ou formations similaires

Le cas échant, prérequis à la validation de la certification :

Pré-requis disctincts pour les blocs de compétences :

Non

Validité des composantes acquises :

Validité des composantes acquises
Voie d’accès à la certification Oui Non Composition des jurys Date de dernière modification
Après un parcours de formation sous statut d’élève ou d’étudiant X

Au moins quatre membres composent le jury de certification :

- Un président de jury : personnalité qualifiée du monde économique ;

- Au moins deux professionnels issus du secteur du titre visé ;

- Au moins un représentant de la certification.

Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel.

 

-
En contrat d’apprentissage X

Au moins quatre membres composent le jury de certification :

- Un président de jury : personnalité qualifiée du monde économique ;

- Au moins deux professionnels issus du secteur du titre visé ;

- Au moins un représentant de la certification.

Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel.

-
Après un parcours de formation continue X

Au moins quatre membres composent le jury de certification :

- Un président de jury : personnalité qualifiée du monde économique ;

- Au moins deux professionnels issus du secteur du titre visé ;

- Au moins un représentant de la certification.

Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel.

-
En contrat de professionnalisation X

Au moins quatre membres composent le jury de certification :

- Un président de jury : personnalité qualifiée du monde économique ;

- Au moins deux professionnels issus du secteur du titre visé ;

- Au moins un représentant de la certification.

Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel.

-
Par candidature individuelle X - -
Par expérience X

Au moins quatre membres composent le jury de certification :

- Un président de jury : personnalité qualifiée du monde économique ;

- Au moins deux professionnels issus du secteur du titre visé ;

- Au moins un représentant de la certification.

Au minimum, 50% des membres sont extérieurs à l’autorité délivrant la certification et représentent le secteur professionnel.

-
Validité des composantes acquises
Oui Non
Inscrite au cadre de la Nouvelle Calédonie X
Inscrite au cadre de la Polynésie française X

Statistiques :

Lien internet vers le descriptif de la certification :

www.excelia-group.com

 

Le certificateur n'habilite aucun organisme préparant à la certification

Référentiel d'activité, de compétences et d'évaluation :