Rechercher une certification - France compétences

Nom légal	Siret	Nom commercial	Site internet
OPENCLASSROOMS	49386136300080	-	https://openclassrooms.com/fr/

Objectifs et contexte de la certification :

L’expert en ingénierie et science des données a pour rôle de conduire des projets complexes, qu’il s'agisse de conception de modèles d’intelligence artificielle, de déploiement de systèmes d’apprentissage automatique ou la création d’infrastructure nécessaire au traitement des données. Ces professionnels sont en mesure d’apporter des solutions concrètes aux défis métiers tels que la prédiction, la classification, la gestion de données structurées et non structurées, et la gestion d’environnement cloud pour le déploiement des modèles.

Activités visées :

Manager et piloter un projet Data et le développement d’une solution

Gestion et coordination du projet

Définition et mise en oeuvre de la solution Data

Concevoir et déployer une infrastructure complète de gestion des données (collecte, traitement et stockage)

Définition des processus de collecte et gestion des accès

Conception du système de stockage

Création et intégration d’une infrastructure

Créer et /ou adapter un modèle d’apprentissage

Caractérisation des features et identification d’un modèle d’apprentissage

Entraînement d’un modèle d’apprentissage et mise à disposition des résultats

ACTIVITÉS DE SPÉCIALISATION

OPTION DATA ENGINEERING

Développer, déployer et optimiser les pipelines de données

Création des pipelines de données

Test des pipelines de données

Optimisation des pipelines de données

OPTION DATA SCIENCE

Optimiser des modèles d’apprentissage

Suivi / contrôle du cycle de vie des modèles d’apprentissage

Optimisation des performances des modèles d’apprentissage

Automatisation du déploiement du modèle d’apprentissage (approche CI / CI) (nouveau modèle ou nouvelle version du modèle existant)

Compétences attestées :

Collecter les besoins métiers et analyser le contexte de l'organisation afin d’identifier et de formaliser les objectifs / les attendus en matière de data et les éventuelles contraintes associées (organisationnelles, techniques, budgétaires, réglementaires)

Définir les modalités de réalisation et de suivi du projet data et le planifier afin de s’assurer de sa bonne mise en œuvre et de sa conformité avec les objectifs visés

Rechercher, collecter, compiler et analyser des informations clés Identifier de nouvelles opportunités, solutions ou pratiques, afin de bénéficier de connaissances techniques, juridiques ou réglementaires actualisées dans le champ de la data et de les diffuser en vue de leur partage

Conduire les actions et les échanges (ex : réunion, état d’avancement) entre les différentes parties prenantes (y compris avec les PSH) du projet data afin de s’assurer de sa bonne mise en œuvre et de créer une synergie optimale

Suivre, contrôler et analyser le projet data en termes de délais, de coûts, de livrables et de performance afin de s’assurer de la conformité du projet et de l’ajuster si nécessaire

Conseiller et apporter un appui stratégique et méthodologique en matière de data tout au long du projet, en accompagnant les parties prenantes pour faciliter la prise de décision, notamment en intégrant les problématiques liées au handicap

Auditer la solution data en analysant la donnée, tant sur son historique que sur sa qualité, afin d’évaluer sa disponibilité et son adéquation par rapport aux besoins identifiés

Identifier et évaluer les risques de la solution data en matière d’accessibilité, de sécurité et de développement durable afin de répondre aux normes / règlementation en vigueur

Identifier une solution technique (interne ou de marché) compatible aux contraintes éventuelles (métiers / techniques dont SI) afin de répondre aux besoins identifiés

Effectuer - en cas de besoin - un prototype de la solution afin d’en confirmer la faisabilité technique

Présenter la solution data et expliquer ses choix auprès des parties prenantes (interlocuteurs technique / métier) afin d’en démontrer la pertinence et l’adéquation aux besoins

Configurer l’environnement de travail (dont ressources : machines physiques ou virtuelles, nécessaires à la gestion des données (collecte - traitement - stockage))

Définir les processus de collecte, de traitement et de stockage des données en cohérence avec les besoins et l’environnement technique afin de proposer un système de gestion des données adapté (aux besoins), fonctionnel, performant et sécurisé

Mettre en place un système d'authentification conforme aux procédures internes (en lien avec le RSSI ou la DSI) et à la réglementation en termes de protection des données et de sécurité en vigueur afin de permettre un accès sécurisé aux données

Structurer l’architecture des données et concevoir des BDD relationnelles ou non (SQL / noSQL), respectant la politique de sécurité définie par le RSSI, afin de permettre l’exploitation des données par le SGBD

Installer et paramétrer un système de gestion de base de données et un outil d’extraction (ex : Airbyte, DBT), en collaboration avec la DSI, afin de permettre des opérations sur les fichiers composant les BDD, de diriger l’accès aux données et de fluidifier l’intégration des données dans le système d’échange

Établir et exécuter un processus de test afin de s’assurer de l’opérationnalité du SGBD, de la disponibilité et de la qualité des données ainsi que la performance des requêtes

Modéliser une infrastructure compatible avec le SI existant, en collaboration avec la DSI, afin de concevoir un support à la gestion des données (stockage, exploitation et partage des données)

Installer et tester l’infrastructure de gestion des données afin d’en garantir l’opérationnalité, la disponibilité et l’interopérabilité avec le SI

Configurer l’environnement de travail nécessaire à l’exploitation des données (c’est-à-dire pour réaliser des analyses ou des opérations) dans des délais adaptés (temps de calcul)

Mettre en place un processus de nettoyage des données automatisée ou non et le lancer afin d’améliorer la qualité des données

Identifier un modèle d’apprentissage adapté aux contraintes (notamment techniques) et aux besoins métiers Le cas échéant, créer un modèle d’apprentissage

Préparer et transformer des données (standardisation, harmonisation, encodage, etc) afin de les adapter au modèle d’apprentissage

Entraîner un modèle d’apprentissage (exemples : supervisé, non supervisé, par renforcement) afin de prédire la valeur d’un KPI, classifier la donnée tabulaire, du texte ou des images dans des catégories pré-définies

Créer les processus de test (procédures / outils) et les lancer en vue de confirmer / valider la mise en production du modèle d’apprentissage

Évaluer le modèle d'apprentissage selon les métriques définies afin d’en déterminer la performance, la capacité prédictive et de raisonnement

Identifier et configurer une API compatible et l’intégrer afin de permettre l’accès aux résultats par les utilisateurs finaux Le cas échéant créer une API

Exposer les résultats aux directions / services métiers (via une API) en vue de leur exploitation

COMPÉTENCES DE SPÉCIALISATION

OPTION DATA ENGINEERING

Mettre en place un pipeline de données automatisé adapté aux besoins, en extrayant, transformant et chargeant des données (structurées/non structurées) dans des entrepôts de données

Mettre en place un système d'ordonnancement des flux de données afin de programmer leur déclenchement

Créer les processus de test et les lancer afin de valider la mise en production des pipelines de données

Concevoir et mettre en place un système de contrôle / de suivi automatisé des flux de données afin de valider en continu l’intégration des données

Ajuster les requêtes et les paramétrages des pipelines en prenant appui sur différentes approches / méthodes (ex : méthodes de parallélisation) afin d’améliorer les performances du système (ex : réduction des temps d’exécution)

OPTION DATA SCIENCE

Concevoir et mettre en place un système de suivi du cycle de vie du modèle d’apprentissage (et de ses fonctionnalités) afin de détecter des anomalies (dérives de données ou bien dérives conceptuelles), de surveiller la qualité des features ou bien de déterminer le moment et la méthode de ré-entraînement du modèle

Évaluer les performances de l’infrastructure sous-jacente au modèle d'apprentissage selon des critères définis afin de réduire les coûts et / ou les temps de calcul

Ajuster les paramètres des procédures d'entraînement / de test / validation, à l’aide de techniques adaptées (hyperparamètres, choix des caractéristiques, ajustement d’architecture de neurone, etc) afin d’optimiser la qualité et les performances des données

Automatiser le déploiement afin d’intégrer et de livrer en continu les évolutions apportées au modèle d’apprentissage

Modalités d'évaluation :

L’évaluation se fait au travers de projets (mises en situation professionnelle simulée), faisant chacun l'objet d'un rapport et d'une soutenance. Le rapport est composé d'un ou plusieurs livrables permettant de vérifier l'acquisition de chacune des compétences du référentiel.

Tout candidat en situation de handicap peut également bénéficier d’un aménagement de ses modalités d'évaluation au cours de sa formation (notamment un tiers-temps pour les soutenances).

RNCP39775BC01 - Manager et piloter un projet Data et le développement d’une solution

Liste de compétences	Modalités d'évaluation
Collecter les besoins métiers et analyser le contexte de l'organisation afin d’identifier et de formaliser les objectifs / les attendus en matière de data et les éventuelles contraintes associées (organisationnelles, techniques, budgétaires, réglementaires) Définir les modalités de réalisation et de suivi du projet data et le planifier afin de s’assurer de sa bonne mise en œuvre et de sa conformité avec les objectifs visés : planifier les étapes de réalisation ; élaborer le calendrier prévisionnel et définir les modalités de suivi du projet avec des indicateurs appropriés Rechercher, collecter, compiler et analyser des informations clés Identifier de nouvelles opportunités, solutions ou pratiques, afin de bénéficier de connaissances techniques, juridiques ou réglementaires actualisées dans le champ de la data et de les diffuser en vue de leur partage Conduire les actions et les échanges (ex : réunion, état d’avancement) entre les différentes parties prenantes (y compris avec les PSH) du projet data afin de s’assurer de sa bonne mise en œuvre et de créer une synergie optimale Suivre, contrôler et analyser le projet data en termes de délais, de coûts, de livrables et de performance, afin de s'assurer que le projet est conforme aux critères et indicateurs définis, de l'ajuster si nécessaire et d'en rendre compte aux différentes parties prenantes, y compris le public en situation de handicap Conseiller et apporter un appui stratégique et méthodologique en matière de data tout au long du projet, en accompagnant les parties prenantes pour faciliter la prise de décision, notamment en intégrant les problématiques liées au handicap Auditer la solution data en analysant la donnée, tant sur son historique que sur sa qualité, afin d’évaluer sa disponibilité et son adéquation par rapport aux besoins identifiés : évaluer l’historique de la donnée ; vérifier la qualité et la disponibilité des données et comparer leur adéquation avec les besoins identifiés Identifier et évaluer les risques de la solution data en matière d’accessibilité, de sécurité et de développement durable afin de répondre aux normes / règlementation en vigueur Identifier une solution technique (interne ou de marché) compatible aux contraintes éventuelles (métiers / techniques dont SI) afin de répondre aux besoins identifiés : lister et évaluer la faisabilité technique, financière et opérationnelle des cas d’usage ; formaliser les cas d’usage ; partager et valider les cas d’usage auprès des parties prenantes et tenir en compte les personnes en situation de handicap, dans la conception des supports de présentation Effectuer - en cas de besoin - un prototype de la solution afin d’en confirmer la faisabilité technique Présenter la solution data et expliquer ses choix auprès des parties prenantes (interlocuteurs technique / métier) afin d’en démontrer la pertinence et l’adéquation aux besoins	Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale

Liste de compétences

Modalités d'évaluation

Collecter les besoins métiers et analyser le contexte de l'organisation afin d’identifier et de formaliser les objectifs / les attendus en matière de data et les éventuelles contraintes associées (organisationnelles, techniques, budgétaires, réglementaires)

Définir les modalités de réalisation et de suivi du projet data et le planifier afin de s’assurer de sa bonne mise en œuvre et de sa conformité avec les objectifs visés : planifier les étapes de réalisation ; élaborer le calendrier prévisionnel et définir les modalités de suivi du projet avec des indicateurs appropriés

Rechercher, collecter, compiler et analyser des informations clés Identifier de nouvelles opportunités, solutions ou pratiques, afin de bénéficier de connaissances techniques, juridiques ou réglementaires actualisées dans le champ de la data et de les diffuser en vue de leur partage

Conduire les actions et les échanges (ex : réunion, état d’avancement) entre les différentes parties prenantes (y compris avec les PSH) du projet data afin de s’assurer de sa bonne mise en œuvre et de créer une synergie optimale

Suivre, contrôler et analyser le projet data en termes de délais, de coûts, de livrables et de performance, afin de s'assurer que le projet est conforme aux critères et indicateurs définis, de l'ajuster si nécessaire et d'en rendre compte aux différentes parties prenantes, y compris le public en situation de handicap

Conseiller et apporter un appui stratégique et méthodologique en matière de data tout au long du projet, en accompagnant les parties prenantes pour faciliter la prise de décision, notamment en intégrant les problématiques liées au handicap

Auditer la solution data en analysant la donnée, tant sur son historique que sur sa qualité, afin d’évaluer sa disponibilité et son adéquation par rapport aux besoins identifiés : évaluer l’historique de la donnée ; vérifier la qualité et la disponibilité des données et comparer leur adéquation avec les besoins identifiés

Identifier et évaluer les risques de la solution data en matière d’accessibilité, de sécurité et de développement durable afin de répondre aux normes / règlementation en vigueur

Identifier une solution technique (interne ou de marché) compatible aux contraintes éventuelles (métiers / techniques dont SI) afin de répondre aux besoins identifiés : lister et évaluer la faisabilité technique, financière et opérationnelle des cas d’usage ; formaliser les cas d’usage ; partager et valider les cas d’usage auprès des parties prenantes et tenir en compte les personnes en situation de handicap, dans la conception des supports de présentation

Effectuer - en cas de besoin - un prototype de la solution afin d’en confirmer la faisabilité technique

Présenter la solution data et expliquer ses choix auprès des parties prenantes (interlocuteurs technique / métier) afin d’en démontrer la pertinence et l’adéquation aux besoins

Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale

RNCP39775BC02 - Concevoir et déployer une infrastructure complète de gestion des données (collecte, traitement et stockage)

Liste de compétences	Modalités d'évaluation
Configurer l’environnement de travail (dont ressources : machines physiques ou virtuelles, nécessaires à la gestion des données (collecte - traitement - stockage)) Définir les processus de collecte, de traitement et de stockage des données en cohérence avec les besoins et l’environnement technique afin de proposer un système de gestion des données adapté (aux besoins), fonctionnel, performant et sécurisé Mettre en place un système d'authentification conforme aux procédures internes (en lien avec le RSSI ou la DSI) et à la réglementation en termes de protection des données et de sécurité en vigueur afin de permettre un accès sécurisé aux données Structurer l’architecture des données et concevoir des BDD relationnelles ou non (SQL / noSQL), respectant la politique de sécurité définie par le RSSI, afin de permettre l’exploitation des données par le SGBD : définir / structurer / organiser les données et leurs relations en cohérence avec leurs caractéristiques ; créer des bases de données relationnelles ou non (SQL / noSQL) afin de contenir les données et organiser les données par fichier, distribué ou en réseau, afin de disposer d’un accès direct et unifié au SBD depuis n'importe quel appareil / réseau Installer et paramétrer un système de gestion de base de données et un outil d’extraction (ex : Airbyte, DBT), en collaboration avec la DSI, afin de permettre des opérations sur les fichiers composant les BDD, de diriger l’accès aux données et de fluidifier l’intégration des données dans le système d’échange Établir et exécuter un processus de test afin de s’assurer de l’opérationnalité du SGBD, de la disponibilité et de la qualité des données ainsi que la performance des requêtes Modéliser une infrastructure compatible avec le SI existant, en collaboration avec la DSI, afin de concevoir un support à la gestion des données (stockage, exploitation et partage des données) : définir, structurer et représenter visuellement une infrastructure de gestion des données à l’aide d’un outil de modélisation ; identifier et sélectionner les composants disponibles en interne ou sur le marché (matériels, logiciels, réseaux etc) et nécessaires à la création d’une infrastructure de gestion des données à partir de critères d’évaluation définis (performance, sécurité, compatibilité, et les coûts), et évaluer la compatibilité des composants avec l’environnement SI de l'organisation, en collaboration avec la DSI Installer et tester l’infrastructure de gestion des données afin d’en garantir l’opérationnalité, la disponibilité et l’interopérabilité avec le SI	Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale.

Liste de compétences

Modalités d'évaluation

Configurer l’environnement de travail (dont ressources : machines physiques ou virtuelles, nécessaires à la gestion des données (collecte - traitement - stockage))

Définir les processus de collecte, de traitement et de stockage des données en cohérence avec les besoins et l’environnement technique afin de proposer un système de gestion des données adapté (aux besoins), fonctionnel, performant et sécurisé

Mettre en place un système d'authentification conforme aux procédures internes (en lien avec le RSSI ou la DSI) et à la réglementation en termes de protection des données et de sécurité en vigueur afin de permettre un accès sécurisé aux données

Structurer l’architecture des données et concevoir des BDD relationnelles ou non (SQL / noSQL), respectant la politique de sécurité définie par le RSSI, afin de permettre l’exploitation des données par le SGBD : définir / structurer / organiser les données et leurs relations en cohérence avec leurs caractéristiques ; créer des bases de données relationnelles ou non (SQL / noSQL) afin de contenir les données et organiser les données par fichier, distribué ou en réseau, afin de disposer d’un accès direct et unifié au SBD depuis n'importe quel appareil / réseau

Installer et paramétrer un système de gestion de base de données et un outil d’extraction (ex : Airbyte, DBT), en collaboration avec la DSI, afin de permettre des opérations sur les fichiers composant les BDD, de diriger l’accès aux données et de fluidifier l’intégration des données dans le système d’échange

Établir et exécuter un processus de test afin de s’assurer de l’opérationnalité du SGBD, de la disponibilité et de la qualité des données ainsi que la performance des requêtes

Modéliser une infrastructure compatible avec le SI existant, en collaboration avec la DSI, afin de concevoir un support à la gestion des données (stockage, exploitation et partage des données) : définir, structurer et représenter visuellement une infrastructure de gestion des données à l’aide d’un outil de modélisation ; identifier et sélectionner les composants disponibles en interne ou sur le marché (matériels, logiciels, réseaux etc) et nécessaires à la création d’une infrastructure de gestion des données à partir de critères d’évaluation définis (performance, sécurité, compatibilité, et les coûts), et évaluer la compatibilité des composants avec l’environnement SI de l'organisation, en collaboration avec la DSI

Installer et tester l’infrastructure de gestion des données afin d’en garantir l’opérationnalité, la disponibilité et l’interopérabilité avec le SI

Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale.

RNCP39775BC03 - Créer et /ou adapter un modèle d’apprentissage

Liste de compétences	Modalités d'évaluation
Configurer l’environnement de travail nécessaire à l’exploitation des données (c’est-à-dire pour réaliser des analyses ou des opérations) dans des délais adaptés (temps de calcul) Mettre en place un processus de nettoyage des données automatisée ou non et le lancer afin d’améliorer la qualité des données : appliquer des analyses statistiques descriptives et / ou naviguer visuellement au sein des données afin de détecter des anomalies ; supprimer / corriger les anomalies manuellement et à l’aide d'outils / logiciels de nettoyage des données adaptés ; vérifier / contrôler la qualité des données - en continu - à l’aide d'outils de contrôle qualité adaptés afin de garantir la précision, la complétude et la cohérence, et automatiser le processus de nettoyage à l'aide d'un langage de programmation adapté (ex : python) Identifier un modèle d’apprentissage adapté aux contraintes (notamment techniques) et aux besoins métiers Le cas échéant, créer un modèle d’apprentissage : choisir un algorithme adapté aux objectifs visés (analyse prédictive …), et programmer un algorithme à l’aide des hyperparamètres afin de contrôler le processus d'entraînement Préparer et transformer des données (standardisation, harmonisation, encodage, etc) afin de les adapter au modèle d’apprentissage Entraîner un modèle d’apprentissage (exemples : supervisé, non supervisé, par renforcement) afin de prédire la valeur d’un KPI, classifier la donnée tabulaire, du texte ou des images dans des catégories pré-définies : préparer les jeux de données afin de mettre les variables sous une échelle commune et faciliter l’analyse et l’interprétation des résultats de l’entraînement du modèle ; créer/ choisir et configurer un modèle d’apprentissage à l’aide d’une technique d'entraînement adaptée (ex : régression, classification), et définir la procédure d'entraînement et entraîner le modèle avec les jeux de données adaptés Créer les processus de test (procédures / outils) et les lancer en vue de confirmer / valider la mise en production du modèle d’apprentissage Évaluer le modèle d'apprentissage selon les métriques définies afin d’en déterminer la performance, la capacité prédictive et de raisonnement Identifier et configurer une API compatible et l’intégrer afin de permettre l’accès aux résultats par les utilisateurs finaux Le cas échéant créer une API : définir les flux de données (entrées / sorties de l’API, et les formater si nécessaire) afin de sélectionner une API adaptée aux échanges entre le modèle et l’utilisateur ; installer / configurer l’API, et tester les différentes intéractions entre le modèle/ l’API / l'utilisateur Exposer les résultats aux directions / services métiers (via une API) en vue de leur exploitation : identifier et choisir un système d’exposition des résultats (ex : PowerBI, Looker, Streamlit) ; construire des tableaux de bord interactifs (ex : Tableau, Shiny, etc) et / ou des rapports automatisés (ex : Jupyter Notebooks) afin de visualiser les données / les modèles et les insights générés pour l’utilisateur final, et tenir compte des personnes en situation de handicap dans la construction des tableaux de bord	Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale.

Liste de compétences

Modalités d'évaluation

Configurer l’environnement de travail nécessaire à l’exploitation des données (c’est-à-dire pour réaliser des analyses ou des opérations) dans des délais adaptés (temps de calcul)

Mettre en place un processus de nettoyage des données automatisée ou non et le lancer afin d’améliorer la qualité des données : appliquer des analyses statistiques descriptives et / ou naviguer visuellement au sein des données afin de détecter des anomalies ; supprimer / corriger les anomalies manuellement et à l’aide d'outils / logiciels de nettoyage des données adaptés ; vérifier / contrôler la qualité des données - en continu - à l’aide d'outils de contrôle qualité adaptés afin de garantir la précision, la complétude et la cohérence, et automatiser le processus de nettoyage à l'aide d'un langage de programmation adapté (ex : python)

Identifier un modèle d’apprentissage adapté aux contraintes (notamment techniques) et aux besoins métiers Le cas échéant, créer un modèle d’apprentissage : choisir un algorithme adapté aux objectifs visés (analyse prédictive …), et programmer un algorithme à l’aide des hyperparamètres afin de contrôler le processus d'entraînement

Préparer et transformer des données (standardisation, harmonisation, encodage, etc) afin de les adapter au modèle d’apprentissage

Entraîner un modèle d’apprentissage (exemples : supervisé, non supervisé, par renforcement) afin de prédire la valeur d’un KPI, classifier la donnée tabulaire, du texte ou des images dans des catégories pré-définies : préparer les jeux de données afin de mettre les variables sous une échelle commune et faciliter l’analyse et l’interprétation des résultats de l’entraînement du modèle ; créer/ choisir et configurer un modèle d’apprentissage à l’aide d’une technique d'entraînement adaptée (ex : régression, classification), et définir la procédure d'entraînement et entraîner le modèle avec les jeux de données adaptés

Créer les processus de test (procédures / outils) et les lancer en vue de confirmer / valider la mise en production du modèle d’apprentissage

Évaluer le modèle d'apprentissage selon les métriques définies afin d’en déterminer la performance, la capacité prédictive et de raisonnement

Identifier et configurer une API compatible et l’intégrer afin de permettre l’accès aux résultats par les utilisateurs finaux Le cas échéant créer une API : définir les flux de données (entrées / sorties de l’API, et les formater si nécessaire) afin de sélectionner une API adaptée aux échanges entre le modèle et l’utilisateur ; installer / configurer l’API, et tester les différentes intéractions entre le modèle/ l’API / l'utilisateur

Exposer les résultats aux directions / services métiers (via une API) en vue de leur exploitation : identifier et choisir un système d’exposition des résultats (ex : PowerBI, Looker, Streamlit) ; construire des tableaux de bord interactifs (ex : Tableau, Shiny, etc) et / ou des rapports automatisés (ex : Jupyter Notebooks) afin de visualiser les données / les modèles et les insights générés pour l’utilisateur final, et tenir compte des personnes en situation de handicap dans la construction des tableaux de bord

Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale.

RNCP39775BC04 - Option Data engineering : Développer, déployer et optimiser les pipelines de données

Liste de compétences	Modalités d'évaluation
Mettre en place un pipeline de données automatisé adapté aux besoins, en extrayant, transformant et chargeant des données (structurées/non structurées) dans des entrepôts de données : extraire des données structurées / non structurées issues de toutes sources confondues afin de les traiter ou bien de les déplacer dans un emplacement adapté ; transformer (standardisation, déduplication, tri, vérification, etc) des données afin de les adapter à leur utilisation finale, et charger des données afin de les stocker dans un emplacement adapté (magasin de données type data lake, entrepôt de données etc) Mettre en place un système d'ordonnancement des flux de données afin de programmer leur déclenchement Créer les processus de test et les lancer afin de valider la mise en production des pipelines de données Concevoir et mettre en place un système de contrôle / de suivi automatisé des flux de données afin de valider en continu l’intégration des données : surveiller les flux à l’aide des outils de gestion de la qualité des données adaptés (ex : greatexceptation, soda) afin de détecter les anomalies, et suivre les flux à l’aide d’un outil d’observation adapté (ex : openlineage) afin de les tracer Ajuster les requêtes et les paramétrages des pipelines en prenant appui sur différentes approches / méthodes (ex : méthodes de parallélisation) afin d’améliorer les performances du système (ex : réduction des temps d’exécution)	Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale

Liste de compétences

Modalités d'évaluation

Mettre en place un pipeline de données automatisé adapté aux besoins, en extrayant, transformant et chargeant des données (structurées/non structurées) dans des entrepôts de données : extraire des données structurées / non structurées issues de toutes sources confondues afin de les traiter ou bien de les déplacer dans un emplacement adapté ; transformer (standardisation, déduplication, tri, vérification, etc) des données afin de les adapter à leur utilisation finale, et charger des données afin de les stocker dans un emplacement adapté (magasin de données type data lake, entrepôt de données etc)

Mettre en place un système d'ordonnancement des flux de données afin de programmer leur déclenchement

Créer les processus de test et les lancer afin de valider la mise en production des pipelines de données

Concevoir et mettre en place un système de contrôle / de suivi automatisé des flux de données afin de valider en continu l’intégration des données : surveiller les flux à l’aide des outils de gestion de la qualité des données adaptés (ex : greatexceptation, soda) afin de détecter les anomalies, et suivre les flux à l’aide d’un outil d’observation adapté (ex : openlineage) afin de les tracer

Ajuster les requêtes et les paramétrages des pipelines en prenant appui sur différentes approches / méthodes (ex : méthodes de parallélisation) afin d’améliorer les performances du système (ex : réduction des temps d’exécution)

Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale

RNCP39775BC05 - Option Data science : Optimiser des modèles d’apprentissage

Liste de compétences	Modalités d'évaluation
Concevoir et mettre en place un système de suivi du cycle de vie du modèle d’apprentissage (et de ses fonctionnalités) afin de détecter des anomalies (dérives de données ou bien dérives conceptuelles), de surveiller la qualité des features ou bien de déterminer le moment et la méthode de ré-entraînement du modèle Évaluer les performances de l’infrastructure sous-jacente au modèle d'apprentissage selon des critères définis afin de réduire les coûts et / ou les temps de calcul Ajuster les paramètres des procédures d'entraînement / de test / validation, à l’aide de techniques adaptées (hyperparamètres, choix des caractéristiques, ajustement d’architecture de neurone, etc.) afin d’optimiser la qualité et les performances des données Automatiser le déploiement afin d’intégrer et de livrer en continu les évolutions apportées au modèle d’apprentissage : déposer le code modifié dans un outil de contrôle de version afin de partager / de fusionner le code ; créer des tests CI /CD afin de contrôler / valider les changements de code, et envoyer le code en production et l’exécuter de manière automatique	Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale.

Liste de compétences

Modalités d'évaluation

Concevoir et mettre en place un système de suivi du cycle de vie du modèle d’apprentissage (et de ses fonctionnalités) afin de détecter des anomalies (dérives de données ou bien dérives conceptuelles), de surveiller la qualité des features ou bien de déterminer le moment et la méthode de ré-entraînement du modèle

Évaluer les performances de l’infrastructure sous-jacente au modèle d'apprentissage selon des critères définis afin de réduire les coûts et / ou les temps de calcul

Ajuster les paramètres des procédures d'entraînement / de test / validation, à l’aide de techniques adaptées (hyperparamètres, choix des caractéristiques, ajustement d’architecture de neurone, etc.) afin d’optimiser la qualité et les performances des données

Automatiser le déploiement afin d’intégrer et de livrer en continu les évolutions apportées au modèle d’apprentissage : déposer le code modifié dans un outil de contrôle de version afin de partager / de fusionner le code ; créer des tests CI /CD afin de contrôler / valider les changements de code, et envoyer le code en production et l’exécuter de manière automatique

Mises en situation professionnelle réelles ou reconstituées - Cas pratiques - Soutenance orale.

Description des modalités d'acquisition de la certification par capitalisation des blocs de compétences et/ou par correspondance :

Le référentiel de certification est organisé autour de 3 blocs de compétences communes et de 2 blocs de compétences de spécialisations optionnels, qui peuvent être évalués et validés indépendamment. Pour bénéficier de la certification professionnelle complète, le candidat doit acquérir les 3 blocs de compétences en plus du bloc optionnel de l'option choisie.

Pour la VAE, le candidat souhaitant obtenir la certification devra prouver qu'il a acquis les compétences de chacun des 3 blocs et de l'option choisie.

Secteurs d’activités :

L’Expert en ingénierie et science des données intervient au sein de plusieurs secteurs d’activité, répondant ainsi à la demande croissante de gestion et d’analyse des données dans des domaines diversifiés. Les secteurs les plus importants incluent notamment la finance, l’assurance, le commerce, l’industrie, la santé, la grande distribution, le numérique, et bien d’autres.

Type d'emplois accessibles :

Big Data Engineer

Data Engineer

Data Scientist

Data Analyst

Data Manager

IA Engineer

Machine Learning Engineer

Code(s) ROME :

M1403 - Études et prospectives socio-économiques
M1802 - Expertise et support en systèmes d''information
M1805 - Études et développement informatique
M1806 - Conseil et maîtrise d''ouvrage en systèmes d''information
M1803 - Direction des systèmes d''information

Références juridiques des règlementations d’activité :

La profession n’est pas réglementée. Toutefois, l’Expert en ingénierie et science des données est amené à intervenir dans le respect de la législation en lien avec les dispositifs d’accompagnement professionnel, des règles liées à la protection et à la confidentialité des données personnelles ainsi que des bonnes pratiques reconnues par la profession et / ou mises en œuvre au sein de la structure (ex : cadre déontologique de la structure).

Le cas échant, prérequis à l’entrée en formation :

Pour accéder à la formation menant à la certification Expert en ingénierie et science des données, les candidats devront obligatoirement justifier d'un des prérequis suivants :

être titulaire d’une certification professionnelle de niveau 6 en mathématiques, économie, informatique - systèmes d’information et numérique, langages informatiques ;

ou, être titulaire d’une certification professionnelle de niveau 5 avec une expérience professionnelle d’au moins 2 ans en gestion et/ou en exploitation des données.

Tout autre profil relève d'une procédure dérogatoire.

Pour les candidats dont le français n’est pas la langue maternelle, un justificatif d’un niveau de français B2 minimum (niveau avancé) sur l’échelle européenne du CECRL sera également demandé.

Le cas échant, prérequis à la validation de la certification :

Pré-requis disctincts pour les blocs de compétences :

Non

Validité des composantes acquises :

Validité des composantes acquises
Voie d’accès à la certification	Oui	Non	Composition des jurys	Date de dernière modification
Après un parcours de formation sous statut d’élève ou d’étudiant	X		Le jury de délivrance de la certification est composé du responsable pédagogique de la filière et deux professionnels du métier visé extérieurs à l’organisme.	-
En contrat d’apprentissage	X		Le jury de délivrance de la certification est composé du responsable pédagogique de la filière et deux professionnels du métier visé extérieurs à l’organisme	31-10-2024
Après un parcours de formation continue	X		Le jury de délivrance de la certification est composé du responsable pédagogique de la filière et deux professionnels du métier visé extérieurs à l’organisme	31-10-2024
En contrat de professionnalisation	X		Le jury de délivrance de la certification est composé du responsable pédagogique de la filière et deux professionnels du métier visé extérieurs à l’organisme	31-10-2024
Par candidature individuelle		X	-	-
Par expérience	X		Le jury de délivrance de la certification est composé du responsable pédagogique de la filière et deux professionnels du métier visé extérieurs à l’organisme	31-10-2024

Validité des composantes acquises
	Oui	Non
Inscrite au cadre de la Nouvelle Calédonie		X
Inscrite au cadre de la Polynésie française		X

Certifications professionnelles enregistrées au RNCP en correspondance partielle :

Certifications professionnelles enregistrées au RNCP en correspondance partielle
Bloc(s) de compétences concernés	Code et intitulé de la certification professionnelle reconnue en correspondance partielle	Bloc(s) de compétences en correspondance partielle
RNCP39775BC04 - Option Data engineering : Développer, déployer et optimiser les pipelines de données	RNCP37750 - Concepteur manager des infrastructures de données massives	RNCP37750BC05 - Manager l’industrialisation des mouvements de data au sein de l’entreprise pour mettre à disposition des utilisateurs des données fiables et pertinentes

Anciennes versions de la certification professionnelle reconnues en correspondance partielle :

Anciennes versions de la certification professionnelle reconnues en correspondance partielle
Bloc(s) de compétences concernés	Code et intitulé de la certification professionnelle reconnue en correspondance partielle	Bloc(s) de compétences en correspondance partielle
RNCP39775BC01 - Manager et piloter un projet Data et le développement d’une solution	RNCP37431 - Expert en data science	RNCP37431BC04 - Manager des projets d'intelligence artificielle et de data science complexes en intégrant les contraintes légales et les valeurs d’éthique
RNCP39775BC03 - Créer et /ou adapter un modèle d’apprentissage	RNCP37431 - Expert en data science	RNCP37431BC02 - Concevoir des modèles d'apprentissage automatique à partir de données structurées et de données non structurées (texte et images)

Référence au(x) texte(s) règlementaire(s) instaurant la certification :

Référence au(x) texte(s) règlementaire(s) instaurant la certification
Date du JO/BO	Référence au JO/BO
03/10/2020	Date de décision : 30/03/3020 - Durée de l'enregistrement en années : 3 ans - Date d'échéance de l'enregistrement : 30/03/2023

Référence des arrêtés et décisions publiés au Journal Officiel ou au Bulletin Officiel (enregistrement au RNCP, création diplôme, accréditation…) :

Référence des arrêtés et décisions publiés au Journal Officiel ou au Bulletin Officiel (enregistrement au RNCP, création diplôme, accréditation…)
Date du JO/BO	Référence au JO/BO
27/03/2023	Date de décision : 27/03/2023 - Durée de l'enregistrement en années : 2 ans - Date d'échéance de l'enregistrement : 27/03/2025

Date du dernier Journal Officiel ou Bulletin Officiel :

27-03-2023

Référence des arrêtés et décisions publiés au Journal Officiel ou au Bulletin Officiel (enregistrement au RNCP, création diplôme, accréditation…)
Date de décision	31-10-2024
Durée de l'enregistrement en années	4
Date d'échéance de l'enregistrement	31-10-2028
Date de dernière délivrance possible de la certification	30-10-2032