L'essentiel
Certification
remplacée par
RS5602 - Data Science : savoir collecter, décrypter, analyser et prédire à partir de mégadonnées
Code(s) NSF
114 : Mathématiques
326 : Informatique, traitement de l'information, réseaux de transmission
Formacode(s)
31054 : Informatique et systèmes d'information
Date d’échéance
de l’enregistrement
31-12-2021
Nom légal | Siret | Nom commercial | Site internet |
---|---|---|---|
GROUPE DES ECOLES NATIONALES D ECONOMIE ET STATISTIQUE | 13001422800089 | - | - |
Objectifs et contexte de la certification :
Les compétences en data science s’exercent dans de nombreux domaines à enjeux économiques et sociétaux (marketing ; industrie ; agroalimentaire ; conseil ; recherche ; médical ; emploi....) et dans toute activité utilisant un volume important de données
Le certificat doit permettre de connaitre les outils algorithmiques et techniques liés à la data science et de piloter un projet en data science. L’objectif de la certification est de fournir l’expertise nécessaire pour la gestion et l’analyse pointues des données massives. Le data scientist certifié pourra alors déterminer les indicateurs permettant de mettre en place une stratégie répondant à une problématique de l’entreprise.
Compétences attestées :
Le Data Scientist est un expert de l'analyse de données massives ("big data"). Il a de bonnes connaissance de la gestion des bases de données, il récupère à partir de sources de données multiples et dispersées, structurées ou non, appartenant à l'entreprise ou en open data, les données dont il a besoin pour traiter le problème posé. Ses connaissances métier lui permettent de bien cibler la méthodologie adaptée au problème. Il est spécialisé en statistique, informatique et connait parfaitement le secteur ou la fonction d'application des données analysées.
A ce titre, il est chargé de :
1) poser de façon claire et précise le problème à résoudre
2) récupérer les données permettant de résoudre ce problème. Les données peuvent venir des différents entrepôts de données de l'entreprise (les types de bases de données ne sont pas un problème pour lui). En fonction de la problématique, il peut aussi récupérer des données externes à l'entreprise (opendata, site web, Api dédiées, données INSEE…).
3) mettre en forme toutes les données de manière optimale en fonction des algorithmes utilisés
4) choisir les différentes méthodes potentielles pour apporter une solution. comparer les différentes méthodes en utilisant des données d'apprentissage (estimer les paramètres des méthodes) et des données de test (pour effectuer des prévisions) et avoir des indicateurs fiables de comparaison de méthodes en utilisant souvent des logiciels de traitements comme R ou Python.
5) rédiger des codes propres documentés et réutilisables par ses collègues dans un souci de répétabilité des analyses.
6) présenter de manière convaincante au donneur d'ordre les résultats lorsque la meilleure méthode est sélectionnée
Le titulaire est capable de :
1) Requêter dans le système informatique de l'entreprise pour récupérer les données pertinentes
2) De récupérer les données adaptées à l'extérieur de l'entreprise en utilisant, si le besoin s'en fait sentir, des techniques d'acquisition automatisées de données externes à l'entreprises
3) D'écrire un programme pour analyser automatiquement de larges volumes de données et en extraire les informations pertinentes
4/ Mettre en œuvre les fonctions de R adaptées pour traiter et visualiser un jeu de données.
5) D'utiliser les algorithmes de machine learning implémentés dans R ou Python
6) De comparer différents algorithmes en utilisant des techniques d'apprentissage/validation
7) Selon le besoin, utiliser un serveur de calculs pour accélérer les temps de traitement.
8) Utiliser, pour un volume de données important, la bonne architecture de répartition des données.
9/ Evaluer la qualité du modèle selon sa finalité (prédictive ou explicative)
10) Présenter aux donneurs d'ordre son travail et ses choix. Utiliser avec intelligence des outils de visualisation ou créer un serveur web permettant de rejouer les méthodes.
11) Proposer aux services informatiques les modèles à mettre en production
Modalités d'évaluation :
L’inscription à la formation fait l’objet d’une sélection sur dossier. Chaque dossier comprend un cv détaillé une lettre de motivation et un test de positionnement relatif au logiciel R effectué par le candidat.
La formation a lieu en présentiel et comprend 18 jours (ou 15 jours pour les sessions intensives) d’enseignements théorique et pratique. Les stagiaires mènent également un projet cas d’école pendant leur formation. Ils disposent d’un accès à la plateforme Teralab pendant toute la durée de la formation.
Trois types de session sont proposés aux candidats:
- Une session intensive de 15 jours (120 heures) soit 3 fois 5 jours
- Une session de 18 jours (126 heures) soit 3 jours par mois.
- Une session de 14 jours (112 heures) en partenariat avec l'université de Berkeley (intervention de deux formateurs de l'université de Berkeley)
Les sessions se déroulent sur une durée maximale de 6 mois.
La validation du certificat est soumise à la réussite de l’examen, à la présentation d'un projet et à la présence obligatoire aux cours.
Un examen de rattrapage est proposé aux stagiaires échouant à la certification.
Références juridiques des règlementations d’activité :
Le cas échant, prérequis à l’entrée en formation :
Diplôme (ou niveau) Bac + 4 ou 5 ou expérience professionnelle équivalente.
Prérequis : maitriser les méthodes de régression et le logiciel R
Le cas échant, prérequis à la validation de la certification :
Aucune correspondance
Date d'échéance de l'enregistrement | 31-12-2021 |
---|
Statistiques :
Lien internet vers le descriptif de la certification :
Le certificateur n'habilite aucun organisme préparant à la certification
Nouvelle(s) Certification(s) :
Code de la fiche | Intitulé de la certification remplacée |
---|---|
RS5602 | Data Science : savoir collecter, décrypter, analyser et prédire à partir de mégadonnées |