L'essentiel

Icon NSF

Code(s) NSF

326 : Informatique, traitement de l'information, réseaux de transmission

Icon formacode

Formacode(s)

31054 : Informatique et systèmes d'information

Icon date

Date d’échéance
de l’enregistrement

31-12-2021

326 : Informatique, traitement de l'information, réseaux de transmission

31054 : Informatique et systèmes d'information

31-12-2021

Nom légal Siret Nom commercial Site internet
CIE IBM FRANCE 55211846503644 - -

Objectifs et contexte de la certification :

Tout type d'entreprise ou association ayant plusieurs postes informatisés, et entreprises du secteur informatique à partir d'une personne


Nous évoluons actuellement dans un monde connaissant une croissance exponentielle des données et, parallèlement, des flux de données. 

Ces données proviennent de partout : de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne, de signaux GPS de téléphones mobiles, de capteurs utilisés pour collecter les informations climatiques, pour ne citer que quelques sources.

Le concept de Big Data représente un ensemble de techniques concernant des données qui correspondent à plusieurs des caractéristiques suivantes : volume massif, grande variété ainsi que grande vélocité.

Les données, structurées (ex. : fichiers d’un progiciel), ou non structurées (ex. : galeries de photos), jouent un rôle prédominant auprès des entreprises qui les capturent, les gèrent et les analysent. Ces connaissances leur permettent de prendre rapidement des décisions métier bien informées.

La certification IBM Certified Data Engineer - Big Data s’adresse aux ingénieurs Big Data. L’Ingénieur Big Data travaille en étroite collaboration avec l’Architecte Data et les développeurs qui ont une expérience pratique. Grâce à lui, les données définies pour le système-cible et modélisées par l’Architecte Big Data se concrétisent. L’Ingénieur Data maîtrise parfaitement au niveau technique, sur le plan théorique et pratique, une large gamme de produits et de technologies.

Il résout, en outre, les problèmes Big Data en appliquant les technologies adéquates et détient l’aptitude requise pour construire des systèmes de traitement des données à grande échelle pour les entreprises.

Les ingénieurs Data développent, testent et qualifient des solutions Big Data au sein des organisations, tout en s’assurant que l’infrastructure reste fluide et opérationnelle.

Ils fournissent des indications aux architectes sur les besoins en matériels et logiciels.

Compétences attestées :

A l’issue de sa certification IBM Certified Data Engineer - Big Data, le spécialiste sera en mesure de démontrer les compétences suivantes :

  • Réunir, analyser, administrer de vastes ensembles de données, afin de fournir aux Data Scientists les données adéquates et les outils visuels qui leur serviront pour les analyses.  
  • Saisir la complexité des données et être en mesure de traiter différentes sortes de données (structurées, semi-structurées, non structurées), ainsi que différents volumes, vélocités (y compris traitement des flux) et véracités de données.
  • Répondre aux problèmes posés par la gouvernance de l’information et aux défis associés aux données dans le domaine de la sécurité.
  • Posséder de solides connaissances en génie logiciel et une grande expérience de la programmation et du cryptage des données.

La journée type de l’Ingénieur Big Data est constituée de 50% de développement, 20% d’étude et spécification, 20% d’accompagnement et résolution de bugs et 10% de veille.

Les compétences particulières suivantes, spécifiques au développement (50% de son activité), seront évaluées :

Architecture et Intégration

  • Implémenter MapReduce
  • Opter pour Hive, Big SQL ou HBase en fonction des scénarii
  • Créer un index Solr ou en faire la requête
  • Sélectionner les formats de fichiers appropriés (JSON, CSV, Parquet, Sequence)
  • Visualiser les recherches au travers d’Apache View

Chargement des données

  • Charger des données non structurées dans InfoSphere BigInsights, importer des données de streaming dans Hadoop avec InfoSphere Streams
  • Créer un classeur BigSheets
  • Importer des données dans Hadoop et créer des définitions de tableaux Big SQL
  • Importer des données dans Hbase et dans Hive
  • Charger des données depuis des sources relationnelles dans InfoSphere BigInsights avec Data Click et en mode libre-service
  • Extraire des données d’une source relationnelle en utilisant Sqoop
  • Charger des données de fichiers log dans Hadoop avec Flume
  • Insérer des données via l’API du système de fichiers Posix IBM General Parallel File System (GPFS)
  • Charger des données avec l’utilitaire de ligne de commande de Hadoop

Préparation, Transformation et Exportation des données

  • Transformer les données dans InfoSphere BigInsights en utilisant les techniques de requêtes Jaql
  • Capturer et préparer les données issues des médias sociaux en vue de leur analyse
  • Intégrer le scoring de modèle d’IBM SPSS dans InfoSphere Streams
  • Mettre en oeuvre une résolution d’entité dans une plate-forme Big Data, par ex. Big Match
  • Transformer et manipuler des données à partir de PIG
  • Transformer des données dans InfoSphere BigInsights à partir de Big SQL
  • Exporter de Hadoop les résultats du traitement des données (DataClick, DataStage)
  • Utiliser des zones homogènes dans InfoSphere Streams afin de permettre au moins un traitement

Sécurité des données

  • Sécuriser les données dans les standards PCI
  • Protéger les données sensibles avec des masquages (Optim, Big SQL)

Performance et Evolutivité

  • Améliorer les performances de MapReduce à l’aide de RDD (Resilient Distributed DataSet)
  • Sélectionner les formats de fichiers les plus adaptés pour optimiser les performances de Big SQL et de JAQL
  • Prendre des décisions spécifiques visant à optimiser les performances de Hive et de HBase
  • Analyser les facteurs de performance lors de l’utilisation d’Apache Spark

Modalités d'évaluation :

Le candidat peut préparer cette certification grâce à des lectures web gratuites disponibles sur internet, ainsi qu’à des ressources en ligne.

Une formation sur-mesure assurée par un formateur pourra également être proposée.

Le cas échéant, niveaux de maîtrise des compétences :

N/A
 

Le cas échéant, durée de validité en années :

Si durée limitée, modalités de renouvellement :

2 ANS

Possibilité de validation partielle :

Non

Références juridiques des règlementations d’activité :

Le cas échant, prérequis à l’entrée en formation :

Préalablement à sa préparation à la certification, le professionnel devra détenir les connaissances et aptitudes suivantes :

  • Couche de données et ses zones d’enjeux/de risques potentiels
  • Capacité à transformer les exigences fonctionnelles en spécifications techniques
  • Capacité à aboutir à une architecture physique en partant d’une solution globale ou d’une architecture logique
  • Gestion des clusters
  • Exigences réseau
  • Principales interfaces
  • Modélisation des données
  • Capacité à identifier pour la solution les exigences non fonctionnelles et à apporter un soutien technique
  • Latence, flexibilité, haute disponibilité, réplication et synchronisation des données, restauration après sinistre
  • Performance globale (performance des requêtes, gestion de la charge de travail, optimisation de la base de données)
  • Proposer les meilleures pratiques ou les plus recommandées en matière de déplacement, manipulation et stockage des données dans une solution Big Data
  • Options techniques d’ingestion des données
  • Options et ramifications du stockage de données, dont exigences supplémentaires et enjeux imposés par les données dans le Cloud
  • Techniques de requêtes de données et leur disponibilité en matière de soutien à l’analyse.
  • Généalogie des données et gouvernance des données
  • Diversité des données et volume des données
  • Mettre en place la sécurité des données et fournir des orientations dans ce domaine, conseiller en particulier sur la sécurité LDAP, les fonctions/la sécurité des utilisateurs, le monitoring des données, la sécurité des données à caractère personnel

 

  • Logiciels à connaître en priorité : BigInsights - BigSQL - Hadoop - Cloudant (NoSQL)

 

  • Logiciels à connaître accessoirement :

Information Server - Intégration à partir de BigInsights - Balanced Optimization pour Hadoop - Fonction Push Down de JAQL - Gouvernance des données - Spécificités de BigInsights liées à la sécurité - Metadata Workbench - Intégrer Optim avec BigInsights - DataClick pour BigInsights - BigMatch - Guardium (monitoring) - Outils d’analyse des données (SPSS) - BigSheets - Support technique de Hadoop/BigInsights - Disponibilité des données et support dans leur requête - Flux de données - Interface/intégration avec BigInsights - Données de streaming - Analyse de données intégrée - Netezza - DB2 BLU - Bases de données Graph - Machine Learning (système ML)

Le cas échant, prérequis à la validation de la certification :

Statistiques :

Lien internet vers le descriptif de la certification :

Liste des organismes préparant à la certification :