Devenez opérationnel

Développer des traitements Big Data avec Apache Spark (Java & Python)

Développez des applications Big Data performantes avec Apache Spark (Java ou Python) pour traiter, transformer et analyser de grands volumes de données en temps réel ou batch.

Objectifs de la formation

  • Comprendre les principes de traitement distribué avec Apache Spark
  • Comprendre les principes de traitement distribué avec Apache Spark
  • Développer des applications batch et temps réel avec Spark Core et Spark Streaming
  • Développer des applications batch et temps réel avec Spark Core et Spark Streaming
  • Manipuler des données structurées avec Spark SQL
  • Manipuler des données structurées avec Spark SQL
  • Découvrir Spark MLlib pour les traitements analytiques avancés
  • Découvrir Spark MLlib pour les traitements analytiques avancés
  • Mettre en œuvre un cluster Spark et déployer des jobs
  • Mettre en œuvre un cluster Spark et déployer des jobs

Public

  • Développeurs, data engineers, architectes techniques, chefs de projets Big Data

Prérequis

  • Bonne maîtrise du langage Java (ou Python si volet PySpark activé)
  • Notions de Big Data et de bases de données

Contenu de la formation

Introduction à Spark et aux architectures Big Data

  • Comparatif Spark vs Hadoop (MapReduce)
  • Versions disponibles (Java, Scala, Python) – introduction à PySpark
  • Cas d’usage typiques : log, IoT, ETL, IA, BI, temps réel

Programmation avec Spark RDD

  • Rappels sur les concepts de résilience, partitionnement, persistance
  • Manipulation des RDD (transformations, actions)
  • Broadcast, Accumulateurs, gestion de la mémoire
  • Travaux pratiques en Java (et introduction à équivalent PySpark)

Spark SQL et DataFrames

  • Schéma, Datasets, DataFrames : différences et usages
  • Connexion à des sources structurées : CSV, JSON, JDBC, Hive
  • Écriture de requêtes SQL sur DataFrames
  • Optimisation avec Catalyst & Tungsten

Déploiement sur cluster

  • Architecture Spark : Standalone, YARN, Mesos
  • Installation mono-node & multi-node (simulation Docker possible)
  • spark-submit, gestion des dépendances, logs
  • Monitoring avec Spark UI

Traitement en temps réel avec Spark Streaming

  • DStreams & micro-batch
  • Connexion à Kafka, sockets, fichiers live
  • Fenêtrage, état, logique métier temps réel
  • Comparatif avec Structured Streaming (v2)

Machine Learning avec MLlib

  • Présentation des algorithmes disponibles
  • Pipelines de transformation, évaluation, tuning
  • Régression, classification, clustering
  • Atelier : mini-projet de modélisation ML sur Spark

(Optionnel) PySpark

  • API Python pour Spark
  • Similitudes et différences avec l’API Java
  • Atelier : transformation et agrégation de données en PySpark

Equipe pédagogique

Nos formations sont animées par des experts reconnus dans leur domaine possédant une expérience sur le terrain significative et des compétences pédagogiques reconnues.

Référent pédagogique et technique
Haciba, responsable pédagogique, est à votre disposition pour toute question relative au contenu, aux objectifs ou à l’organisation de la formation. Vous pouvez la joindre par téléphone au 01 53 90 15 20 ou par mail : esic(@)esic-online.com.  Nous encourageons les apprenants à prendre contact pour toute précision ou pour discuter d’éventuels besoins spécifiques liés à leur parcours.

Suivi de l'exécution et évaluation des résultats

Dispositions spécifiques à cette formation

  • Feuilles de présence.
  • Questionnaire de positionnement
  • Évaluations intermédiaires
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
  • Projet final évalué avec soutenance

Dispositions relatives à l’ensemble des formations

Nous mettons en place un suivi rigoureux et une évaluation complète des résultats pour garantir la qualité et l’efficacité de nos formations.

  • Avant la formation:
    • Entretien individuel ou questionnaire de positionnement: Permet d’analyser les besoins spécifiques des participants et d’ajuster les contenus pédagogiques en conséquence.
  • Pendant la formation:
    • Exercices pratiques et mises en situation: Ces activités sont intégrées tout au long de la formation pour valider les acquis en temps réel.
    • Feuilles de présence: Chaque participant émarge une feuille de présence par demi-journée, également signée par le formateur, assurant le suivi administratif.
  • Après la formation:
    • Questionnaire de satisfaction à chaud: Administré immédiatement après la formation pour recueillir un retour sur la qualité des contenus et de l’animation.
    • Questionnaire de satisfaction à froid: Envoyé trois mois après la formation pour évaluer l’impact réel sur les pratiques professionnelles.
    • Questionnaire d’auto-évaluation possible: Permet aux participants de mesurer leurs progrès à l’issue de la formation.
    • Certification(optionnelle) : Passage de la certification en conditions d’examen ou via télésurveillance, selon le dispositif retenu.
    • Certificat de réalisation: Remis à l’issue de la formation, attestant de la participation effective des apprenants.

 

Nous veillons à accompagner les participants avant, pendant et après la formation pour maximiser leur progression et mesurer les retombées concrètes dans leur environnement professionnel.

Ressources techniques et pédagogiques

  • Apports théoriques et cas pratiques
  • Utilisation d’environnements Spark simulés (local, cloud, Docker)
  • Code partagé avec corrections et retours en direct
  • Mini-projets fil rouge

Accessibilité

Nous accordons une attention particulière à l’accueil des personnes en situation de handicap. Si vous êtes concerné(e) et souhaitez suivre cette formation, nous vous invitons à nous contacter dès que possible. Ensemble, nous étudierons vos besoins spécifiques et mettrons en place les adaptations nécessaires pour garantir votre accès à la formation dans les meilleures conditions.

Délai d'accès

L’inscription à cette formation est possible dans un délai de 2 semaines avant le début de la session. Ce délai permet de finaliser les démarches administratives, de confirmer la prise en charge éventuelle des frais de formation et d’assurer une préparation optimale des participants.

Pour toute demande spécifique ou situation particulière, nous vous invitons à nous contacter afin d’étudier ensemble les possibilités d’adaptation.

Prérequis technique

Pour suivre cette formation dans de bonnes conditions, les moyens techniques suivants sont requis :

  • En présentiel:
    • Tableau blanc ou paperboard, et un vidéoprojecteur pour les présentations.
    • Outils pour le partage de documents avec les formateurs et autres participants.
  • À distance:
    • Un logiciel de visioconférencecompatible (Teams, Zoom ou équivalent) pour participer aux sessions en ligne.
    • Possibilité de partage d’écran entre le formateur et les participants.
    • Accès à une plateforme pour le partage des documents pédagogiques et supports de formation.
    • Connexion internet haut débit pour garantir une expérience fluide et interactive.

 

Nous vous recommandons de vérifier la disponibilité et la fonctionnalité de ces moyens techniques avant le début de la formation. En cas de difficulté, n’hésitez pas à nous contacter pour trouver une solution adaptée.

Actualisation du programme