Logo Esic
Formation Google Cloud Platform(GCP) - Ingénierie de donnée

Formation google cloud platform(gcp) - ingénierie de donnée

Les avantages de l’adoption du Cloud sont nombreux, notamment la disponibilité, l’agilité, l’adaptabilité et les gains financiers. L’un des principaux avantages de cette révolution est de pouvoir accéder à des outils et à des puissances de traitement qu’il serait bien souvent difficile de s’offrir (et de rentabiliser) dans un modèle traditionnel. C’est dans le cadre du traitement et de l’analyse de très importants volumes de données (Big Data) que cet avantage se mesure le mieux. Google propose ainsi de nombreux services dédiés au traitement et à l’analyse dite de type Big Data ainsi que des solutions permettant de tirer parti du Machine Learning. Les participants à cette formation apprendront à concevoir des systèmes de traitement de données, à créer des pipelines de données, à réaliser des traitements sur des données structurées et non structurées et enfin à exploiter ces données grâce à de puissants outils d’analyse. Cette formation prépare à la certification Google Professional Data Engineer.

4 Jours (28 Heures)

DébutantA partir de3 190 € HT

En ligne ou Dans nos locaux ou Dans vos locaux

Dernière mise à jour: Mercredi, 12 Juin 2024

S'inscrire

Objectifs de la formation

Les objectifs de la formation

  • Apprendre à concevoir et déployer des pipelines et des architectures pour le traitement des données
  • Comprendre comment créer et déployer des workflows de machine learning
  • Être capable d'interroger des ensembles de données
  • Comprendre comment visualiser des résultats des requêtes et créer des rapports

Equipe pédagogique

Nos formations sont animées par des experts reconnus dans leur domaine possédant une expérience sur le terrain significative et des compétences pédagogiques reconnues.

Pré requis pour cette formation

  • Avoir suivi la formation "Google Cloud Platform - Les fondamentaux du Big Data et du Machine Learning" ou bénéficier d'une expérience équivalente
  • Maîtriser les principes de base des langages de requête courants tels que SQL
  • Avoir de l'expérience en modélisation, extraction, transformation et chargement des données
  • Savoir développer des applications à l'aide d'un langage de programmation courant tel que Python
  • Savoir utiliser le Machine Learning et/ou les statistiques

Programme de la formation

Le programme

1 - Introduction à l'ingénierie des données

  • Explorer le rôle d'un data engineer
  • Analyser les défis d'ingénierie des données
  • Introduction à BigQuery
  • Data lakes et data warehouses
  • Démo: requêtes fédérées avec BigQuery
  • Bases de données transactionnelles vs data warehouses
  • Démo: recherche de données personnelles dans votre jeu de données avec l'API DLP
  • Travailler efficacement avec d'autres équipes de données
  • Gérer l'accès aux données et gouvernance
  • Construire des pipelines prêts pour la production
  • Etude de cas d'un client GCP
  • Lab : Analyse de données avec BigQuery

2 - Construire un Data Lake

  • Introduction aux data lakes
  • Stockage de données et options ETL sur GCP
  • Construction d'un data lake à l'aide de Cloud Storage
  • Démo : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
  • Sécurisation de Cloud Storage
  • Stocker tous les types de données
  • Démo : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
  • Cloud SQL en tant que data lake relationnel

3 - Construire un Data Warehouse

  • Le data warehouse moderne
  • Introduction à BigQuery
  • Démo : Requêter des TB + de données en quelques secondes
  • Commencer à charger des données
  • Démo: Interroger Cloud SQL à partir de BigQuery
  • Lab : Chargement de données avec la console et la CLI
  • Explorer les schémas
  • Exploration des jeux de données publics BigQuery avec SQL à l'aide de Information_Schema
  • Conception de schéma
  • Démo : Exploration des jeux de données publics BigQuery avec SQL à l'aide de Information_Schema
  • Champs imbriqués et répétés dans BigQuery
  • Lab : tableaux et structures
  • Optimiser avec le partitionnement et le clustering
  • Démo : Tables partitionnées et groupées dans BigQuery
  • Aperçu : Transformation de données par lots et en continu

4 - Introduction à la construction de pipelines de données par lots EL, ELT, ETL

  • Considérations de qualité
  • Comment effectuer des opérations dans BigQuery
  • Démo : ETL pour améliorer la qualité des données dans BigQuery
  • Des lacunes
  • ETL pour résoudre les problèmes de qualité des données

5 - Exécution de Spark sur Cloud Dataproc

  • L'écosystème Hadoop
  • Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
  • Optimiser Dataproc
  • Atelier : Exécution de jobs Apache Spark sur Cloud Dataproc

6 - Traitement de données sans serveur avec Cloud Dataflow

  • Cloud Dataflow
  • Pourquoi les clients apprécient-ils Dataflow ?
  • Pipelines de flux de données
  • Lab : Pipeline de flux de données simple (Python / Java)
  • Lab : MapReduce dans un flux de données (Python / Java)
  • Lab : Entrées latérales (Python / Java)
  • Templates Dataflow
  • Dataflow SQL

7 - Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

  • Création visuelle de pipelines de données par lots avec Cloud Data Fusion: composants, présentation de l'interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler
  • Lab : Construction et exécution d'un graphe de pipeline dans Cloud Data Fusion
  • Orchestrer le travail entre les services GCP avec Cloud Composer - Apache Airflow
  • Environment : DAG et opérateurs, planification du flux de travail
  • Démo : Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
  • Lab : Introduction à Cloud Composer

8 - Introduction au traitement de données en streaming

  • Traitement des données en streaming

9 - Serverless messaging avec Cloud Pub/Sub

  • Cloud Pub/Sub
  • Lab : Publier des données en continu dans Pub/Sub

10 - Fonctionnalités streaming de Cloud Dataflow

  • Fonctionnalités streaming de Cloud Dataflow
  • Lab : Pipelines de données en continu

11 - Fonctionnalités Streaming à haut débit BigQuery et Bigtable

  • Fonctionnalités de streaming BigQuery
  • Lab : Analyse en continu et tableaux de bord
  • Cloud Bigtable
  • Lab : Pipelines de données en continu vers Bigtable

12 - Fonctionnalité avancées de BigQuery et performance

  • Analytic Window Functions
  • Utiliser des clauses With
  • Fonctions SIG
  • Démo: Cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz
  • Considérations de performance
  • Lab : Optimisation de vos requêtes BigQuery pour la performance
  • Lab : Création de tables partitionnées par date dans BigQuery

13 - Introduction à l'analytique et à l'IA

  • Qu'est-ce que l'IA?
  • De l'analyse de données ad hoc aux décisions basées sur les données
  • Options pour modèles ML sur GCP

14 - API de modèle ML prédéfinies pour les données non structurées

  • Les données non structurées sont difficiles à utiliser
  • API ML pour enrichir les données
  • Lab : Utilisation de l'API en langage naturel pour classer le texte non structuré

15 - Big Data Analytics avec les notebooks Cloud AI Platform

  • Qu'est-ce qu'un notebook
  • BigQuery Magic et liens avec Pandas
  • Lab : BigQuery dans Jupyter Labs sur IA Platform

16 - Pipelines de production ML avec Kubeflow

  • Façons de faire du ML sur GCP
  • Kubeflow AI Hub
  • Lab : Utiliser des modèles d'IA sur Kubeflow

17 - Création de modèles personnalisés avec SQL dans BigQuery ML

  • BigQuery ML pour la construction de modèles rapides
  • Démo : Entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxi à New York
  • Modèles pris en charge
  • Lab : Prédire la durée d'une sortie à vélo avec un modèle de régression dans BigQuery ML
  • Lab : Recommandations de film dans BigQuery ML

18 - Création de modèles personnalisés avec Cloud AutoML

  • Pourquoi Auto ML?
  • Auto ML Vision
  • Auto ML NLP
  • Auto ML Tables

Votre profil pour cette formation

  • Développeurs expérimentés en charge des transformations du Big Data

Modalités et délais d'accès

  • Le délai d'accès moyen pour cette formation est de 2 Semaines
  • Merci d’utiliser le formulaire de contact ou nous joindre par téléphone ou mail pour l’organisation de votre formation.

Ressources pédagogiques

  • Accueil des apprenants dans une salle dédiée à la formation.
  • Documents supports de formation projetés.
  • Exposés théoriques
  • Etude de cas concrets
  • Quiz en salle
  • Mise à disposition en ligne de documents supports à la suite de la formation.

Moyens d'évaluation

  • Feuilles de présence.
  • Questions orales ou écrites (QCM).
  • Mises en situation.
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.

Pour les personnes à mobilité reduite

Les personnes atteintes de handicap souhaitant suivre cette formation sont invitées à nous contacter directement, afin d’étudier ensemble les possibilités de suivre la formation.

Méthodes et moyens pédagogiques

Pour le suivi de l'exécution et d'évaluation vous serez accompagnés par notre équipe pédagogique et technique sous la supervision de Madame Michèle ELBAZ.

 

En amont de la formation, notre conseiller formation réalise avec vous un entretien permettant de déterminer vos attentes concernant la formation.

 

Les horaires et le rythme sont à votre convenance ou à convenir avec notre équipe pédagogique.

 

Si nécessaire, pendant la formation vous aurez des exercices pratiques et/ou mises en situation.

 

A la fin de la formation nous vous mettons à disposition en ligne des documents et supports. Vous aurez un certificat de réalisation de la formation.

 

Nous vous transmettrons un questionnaire de satisfaction à chaud en fin de formation, et à froid à 3 mois. 
Nous vous transmettrons un  questionnaire d’auto-évaluation en fin de formation) et/ou passage de la certification (en conditions d’examens ou en télésurveillance après la formation)

 

Pour toute formation certifiante, vous aurez à la plateforme de certification. 

Prérequis techniques

Pour suivre cette formation à distance vous aurez besoin

  • D'un Mac ou d'un PC
  • Une Connexion internet stable
  • Un Navigateur Web récent
  • De Teams ou de Zoom
  • Du logiciel enseigné ou à utiliser installé

Dans nos locaux nous mettrons à votre disposition tout le nécessaire.

Dans vos locaux nous conviendrons du nécessaire à mettre en place pour le bon déroulé de cette formation.

Formation les enjeux juridiques de la révolution digitale
DébutantA partir de1 850 €

Formation les enjeux juridiques de la révolution digitale

Formation RGPD: réglementation générale sur la protection des données
DébutantA partir de1 850 €

Formation rgpd: réglementation générale sur la protection des données

Formation google cloud platform - les fondamentaux du big data et du machine learning (gcp)
DébutantA partir de830 € HT

Formation google cloud platform - les fondamentaux du big data et du machine learning (gcp)

Voir toutes nos formations

Bienvenue sur le site

esic online

Nous utilisons plusieurs services de mesure dàaudience et de comportement sur notre site. Ces services nous permettent dàaméliorer celui-ci.

Lire notre politique de confidentialité