Cette formation est destinée aux praticiens du Big Data qui souhaitent approfondir leur compréhension de Dataflow afin de faire progresser leurs applications de traitement de données.
En commençant par les bases, cette formation explique comment Apache Beam et Dataflow fonctionnent ensemble pour répondre à vos besoins de traitement de données sans risque de dépendance vis-à-vis d’un fournisseur.
La section sur le développement de pipelines explique comment convertir votre logique métier en applications de traitement de données pouvant s’exécuter sur Dataflow.
Cette formation se termine par un focus sur les opérations, qui passe en revue les leçons les plus importantes pour exploiter une application de données sur Dataflow, y compris la surveillance, le dépannage, les tests et la fiabilité.
Module 1: Introduction
Sujets
-
Présentation du cours
-
Actualisation des faisceaux et des flux de données
Objectifs
-
Présentation des objectifs du cours.
-
Démontrer comment Apache Beam et Dataflow fonctionnent ensemble pour répondre aux besoins de traitement des données de votre organisation.
Module 2: Portabilité de Beam
Sujets
-
Portabilité de Beam
-
Runner v2
-
Environnements de conteneurs
-
Transformations Cross-Language
Objectifs
-
Résumer les avantages du Beam Portability Framework.
-
Personnaliser l’environnement de traitement des données de votre pipeline à l’aide de conteneurs personnalisés.
-
Examiner les cas d’utilisation pour les transformations Cross-Language.
-
Activez le Beam Portability Framework pour vos pipelines Dataflow.
Activités
Module 3: Séparer le calcul et le stockage avec Dataflow
Sujets
-
Dataflow
-
Dataflow Shuffle Service
-
Dataflow Streaming Engine
-
Flexible Resource Scheduling
Objectifs
-
Activez Shuffle et Streaming Engine, respectivement pour les pipelines batch et streaming, pour des performances maximales.
-
Activez la planification flexible des ressources pour des performances plus rentables.
Activités
Module 4: IAM, Quotas et Permissions
Sujets
Objectifs
-
Sélectionner la bonne combinaison d’autorisations IAM pour votre tâche Dataflow.
-
Déterminer vos besoins en capacité en inspectant les quotas pertinents pour vos tâches Dataflow.
Activités
Module 5: Sécurité
Sujets
-
Localité des données
-
Shared VPC
-
IPs privées
-
CMEK
Objectifs
-
Sélectionner votre stratégie de traitement des données zonales à l’aide de Dataflow, en fonction de vos besoins en matière de localisation des données.
-
Mettre en œuvre les meilleures pratiques pour un environnement de traitement de données sécurisé.
Activités
Module 6: Revue des concepts de BEAM
Sujets
-
Les bases Beam
-
Transformations utilitaires
-
Cycle de vie DoFn
Objectifs
-
Passer en revue les principaux concepts d’Apache Beam (Pipeline, PCollections, PTransforms, Runner, lecture/écriture, Utility PTransforms, side inputs), les bundles et le cycle de vie DoFn.
Activités
Module 7: Windows, Watermarks, Triggers
Sujets
-
Windows
-
Watermarks
-
Triggers
Objectifs
-
Implémenter une logique pour gérer vos données tardives.
-
Passer en revue les différents types de déclencheurs.
-
Passer en revue les principaux concepts de diffusion en continu (unbounded PCollections, windows).
Activités
Module 8: Sources and Sinks
Sujets
-
Sources et Sinks
-
Text IO et File IO
-
BigQuery IO
-
PubSub IO
-
Kafka IO
-
Bigable IO
-
Avro IO
-
Splittable DoFn
Objectifs
-
Écrire sur les IO de votre choix pour votre pipeline Dataflow.
-
Ajuster votre transformation Source/Sink pour des performances maximales.
-
Créer des Sources et des sinks personnalisés à l’aide de SDF.
Activités
Module 9: Schémas
Sujets
-
Beam Schemas
-
Exemples de code
Objectifs
-
Introduire des schémas, qui donnent aux développeurs un moyen d’exprimer des données structurées dans leurs pipelines Beam.
-
Utiliser des schémas pour simplifier votre code Beam et améliorer les performances de votre pipeline.
Activités
Module 10: État et Timers
Sujets
-
State API
-
Timer API
-
Summary
Objectifs
-
Identifier les cas d’utilisation pour les implémentations d’API d’état et de timer
-
Sélectionner le bon type d’état et de timers pour votre pipeline
Activités
Module 11: Bonnes pratiques
Sujets
-
Schémas
-
Gestion des données non traitables
-
La gestion des erreurs
-
Générateur de code AutoValue
-
Traitement des données JSON
-
Utiliser le cycle de vie DoFn
-
Optimisations de pipeline
Objectifs
-
Implement best practices for Dataflow pipelines.
Activités
Module 12: Dataflow SQL et DataFrames
Sujets
-
Dataflow et Beam SQL
-
Windowing in SQL
-
Beam DataFrames
Objectifs
-
Développer un pipeline Beam en utilisant SQL et DataFrames.
Activités
Module 13: Beam Notebooks
Sujets
Objectifs
-
Prototyper votre pipeline en Python à l’aide des notebooks Beam.
-
Lancer une tâche dans Dataflow à partir d’un notebooks.
Activités
Module 14: Monitoring
Sujets
-
Job List
-
Job Info
-
Job Graph
-
Job Metrics
-
Metrics Explorer
Objectifs
-
Accéder à l’interface utilisateur des détails de la tâche Dataflow.
-
Interpréter les graphiques de métriques de travail pour diagnostiquer les régressions du pipeline.
-
Définir des alertes sur les tâches Dataflow à l’aide de Cloud Monitoring.
Activités
Module 15: Monitoring
Sujets
Objectifs
-
Utiliser les journaux Dataflow et les widgets de diagnostic pour résoudre les problèmes de pipeline.
Activités
Module 16: Dépannage et débogage
Sujets
-
Flux de travail de dépannage
-
Types de problèmes
Objectifs
-
Utiliser une approche structurée pour déboguer vos pipelines Dataflow.
-
Examiner les causes courantes des défaillances de pipeline.
Activités
Module 17: Performance
Sujets
-
Conception de pipelines
-
Forme des données
-
Source, Sinks et systèmes externes
-
Shuffle and Streaming Engine
Objectifs
-
Comprendre les considérations de performances pour les pipelines.
-
Tenir compte de la façon dont la forme de vos données peut affecter les performances du pipeline.
Activités
Module 18: Testing et CI/CD
Sujets
-
Présentation des tests et CI/CD
-
Tests unitaires
-
Tests d’intégration
-
Construction d’artefacts
-
Déploiement
Objectifs
-
Approches de test pour votre pipeline Dataflow.
-
Passez en revue les frameworks et les fonctionnalités disponibles pour rationaliser votre flux de travail CI/CD pour les pipelines Dataflow.
Activités
Module 19: Fiabilité
Sujets
-
Introduction à la fiabilité
-
Surveillance
-
Géolocalisation
-
Reprise après sinistre
-
Haute disponibilité
Objectifs
-
Mettre en œuvre les bonnes pratiques en matière de fiabilité pour vos pipelines Dataflow.
Activités
Module 20: Flex Templates
Sujets
-
Modèles classiques
-
Modèles flexibles
-
Utiliser les Flex Templates
-
Modèles fournis par Google
Objectifs
-
Utiliser des Flex Templates pour standardiser et réutiliser le code du pipeline Dataflow.
Activités
Module 21: Conclusion
Sujets
Objectifs
-
Récapitulatif rapide des sujets de formation