Certification de formation Pig Hive Impala

Formation Pig-Hive-Impala éligible CPF faisant partie de la certification « BIG DATA : Infrastructure »

0
Jours
0
Heures
0
CNCP
0
CPF
Formation certifiante disponible en :

Formation
intra-entreprise

Formation
inter-entreprises

Egalement disponible à distance en :
e-learning-tutore
Tous les détails et démonstrations en ligne du déroulement de la formation e-learning ou à distance tutoré : « Pig Hive Impala »
Prochaines dates
Planning et dates

« Pig Hive Impala »

Ville Session 1 Session 2
Paris 17-09-18 15-11-18
Lyon 17-09-18 15-11-18
Aix-en-Provence 17-09-18 15-11-18
Nous vous recommandons

Programme de formation:
Pig, Hive et Impala.

Apache Pig applique les principes fondamentaux des langages de script familiers au cluster Hadoop.
Apache Hive fournit un langage de requête SQL comme HiveQL qui rend les données accessibles aux analystes, aux administrateurs de base de données, et d’autres sans expertise de programmation Java.
Apache Impala (incubation) permet une analyse interactive instantanée des données stockées dans Hadoop via un environnement SQL natif.

Objectifs

Quelles seront mes compétences à l’issue de la formation : Pig, Hive et Impala ?

À l’issu de la formation Pig, Hive et Impala, les apprenants auront les capacités de :

  1. Acquérir, stocker et analyser les données à l’aide de fonctionnalités de Pig, Hive et Impala
  2. Effectuer des tâches ETL fondamentales (extraction, transformation et chargement) avec des outils Hadoop
  3. Utilisation de Pig et Hive et Impala pour améliorer la productivité des tâches d’analyse typiques
  4. Joignez-vous à divers ensembles de données pour acquérir une précieuse compréhension des affaires
  5. Effectuer des requêtes complexes, interactives sur des jeux de données
  6. Accéder, manipuler, transformer et analyser des ensembles de données complexes en utilisant les langages de script SQL et familier

Publics

Quels sont les profils concernés par le module : Pig, Hive et Impala ?

La formation Pig Hive et Impala avec Hadoop de Cloudera, s’adresse à tout public salarié, demandeur d’emploi ou en reconversion professionnelle et souhaitant acquérir des compétences en Data Analyst et Data Scientist :

  1. Analystes de données
  2. Business analysts
  3. Développeurs et administrateurs

Prérequis

Quelles sont les qualifications requises pour suivre la formation : Pig, Hive et Impala ?

La formation PIG HIVE et Impala avec Hadoop de Cloudera nécessite les prérequis suivant :

  1. Connaissances et expérience avec SQL
  2. Connaissances basique des commandes UNIX ou LINUX
Programme détaillé

Rappel : Les fondamentaux d’Hadoop

  1. Pourquoi Hadoop ?
  2. Hadoop : Vue d’ensemble
  3. Stockage des données : HDFS
  4. Traitement des données distribuées : YARN, MapReduce et Spark
  5. Traitement et analyse des données : Pig, Hive et Impala
  6. Intégration de données : Sqoop
  7. Autres outils Hadoop données

Pig : Introduction

  1. Qu’est-ce que PIG ?
  2. Quelles sont les caractéristiques de PIG
  3. Les cas utilisation de PIG
  4. Comment interagir avec PIG ?

Pig : Analyse des données de base

  1. Pig, syntaxe
  2. Les bases de données de chargement
  3. Types de données simples
  4. Définitions des champs
  5. Sortie de données
  6. Affichage du schéma
  7. Filtrage et tri des données
  8. Les fonctions les plus utilisées

Exercices : Comment utiliser Pig dans des process ETL.

Pig : Traitement des données complexes

  1. Les formats de stockage
  2. Types de données complexes et emboitées
  3. Regroupement
  4. Les fonctions intégrées pour les données complexes
  5. Itérer données groupées

Pig : Opérations Multi-Dataset

  1. Techniques pour la fusion des ensembles de données
  2. Joindre et assembler des ensembles de données avec Pig
  3. Opérations Set ou opérations de groupe
  4. Fractionnement des ensembles de données

Pig : Extension

  1. Intégrer de la flexibilité avec des paramètres
  2. Les macros et les importations
  3. Fonctions contribuées
  4. UDFs
  5. Traitement des données avec d’autres langages de Script

Pig : Dépannage et optimisation

  1. Dépannage de Pig
  2. Enregistrement et logging
  3. Utiliser l’interface utilisateur Web UI de Hadoop
  4. L’échantillonnage et débogage des données
  5. Aperçu de rendement et des performances
  6. Comprendre le plan d’exécution
  7. Conseil pour améliorer la performance de votre Pig Jobs

Hive : Introduction et présentation d’Apache Hive

  1. Qu’est-ce que Hive ?
  2. Schéma Hive et stockage des données
  3. Hive vs bases de données traditionnelles ; Comparaison
  4. Hive contre Pig
  5. Les cas d’utilisation et interaction avec Hive

Hive : Interrogation et analyse de données relationnnelles

  1. Bases de données et tableaux Hive
  2. Syntaxe de langage de requête de base HiveQL
  3. Types de données
  4. Procédé d’assemblage des ensembles de données
  5. Fonctions intégrées

Hive : Gestion de données

  1. Stockage de données
  2. Formats de données dans Hive
  3. Création de bases de données et tableaux Hive
  4. Chargement de données dans Hive
  5. Simplifier les requêtes avec des vues
  6. Stockage des résultats des requêtes
  7. Contrôler l’accès aux données

Hive : Analyse des données et traitement de texte

  1. Principe de base de traitement de texte
  2. Fonctions de chaîne
  3. Utilisation d’expressions régulières dans Hive
  4. N-Grams et Sentiment Analysis

Hive : Optimisation

  1. Performance des requêtes
  2. Contrôle du plan d’exécution des travaux
  3. Partitionnement et bucketing
  4. L’indexation des données

Hive : Extension

  1. SerDes
  2. Transformation des données
  3. Scripts personnalisés
  4. Fonctions définies par l’utilisateur
  5. Requêtes paramétrées

Impala : Introduction

  1. Vue d’ensemble d’Impala
  2. Impala contre Pig et Hive : Différence
  3. Impala et base de données relationnelles : Différence
  4. Directions futures d’impala et limites
  5. Utilisation de Shell Impala

Travailler avec Impala

  1. Syntaxe commune
  2. Types de données
  3. Comment Impala exécute des requêtes : Filtrage, tri et restriction des résultats
  4. Assembler les données
  5. L’extension Impala avec des fonctions définies par l’utilisateur
  6. Amélioration de la performance Impala

Le meilleur outil pour le travail

  1. En comparant MapReduce, Pig, Hive, Impala et bases de données relationnelles

Conclusion et travaux pratique

  1. Charger les données dans HDFS avec Flume et Sqoop
  2. Transformer les ensembles de données avec Pig et Hive
  3. Simplifier les requêtes en créant les vues Hive
  4. Découper et joindre les ensembles de données dans Pig et Hive
  5. Exploiter HCatalog pour exposer le metastore de Hive à Pig
  6. Activer Impala et Shark pour des requêtes plus rapides

Besoin d'un devis / d'un renseignement :

Adresse :

28 rue Xavier Bichat

72000 Le Mans

 

Téléphone :

02.43.52.36.45

 

Email :

contact@cegefos.fr

 

Suivez-nous :

[Form id= »6″]