Business Intelligence > Datawarehouse, intégration de données, autres solutions

Systèmes décisionnels,
  • LI-REQ-232 Spark, développer des applications pour le Big Data
    Spark, développer des applications pour le Big Data
    SPK / LI-REQ-232
    OBJECTIFS PEDAGOGIQUES
    Vous développerez des applications en Java en vue de traiter en temps réel des données issues du Big Data. Vous collecterez, stockerez et traiterez avec Spark des données de formats hétérogènes afin de mettre en place des chaînes de traitement intégrées à votre système d’information.

    PUBLIC
    Développeurs, architectes.
    PRE-REQUIS
    Bonnes connaissances du langage Java.

    CONTENU

    Présentation d’Apache Spark
    - Historique du Framework.
    - Les différentes versions de Spark (Scala, Python et Java).
    - Comparaison avec l’environnement Apache Hadoop.
    - Les différents modules de Spark.

    Travaux pratiques
    Installation et configuration de Spark. Exécution d’un premier exemple avec le comptage de mots.

    Programmer avec les Resilient Distributed Dataset (RDD)
    - Présentation des RDD.
    - Créer, manipuler et réutiliser des RDD.
    - Accumulateurs et variables broadcastées.
    - Utiliser des partitions.

    Travaux pratiques
    Manipulation de différents Datasets à l’aide de RDD et utilisation de l’API fournie par Spark.

    Manipuler des données structurées avec Spark SQL
    - SQL, DataFrames et Datasets.
    - Les différents types de sources de données.
    - Interopérabilité avec les RDD.
    - Performance de Spark SQL.
    - JDBC/ODBC server et Spark SQL CLI.

    Travaux pratiques
    Manipulation de Datasets via des requêtes SQL. Connexion avec une base externe via JDBC.

    Spark sur un cluster
    - Les différents types d’architecture : Standalone, Apache Mesos ou Hadoop YARN.
    - Configurer un cluster en mode Standalone.
    - Packager une application avec ses dépendances.
    - Déployer des applications avec Spark-submit.
    - Dimensionner un cluster.

    Travaux pratiques
    Mise en place d’un cluster Spark.

    Analyser en temps réel avec Spark Streaming
    - Principe de fonctionnement.
    - Présentation des Discretized Streams (DStreams).
    - Les différents types de sources.
    - Manipulation de l’API.
    - Comparaison avec Apache Storm.

    Travaux pratiques
    Consommation de logs avec Spark Streaming.

    Manipuler des graphes avec GraphX
    - Présentation de GraphX.
    - Les différentes opérations.
    - Créer des graphes.
    - Vertex and Edge RDD.
    - Présentation de différents algorithmes.

    Travaux pratiques
    Manipulation de l’API GraphX à travers différents exemples.
     
    Machine Learning avec Spark
    - Introduction au Machine Learning.
    - Les différentes classes d’algorithmes.
    - Présentation de SparkML et MLlib.
    - Implémentations des différents algorithmes dans MLlib.
    Travaux pratiques
    Utilisation de SparkML et MLlib.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier
     
    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 815,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-199 Développer des applications de DataVisualisation, outils et frameworks
    Développer des applications de DataVisualisation, outils et frameworks
    DTV / LI-REQ-199
    OBJECTIFS PEDAGOGIQUES
    Après avoir découvert les concepts de base et les techniques liés à la représentation visuelle des données, vous apprendrez à développer des applications de visualisation de données basées sur les principaux outils et Frameworks JavaScript de DataVisualisation.

    PUBLIC
    Développeurs logiciel souhaitant réaliser de manière pratique des visualisations de données.
    PRE-REQUIS
    Connaissances de base en développement logiciel.

    CONTENU

    Introduction à la visualisation d’information
    - Définition, notions et objectifs. Rôle de l’utilisateur et de l’interaction.
    - Diagrammes courants : histogrammes, pie chart, 3D.
    - Visualisation multidimensionnelles : nuages de points, diagrammes d’inselberg.
    - Visualisation multi-niveaux : données hiérarchiques, full zoom.
    - Techniques de visualisations : fisheyes, vue hyperbolique.
    - Visualisation de réseaux : hiérarchiques, radiales.
    - Visualisation par modèle de force : modèle énergie, ressort.

    Sémiologie graphique : la base de la visualisation
    - Le système visuel humain.
    - Les variables visuelles.
    - Les propriétés perceptives.
    - Extension de la sémiologie : le mouvement.

    Transitions animées et légendes interactives
    - Définition, notions et buts.
    - Animations et légendes interactives dans des visualisations.
    - Manipulation des variables visuelles.
    - Règles à respecter.
    - Valeurs ajoutées.

    Outils pour la visualisation d’informations
    - Frameworks JavaScript de DataVisualisation.
    - Frameworks de DataVisualisation basés sur d’autres langages (Java, Python…).
    - Quelques outils supplémentaires.

    Visualisation de réseaux
    - Types de réseaux (sans échelle, petit monde…).
    - Analyse d’un réseau (réseau lexical, réseau social, corpus de textes…).
    - Réalisation d’une visualisation orientée réseaux (en JavaScript).
    - Mise en place et choix des différents leviers d’interaction : full zoom, sélection…

    Visualisation de diagrammes
    - Etude d’un jeu de données.
    - Réalisation de plusieurs visualisations interactives orientées diagrammes (en JavaScript).
    - Mise en place et choix de différents leviers d’interaction : légendes interactives, survol etc.

    Visualisation de l’OpenData et Cartographie
    - Présentation de l’Open Data.
    - Visualisation de l’Open Data Paris avec des Frameworks de Visualisation.
    - Etude de frameworks de cartographie en JavaScript.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 226,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-195 Data Clustering, organiser les données du Big Data
    Data Clustering, organiser les données du Big Data
    DAU / LI-REQ-195
    OBJECTIFS PEDAGOGIQUES
    Le clustering de données vise à regrouper, au sein de “données massives”, des données similaires afin d’identifier des connaissances pertinentes et permettre une prise de décision adaptée. Ce cours vous permettra de comprendre les fondamentaux du clustering de données et de les mettre en pratique sur des cas concrets.

    PUBLIC
    Data analyst, développeurs, chefs de projets ou toutes personnes s’intéressant aux techniques de clustering de données.
    PRE-REQUIS
    Connaissances de base de la programmation.

    CONTENU

    Introduction au clustering de données
    - Approches supervisées et non supervisées.
    - Méthodes floues et strictes.
    - Théorie des graphes, différents types de structures de données.
    - Calcul de similarité (TF, TF-IDF…).
    - Propriétés des jeux de données.

    Clustering simple et clustering hiérarchique
    - Clustering simple.
    - Clusterings hiérarchiques et composés.
    - Utilité du clustering hiérarchique.
    - Présentation du résultat.

    Techniques de clustering
    - Approches orientées K-means.
    - Approches par agglomération.
    - Approches basées sur un modèle physique (modèle énergie, ressort…).
    - Approches “divisives”.
    - Approches par marche aléatoire.
    - Algorithmes incrémentaux.

    Outils pratiques et algorithmes pour le clustering de données
    - K-means simple, Graclus, Cluto.
    - Algorithme hiérarchique : Louvain.
    - InfoMap, Fast Modularity.
    - NCut, approche Girvan Newman…
    - Extraction d’arbres couvrants et composition.

    Mesures Qualité et Performance
    - Introduction à la performance et à la complexité.
    - Mesures de qualité.
    - Critères : Cut, Perf, Cond, Cov, MQ, Mod, Critère de Dunn…
    - Trouver le bon algorithme : technique des diagrammes d’Inselberg.

    Clustering de données à partir d’un réseau lexical
    - Présentation du jeu de données.
    - Analyse des propriétés du réseau.
    - Exécution d’algorithmes de clustering.
    - Affichage du résultat.
    - Calcul de la qualité des partitionnements effectués.

    Clustering de documents
    - Présentation du jeu de données.
    - Analyse des propriétés du réseau.
    - Calcul de mesures de similarité.
    - Exécution d’algorithmes de clustering.
    - Affichage du résultat.
    - Calcul de la qualité.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-189 Big Data, méthodes et solutions pratiques pour l’analyse des données
    Big Data, méthodes et solutions pratiques pour l’analyse des données
    BID / LI-REQ-189
    OBJECTIFS PEDAGOGIQUES
    Ce stage vous permettra de comprendre les enjeux et les apports du Big Data ainsi que les technologies pour le mettre en œuvre. Vous apprendrez à intégrer des volumétries massives de données structurées et non structurées via un ETL, puis à les analyser grâce à des modèles statistiques et des dashboards dynamiques.

    PUBLIC
    Dataminers, chargés d’études statistiques, développeurs, chefs de projet, consultants en informatique décisionnelle.
    PRE-REQUIS
    Connaissances de base des modèles relationnels, des statistiques et des langages de programmation. Connaissances de base des concepts de la Business Intelligence.

    CONTENU

    Comprendre les concepts et les enjeux du Big Data
    - Origines et définition du Big Data.
    - Les chiffres clés du marché dans le monde et en France.
    - Les enjeux du Big Data : ROI, organisation, confidentialité des données.
    - Un exemple d’architecture Big Data.

    Les technologies du Big Data
    - Description de l’architecture et des composants de la plateforme Hadoop.
    - Les modes de stockage (NoSQL, HDFS).
    - Principes de fonctionnement de MapReduce, Spark, Storm…
    - Principales distributions du marché (Hortonworks, Cloudera, MapR, Elastic Map Reduce, Biginsights).
    - Installer une plateforme Hadoop.
    - Les technologies du datascientist.
    - Présentation des technologies spécifiques pour le Big Data (Tableau, Talend, Qlikview …).

    Gérer les données structurées et non structurées
    - Principes de fonctionnement de Hadoop Distributed File System (HDFS).
    - Importer des données externes vers HDFS.
    - Réaliser des requêtes SQL avec HIVE.
    - Utiliser PIG pour traiter la donnée.
    - Le principe des ETL (Talend…).
    - Gestion de streaming de données massive (NIFI, Kafka, Spark, Storm…)

    Technique et méthodes Big data analytics
    - Machine Learning, une composante de l’intelligence artificielle.
    - Découvrir les trois familles : Régression, Classification et Clustering.
    - La préparation des données (data preparation, feature engineering).
    - Générer des modèles en R ou Python.
    - Ensemble Learning.
    - Découvrir les outils du marché : Jupyter Notebook, Dataïku, Amazon Machine Learning…

    Data visualisation et cas d’usage concrets
    - Définir le besoin de la data visualisation.
    - Analyse et visualisation des données.
    - Peut concerner tous les types de données dans la DataViz ?
    - Les outils DataViz du marché.

    Conclusion
    - Ce qu’il faut retenir.
    - Synthèse des bonnes pratiques.
    - Bibliographie.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 5 jours soit 35 heures avec 7 heures par jour
    Prix stagiaire : 2 709,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-188 Big Data Foundation, certification
    Big Data Foundation, certification
    BDT / LI-REQ-188
    OBJECTIFS PEDAGOGIQUES
    L’explosion quantitative des données numériques a contraint à trouver de nouvelles façons d’analyser le monde, et cela a abouti à l’émergence du Big Data. Cette formation apportera aux participants les bases du Big Data et du Data Mining et les préparera au passage de la certification Big Data Foundation de l’EXIN.

    PUBLIC
    Responsables SI, architectes IT, chefs de projet et toute personne souhaitant acquérir des bases sur le Big Data.
    PRE-REQUIS
    Connaissances de base des architectures techniques.

    CONTENU

    Les fondamentaux du Big Data
    - L’histoire et les principaux bénéfices du Big Data.
    - Les trois dimensions du Big Data (volume, variété, vélocité).
    - Les technologies Hadoop et MongoDB.
    - Les limites du Big Data.
    - Les grands acteurs du marché. La vie privée.

    Mise en pratique des approches Big Data, synthèse
    - La fraude bancaire.
    - La relation client et le marketing.
    - L’internet des objets.
    - Le “People Analytics”.

    Les sources du Big Data
    - Les principaux types de données.
    - Les données de l’entreprise (Oracle, SAP, Microsoft, Data Warhouses, données non-structurées).
    - Les liens avec les réseaux sociaux (Facebook, Twitter, autres).
    - Les données publiques (Opendata, économiques, financières, comportementales…).

    Les données et l’information
    - La notion de Datalake.
    - Collecter, préparer et gérer les données.
    - La modélisation de données.
    - La Data Sécurité, la Data Gouvernance, la Data Scientist.
    - La Metadata.

    Data Mining
    - Qu’est-ce que le Data Mining ?
    - Les différents types (classification, association…).
    - Quelques algorithmes essentiels (régression linéaires, régression polynomiale).
    - Notion de séries temporelles.
    - La Machine Learning et l’Intelligence Artificielle (IA).
    - Les outils (Weka, KNIME, R).
    - Principales application : Analyse sentiment sur Twitter, analyse des log réseau…

    Outil : Hadoop
    - Présentation de Hadoop (les principaux composants).
    - Architecture d’Hadoop. Installation et configuration.
    - MapReduce (Parallelisation automatique des programmes Hadoop).
    - DataProcessing avec Hadoop (Analyse de sentiment, analyse des logs).

    Outil : MongoDB
    - Présentation de MongoDB (fonctionnalités et concepts).
    - Réplication et Sharding.
    - Ecosystèmes (langages, drivers, outils, intégration avec Hadoop).
    - Installation et configuration.
    - Base de données de documents.
    - Modèle de données de documents (Analyse de sentiment, analyse des logs).

    Examen “Big Data Foundation” de l’EXIN
    - Examen blanc avec correction commentée.
    - Passage de l’examen “Big Data Foundation”.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 2 298,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-187 Statistiques descriptives, introduction UES
    Statistiques descriptives, introduction
    UES / LI-REQ-187
    OBJECTIFS PEDAGOGIQUES
    La “statistique” est une discipline qui collecte, classe, résume, interprète et explique les données. La complexité et le volume de données à traiter augmentant, la maîtrise de ces techniques est donc essentielle pour aborder la “Data Science”. Ce stage très pratique vous apportera les bases nécessaires pour l’aborder.

    PUBLIC
    Professionnels ayant besoin de faire des calculs statistiques au quotidien pour traiter leurs données. Analystes de données, chargés de projets d’aide à la décision, futurs Data Scientists.
    PRE-REQUIS
    Aucune connaissance particulière.

    CONTENU

    Définition
    - Définition de la statistique descriptive. L’étude de l’incertitude.
    - Comparaison de produits calibrés à des données aléatoires.
    - Introduction à l’aléa des données statistiques.
    - Conclusion : la question que se pose un statisticien.

    Formalisation mathématiques
    - Indexation de 1 à n. La valeur absolue.
    - Le Symbole Sigma pour l’écriture de sommes.
    - Le Carré et la Racine Carrée.
    - Effectif, fréquence, quartile, centile : explication et représentations graphiques.
    - Calcul d’intervalles : le traitement des données continues.

    Traitement statistique des données à une dimension
    - Type de données : qualitative ou quantitative.
    - Données avec effectif : calcul de fréquences et interprétation.
    - Tri et traitement des données : mise en forme statistique de différents exemples de données brutes.
    - Représentations graphiques.
    - Paramètres de position : moyenne, mode, médiane.
    - Les paramètres de dispersion : étendue, quantiles, décile, variance.
    - La variance : une moyenne “d’écarts”.

    Variables aléatoires
    - Définition. Catégorie de variables.
    - Exemples et examen de variables aléatoires.
    - Courbes de distribution.
    - Explications des intervalles de confiance.
    - La loi la plus connue : la loi normale.

    Statistique descriptive à deux dimensions : les tableaux de contigence
    - Les données.
    - Représentations graphiques.
    - La covariance.
    - Le coefficient de corrélation linéaire.

    Cas pratique : utilisation des données des participants
    - Mise en évidence de la problématique statistique.
    - Mise en forme des données.
    - Calcul des statistiques de base et représentations graphiques.
    - Recherche de la méthode appropriée au problème.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste analyse statistique

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-093 Modélisation statistique
    Modélisation statistique
    STA / LI-REQ-093

    OBJECTIFS PEDAGOGIQUES

    Ce stage présente l’essentiel des modèles statistiques. Il vous permettra de comprendre leur rôle dans le monde de l’analyse décisionnelle, du Big Data et du Data Mining, ainsi que les mécanismes qui permettent de transformer et d’affiner des données pour en tirer des informations métiers utiles.

    PUBLIC

    PRE-REQUIS

    Responsables Infocentre, responsables marketing, responsables Qualité, utilisateurs et gestionnaires métiers de bases de données. Connaissances de base en mathématiques équivalent à un niveau 3 de formation initiale.

    CONTENU

    Rappels des fondamentaux de la statistique descriptive- Définition de la statistique descriptive.
    - Analyse d’une population.
    - Méthodes d’échantillonnage.
    - Variables qualitatives et quantitatives.
    - Effectifs et calcul des fréquences.
    - Effectifs cumulés croissants et décroissants.
    - Séries statistiques.
    - Représentation graphique des variables qualitatives et quantitatives.Etude de cas
    Etude d’une population et dimensionnement d’un échantillon.

    Démarche et modélisation d’une analyse statistique
    - Statistique descriptive.
    - Phase d’apprentissage.
    - Statistique prédictive pour estimer et anticiper.
    - Modélisation statistique d’un phénomène.Paramètre de position et de dispersion
    - Mode, valeur modale, valeur la plus probable.
    - Moyenne d’une population (ou d’un échantillon).
    - Médiane, partager une série numérique.
    - Etendue, différence entre valeurs extrêmes.
    - Utiliser les quantiles.
    - Comprendre l’utilisation de la variance et co-variance.
    - Ecart-Type, calculer la dispersion d’un ensemble de données.

    Etude de cas
    Calcul de paramètres de position et de dispersion sur différents échantillonnages et comparaisons des résultats.

    Analyses prédictives
    - Régression linéaire simple.
    - Régression linéaire multiple.
    - Régression logistique.
    - Analyse de la variance et de la co-variance et recherche de corrélation.

    Exercice
    Mise en place d’un modèle de régression linéaire multiple pour estimer une valeur.

    Tests et intervalle de confiance
    - Tests.
    - Intervalle de confiance.
    - Lois statistiques et intervalle de confiance.
    - Valider la précision d’une estimation – Amplitude de l’intervalle.

    Etude de cas
    Détection de produits finis défectueux sur une chaine de production.

    Panorama des outils
    - Zoom sur le Logiciel Open Source “R”.
    - Initiation au logiciel Open Source “R”.
    - Les principaux outils : SAS, SPSS.

    Travaux pratiques
    Ecriture de scripts pour calculer des métriques, moyennes, variances. Régression linéaire simple.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation de fin de stage

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

    Spécialiste analyse statistique

    MODALITES PRATIQUES

    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 314,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-092 Construire un Data Warehouse, qualité des données et performance du SI décisionnel
    Construire un Data Warehouse, qualité des données et performance du SI décisionnel
    DAW / LI-REQ-092
    OBJECTIFS PEDAGOGIQUES
    Le Data Warehouse est au cœur de l’analyse décisionnelle. Au travers d’une démarche structurée et pragmatique, vous découvrirez les meilleures méthodes et outils pour élaborer un entrepôt de données à partir des besoins métier, l’alimenter et le rendre fiable et évolutif. Vous découvrirez également quels sont les rôles clés dans ce type de projet, et quel est l’impact sur l’architecture SI et la qualité du référentiel de données d’entreprise. Un cours centré sur l’expérience pratique qui vous donnera aussi une première approche de la modélisation “en étoile”.

    PUBLIC
    Responsables Infocentre, responsables informatiques, responsables des études, architectes de systèmes d’information, chefs de projets fonctionnels et techniques.
    PRE-REQUIS
    Bonnes connaissances en gestion de bases de données. Connaissances de base en analyse décisionnelle.

    CONTENU

    Le Data Warehouse, finalité et principes
    - Les enjeux stratégiques d’un SI décisionnel.
    - Les raisons techniques et culturelles qui conduisent au Data Warehouse.
    - Définition du Data Warehouse selon Bill Inmon.
    - Les solutions apportées par l’architecture technique et fonctionnelle du Data Warehouse.
    - Caractéristiques des données du SI décisionneL
    - L’Infocentre et le SI décisionnel.
    - Présentation des différentes approches Data Warehouse et Infocentre, leurs avantages et inconvénients.

    L’architecture d’un SI décisionnel d’entreprise
    - Les différentes couches de l’organisation d’un Data Warehouse.
    - La collecte et l’intégration des données.
    - L’operational Data Store et la Data Staging area.
    - La couche de présentation, le portail décisionnel.
    - Les moteurs d’analyse OLAP : (MOLAP) et/ou relationnel OLAP (ROLAP).
    - Les techniques d’analyse “Data Mining” : méthodes prédictives, méthodes descriptives.
    - Croissance du volume et de la nature des données, les enjeux du Big Data.
    - La documentation des données du DW : notions de référentiel de données.
    - Comment le DW fiabilise la gestion du référentiel de données (MDM).
    - La gestion des flux : la capture des données sources, les règles de transformation.

    Les principes de la modélisation Data Warehouse
    - Les modèles relationnels opérationnels et dénormalisés.
    - Les modèles hybrides.
    - Les modèles génériques.
    - Comprendre le modèle en étoile, sa finalité.
    - Comprendre les notions de faits et d’analyse. Les hiérarchies d’axe d’analyse.
    - Le modèle en flocon.
    - La problématique des dimensions à évolution.
    - Gestion des agrégats et de la stabilité du périmètre fonctionnel.
    - Quelle approche favorise les informations de détail ou les agrégats ? Bonnes pratiques, questions à poser au métier.

    La démarche de construction d’un Data Warehouse
    - Identifier le périmètre fonctionnel candidat. Déterminer l’objectif et les événements de gestion à suivre.
    - Estimer la volumétrie du périmètre.
    - Analyse fonctionnelle, recueil des besoins utilisateurs.
    - Conception de l’architecture technique détaillée.
    - Etablir une démarche générique de mise en œuvre.
    - Les apports d’une démarche itérative, le contenu d’une itération.
    - Première itération ou projet pilote, bien le choisir. Rôle du sponsor, de la MOA, de la MOE, impact sur l’organisation.
    - L’administration et le suivi de la solution opérationnelle.

    Organisation du projet, les acteurs et les livrables
    - Le rôle fondamental du sponsor ou promoteur.
    - Le comité de pilotage.
    - Rôle de l’équipe fonctionnelle, du groupe de projet utilisateurs : valider le design de l’environnement utilisateur.
    - Le transfert de compétences vers les utilisateurs finaux par l’équipe fonctionnelle : formation et documentation.
    - L’équipe technique, les architectes.
    - Les principaux livrables d’un projet décisionnel.

    Les outils dans le domaine du décisionnel
    - Les dernières évolutions techniques des SGBDR dans le domaine du décisionnel.
    - Panorama et typologie des solutions BI du marché. Les offres en mode SaaS.
    - Les solutions de reporting : SSRS, IBM Cognos, SAS, BusinessObjects… La mise en œuvre des outils de requête.
    - Les outils d’analyse OLAP côté serveur et côté client : utilisation, évolutivité, approche DataMart, temps de réponse.
    - Les solutions d’analyse Data Mining : SAS Enterprise Miner, IBM, OBI Datamining. Exigences et points forts.
    - Les solutions ETL : IBM, Informatica, Oracle, SAP, Talend…
    - Les outils de modélisation relationnelle : possibilités et limites.

    Synthèse
    - Les tendances d’évolution des systèmes décisionnels.
    - Bonnes pratiques pour la modélisation.
    - Recommandations pour l’organisation du projet Data Warehouse.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Datawarehouse

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 2 020,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-MOA-040 La modélisation en étoile, conception et mise en œuvre
    La modélisation en étoile, conception et mise en œuvre
    AMT / LI-MOA-040
    OBJECTIFS PEDAGOGIQUES
    Ce cours, construit autour de nombreux cas pratiques, vous donnera une idée précise de la démarche de modélisation en étoile dans le cadre du projet Data Warehouse. Vous verrez pourquoi elle est l’expression même du besoin de la maîtrise d’ouvrage et comment elle permet de faire converger la vision des opérationnels, des analystes et des pilotes sur les activités de l’entreprise.

    PUBLIC
    Maîtres d’ouvrage et maîtres d’œuvre, responsables des systèmes décisionnels, responsables informatiques, responsables des études, architectes de systèmes d’information, chefs de projets.
    PRE-REQUIS
    Connaissances de base de l’analyse décisionnelle et des SGBD relationnelles.

    CONTENU

    Introduction et rappels
    - Qu’est-ce qu’un système d’information décisionnel ?
    - Evolution des exigences de décision dans le contexte actuel.
    - Infocentres, SIAD, EIS, Data Warehouse, définition et positionnement.
    - Comprendre la finalité de l’approche Data Warehouse.

    Les architectures en réponse aux besoins décisionnels
    - Les composants principaux, Data Warehouse, ODS ou “staging area”, datamarts.
    - Les architectures proposées par Kimball et Inmon. Avantages et inconvénients.
    - Positionnement du modèle en étoile dans le Data Warehouse selon l’architecture.
    - Les phases du cycle de vie d’un Data Warehouse.
    - Les critères de qualité d’un Data Warehouse.
    - La notion de métadonnée, de référentiel.

    Principes et définitions de base sur la modélisation en étoile
    - Rappels sur la modélisation des bases de données opérationnelles.
    - Différences entre OLTP et OLAP.
    - Entités, attributs, cardinalités, formes normales.
    - Le principe de la dénormalisation pour concevoir un modèle en étoile.
    - Comprendre les notions de fait, dimension et axe d’analyse.
    - Les alternatives de modélisation : modèle en flocon, en galaxie.
    - Les règles et bonnes pratiques de modélisation en étoile. Proposition alternative de Kortink et Moody.

    Conception du modèle en étoile
    - Organisation et synthèse des interviews utilisateur pour le recueil du besoin.
    - Compréhension et identification des processus métiers à modéliser.
    - Choix des dimensions d’analyse.
    - Création de hiérarchies dans les dimensions.
    - Identification des mesures et croisements avec les dimensions.
    - Définition de la granularité de l’analyse.
    - Définition des règles d’agrégation.
    - Utilisation d’outils de modélisation.

    Optimisation fonctionnelle du modèle en étoile
    - Gestion de l’évolution des référentiels et du changement des nomenclatures.
    - Gestion des dimensions à évolution lente et rapide.
    - Les clés de substitution.
    - Gestion de la qualité, fiabilité des données.
    - Gestion du contexte non renseigné ou inconnu.
    - Les dimensions dégénérées.

    Replacer la modélisation dans le cadre du projet décisionnel
    - Présentation de la méthode Kimball et Inmon pour l’organisation du projet.
    - Les acteurs et livrables du projet.
    - Recueil des besoins métier. Formalisation des exigences techniques et d’organisation.
    - Identification des priorités et du périmètre pilote.
    - Modélisation des informations.
    - Choix de l’infrastructure. Implémentation et recette.
    - Déploiement et maintenance du modèle.
    - Gestion des historiques.

    Optimisation physique du modèle
    - Gestion de la performance des requêtes.
    - Estimation de l’espace disque requis pour le modèle.
    - Limitation de la taille occupée par une dimension.
    - Agrégation directe de certains éléments dans les tables.
    - Dimensions techniques pour assurer la traçabilité des faits.

    Alimentation du modèle en étoile
    - Contraintes des systèmes opérationnels sources.
    - Rôle des ODS dans l’alimentation.
    - L’organisation des traitements dans la DSA (Data Staging Area).
    - Les différents types d’alimentation (delta, stock, complète).
    - Les étapes, les règles et les prérequis de l’alimentation.
    - Gestion des rejets.
    - Gestion des sources différentes pour l’alimentation d’une dimension ou d’un fait.
    - ETL, les solutions d’alimentation disponibles sur le marché.

    Restitution des informations d’un modèle en étoile
    - Les différents types d’outils au service de la restitution.
    - Le marché des outils de restitution.
    - Optimisation du modèle pour l’exploration des données.
    - Optimisation des index.
    - Utilisation du partitionnement des tables.

    Conclusion
    - Ce qu’il faut retenir.
    - Les pièges à éviter.
    - Pour aller plus loin.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste modélisation en étoile

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 484,00 € TTC
    Horaires : 09h00 – 17h30

    ( )

  • QlikView

    Mapinfo
  • LI-REQ-080 MapInfo Perfectionnement

    MapInfo PRO™ 64 Perfectionnement
    REQ-080

    OBJECTIFS PEDAGOGIQUES
    A la fin du cours, vous serez sera capable de :
    - Paramétrer efficacement le logiciel (onglets, raccourcis,…)

    - Construire rapidement les tables vectorielles dont vous avez besoin à partir de tables existantes (zonages, ensemble de communes spécifiques, EPCI, …).

    - Superposer des analyses thématiques (communes, Iris) et créer des étiquettes conditionnelles.

    - Utiliser les sélections SQL & manuelles pour être plus efficace.
    - Créer, modifier & renseigner des tables vectorielles en dessinant (découpe de communes, quartiers).
    - Géocoder une adresse à la rue depuis un serveur.
    - Chercher et utiliser d’autres formats SIG (open Data IGN ou INSEE).

    PUBLIC PRE–REQUIS
    Utilisateurs de MapInfo souhaitant en approfondir la maitrise,
    Utilisateurs de MapInfo ayant besoin de créer / modifier des tables vectorielles.
    Indispensables :
    - Avoir suivi la formation de MapInfo initiation et/ou avoir une pratique MapInfo suffisante pour suivre une formation approfondie.
    - Utilisation courante d’un tableur.
    CONTENU

     

    Introduction : rappels sur MapInfo PRO™ 64

    • Rappels sur les bases de MapInfo Pro
    • Rappels de paramétrage de l’interface
      • couches & liste de Tables
      • options.
    • A partir du jeu de données, rappels sur les formats SIG et autres
      • Les tables classiques : les formats DBF, XLS, etc.
      • Les fichiers de MapInfo (formats TAB, DAT, MAP, ID, IND)
      • Les fichiers AutoCAD® (DXF, DWG), ArcGIS® (ESRI Shape).
    • Rappels sur les fonctionnalités de la fenêtre couches
      • Les mises à jour de colonnes
    • Rappels sur la gestion des tables dans MapInfo
      • Gestion de la structure (type et nom des champs, projection)
      • Gestion des modifications
      • Copie et changement de projection
      • Gestion des tables RASTER
    • Rappels sur l’utilisation de vos données Excel dans MapInfo Pro™
      • La notion de jointure dynamique

    Gestion des tables vectorielles (communes, EPCI, IRIS)

    • Création de territoires spécifiques
      • avec les outils de sélection manuelle
      • avec les sélections SQL
    • par assemblage
    • par fusion
    • Création de zones d’études : les Tampons

    Représenter les données sur une carte

    • Analyses thématiques avancées
      • avec colonnes temporaires
      • à 2 variables
      • gestion des symboles personnalisés
      • gestion des modèles
    • Les étiquettes conditionnelles

    Les sélections SQL et manuelles

    • Sélection sur la carte : les outils de sélection manuelle
    • Sélections SQL sur une et 2 tables
      • Principes
      • Exemple de sélections géographiques (analyse spatiale)
      • Audit de table par sélections SQL

    Créer et renseigner des tables vectorielles (découpage de communes, iris, points)

    • Manuellement
      • Choix de la projection
      • Utilisation de la couche Dessin
      • Créer et gérer des objets : les outils et propriétés (nœuds, centroïde, etc.), les modes (F, T, N)
      • Modifier définitivement les symboles d’une table de points.
    • Par mise à jour de colonne & jointures géométriques : comptage par Iris, par communes

    Géocodage à la rue

    • Géocoder des adresses à l’aide d’un serveur

    Travailler avec d’autres données disponibles

    • Échanger des tables avec d’autres utilisateurs
      • Format MIF/MID, format TAB
      • Traducteur universel
    • Utiliser les formats :
      • Esri Shapefile (Shp)
      • Google Earth® (KMZ, KML)
    • Ouverture de données universelles (AutoCAD DWG, Esri Shape)
    SESSIONS PROGRAMMEES

    En 2019, à Saint-Denis : 12 & 13 mars; 15 & 16 mai; 2 & 3 juillet ; 8 & 9 octobre ; 11 & 12 décembre.

    VALIDATION

    Entretien ou jeu d’évaluation à chaque fin de module ; questionnaire de satisfaction en fin de formation.

    PEDAGOGIE

    15 % de théorie, 85 % de pratique : étude de cas, mises en situation, jeux choisis et adaptés en fonction des besoins et connaissances des participants.

    INTERVENANTS

    Consultant Formateur MapInfo Pro™

    MODALITES PRATIQUES

    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : contactez votre site Institut 4.10.
    Horaires 9h30-17h30

     

    ( )
  • LI-REQ-068 MAPINFO Pro ™ 64 Initiation
    MAPINFO PRO™ 64 INITIATION
    LI-REQ-068
    OBJECTIFS  PEDAGOGIQUES
    A l’issue du stage, les participants seront capables de :

    · Réaliser une présentation de données sur une carte à partir d’un fichier Excel.
    · Utiliser des requêtes SQL simples pour effectuer des sélections.
    · Paramétrer et réaliser des analyses thématiques.
    · Intégrer des cartes réalisées dans un logiciel de traitement de texte ou de mise en page.
    · Cartographier un fichier d’individus à partir de coordonnées (X,Y).

    PUBLIC PRE–REQUIS
    Toute personne ayant à utiliser MAPINFO PRO™ 64 Bonne connaissance de l’environnement Windows. Utilisation d’un tableur ou d’une base de données.
    CONTENU
    Introduction à la cartographie informatique

    • Définition : les composantes d’un SIG
    • L’information géographique
      • Les notions d’objets, de projections (Lambert 93), d’échelle
      • Les bases de données géographiques
        • La notion de table (champs et enregistrements)
        • Les tables Raster et Vecteur : présentation des données (les cartes) et des formats avec le jeu de données du stage
      • Organisation des données sur le disque dur/serveur (arborescence de répertoires)

    Introduction à MAPINFO PRO™64

    • Ergonomie de MAPINFO PRO™ 64 : les différents types de fenêtres
    • Paramétrage du logiciel
    • Ajout de fonctionnalités à MAPINFO PRO™ 64 : les outils disponibles
    • Présentation des fenêtres Cartes et Données
    • Réalisation d’une première carte simple

    Prise en mains de MAPINFO PRO™64

    • Gérer et paramétrer les fenêtres cartes
      • La fenêtre Couches
      • Gestion des couches (ajouter / enlever / propriétés)
      • Les outils de navigation (zoom, sélection, Information, distance…)
      • L’échelle, les coordonnées affichées
      • Étiquetage automatique
      • Gérer les fenêtres Données (affichage, tri, filtres)
      • Gérer les fenêtres Légendes (le concepteur de légende)
      • Utiliser les cartes Bing®, OSM®

    Enregistrer votre travail

    • Enregistrement de documents types (fonds de cartes)
    • Utilisation de documents existants

    Représenter vos données sur une carte

    • Conseils de sémiologie graphique pour choisir vos analyses (langage des cartes)
    • Gestion des analyses thématiques :
      • Création, suppression, modification
      • Les  types d’analyses
        • Par Valeur Individuelle (catégories, territoires)
        • Par Classes (taux, ratios),  Symboles proportionnels (nombre de sites, potentiels)
        • Création de modèles et échange
        • Les légendes thématiques
      • Gestion des étiquettes
        • Paramétrage du contenu
        • Étiquettes personnalisées
        • Exemples d’étiquettes sur 2 lignes

    Gérer vos fonds de cartes

    • Gérer vos tables dans MAPINFO PRO™ 64
      • Gestion des champs
      • Copie de table
      • Renseigner vos tables
        • Manuellement (saisie, outil Informations)
        • Par mise à jour de colonnes (calcul de valeurs dans un champ, de taux, de superficie à partir des objets de la table)
        • Gestion des modifications (enregistrement, annulation)

    Travailler avec vos données métier

    • Préparer rapidement vos fichiers dans Excel®
    • Gérer vos fichiers Excel® dans MapInfo Pro™ 64
      • Ouverture, stockage
      • Mise à jour des données
      • Lier vos données Excel®  à une table de communes
        • La notion de jointure
        • Les mises à jour de colonnes

    Sélectionner les données

    • Sélection sur la carte : les outils de sélection manuelle
    • Introduction aux sélections avec les données sur une table (sél. SQL)
    • Affichage des sélections dans une fenêtre carte
    • Utilisation des sélections
    • Enregistrement des sélections

    Cartographier vos données

    • Utiliser les coordonnées (X, Y) : relevé GPS de sites à partir d’un fichier Excel.
    • Utilisation de la nouvelle table dans un (.WOR).

    Diffuser vos cartes et échanger (cartes)

    • La fonction de mise en page de MAPINFO PRO™ 64
      • Préparer la mise en page
      • Les éléments à intégrer (Titre, sources, échelle, nord, logo, copyright,…)
      • Intégrer un focus
      • Générer un fichier image à partir de vos cartes (JPG, …) à intégrer dans Prezi, Powerpoint, Word…
      • Générer un fichier PDF multicouches à partir de vos cartes

    Diffuser vos cartes et échanger (données)

    • Échanger des tables
      • Exporter les données pour un tableur (CSV, TXT)
      • Le Traducteur universel
      • Le format MIF/MID
      • Le format ESRI Shape® (Shp)
      • Diffuser un document (.WOR) et ses tables
    SESSIONS PROGRAMMEES En 2019, à Saint-Denis : 5 au 7 février; 2 au 4 avril ; 18 au 20 juin ; 10 au 12 septembre ; 19 au 21 novembre.
    VALIDATION entretien ou jeu d’évaluation à chaque fin de module ; questionnaire de satisfaction en fin de formation.
    PEDAGOGIE 15 % de théorie, 85 % de pratique : étude de cas, mises en situation, jeux. INTERVENANTS Consultant Formateur MapInfo PRO
    MODALITES  PRATIQUES Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1.218 € TTC
    Horaires : 9h30 – 17h30 (16h30 le dernier jour)
    ( )

  • Talend
  • LI-REQ-194 Talend Open Studio for Big Data, exploiter vos données massives TAD
    Talend Open Studio for Big Data, exploiter vos données massives
    TAD / LI-REQ-194
    OBJECTIFS PEDAGOGIQUES
    La plateforme d’intégration de données de Talend étend ses possibilités aux technologies Big Data que sont Hadoop (HDFS, HBase, HCatalog, Hive et Pig) et les bases NoSQL Cassandra et MongoDB. Ce stage vous apportera les bases pour bien utiliser les composants Talend crées pour communiquer avec les systèmes Big Data.

    PUBLIC
    Gestionnaires de données, architectes, consultants en informatique décisionnelle.
    PRE-REQUIS
    Expérience dans l’utilisation de l’outil Talend Open Studio For Data Integration ou compétences acquises durant la formation TOT.

    CONTENU

    Présentation de Talend Open Studio for Big Data
    - Problématique du Big Data : le modèle de 4V, les cas d’usage.
    - L’écosystème Hadoop (HDFS, MapReduce, HBase, Hive, Pig…).
    - Données non structurées et base de données NoSQL.
    - TOS for Big Data versus TOS for Data Integration.

    Mise en œuvre de HDFS, HBase et HCatalog
    - Définition des métadonnées de connexion du cluster Hadoop.
    - Gestion des ressources HDFS : les principaux composants Talend.
    - Connexion à HBase, création, lecture/écriture dans une table HBase.
    - Configuration HBase, mode local versus mode distribué.
    - Création de bases de données, tables et de partitions via HCatalog.
    - Lecture de tweets (composants d’extension).

    Effectuer des traitements à l’aide de Pig
    - Le langage de script Pig Latin, Pig versus SQL.
    - Principaux composants Pig de Talend, conception de flux Pig.
    - Exécution de scripts Pig (tPigCode).
    - Configuration des propriétés associées à l’usage de MapReduce.
    - Développement de routines UDF.

    Exploiter Hive
    - Métadonnées de connexion et de schéma Hive.
    - Le langage HiveQL.
    - Conception de flux Hive, exécution de requêtes.
    - Mettre en œuvre les composants ELT de Hive.

    Autres aspects couverts par Talend for Big Data
    - Utiliser Scoop pour importer, exporter, mettre à jour des données entre systèmes RDBMS et HDFS.
    - Support Talend des bases de données NoSQL (MongoDB et Cassandra).
    - Conception de jobs MapReduce et Spark Streaming.
    - Configuration avancée des composants du cluster (zookeeper, resource manager, job history…).

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Talend

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-171 Talend Open Studio, optimiser vos flux de données – développement avancé
    Talend Open Studio, optimiser vos flux de données – développement avancé
    TAO / LI-REQ-171
    OBJECTIFS PEDAGOGIQUES
    L’ETL Talend permet d’ajouter simplement de nouvelles fonctions et composants afin de réaliser des processus complexes. Ce stage vous permettra de prendre en main les fonctionnalités avancées de Talend Open Studio, afin d’aboutir à une mise en place optimisée et fiable des flux de données.

    PUBLIC
    Développeurs, chefs de projet, consultants en informatique décisionnelle, administrateurs de base de données.
    PRE-REQUIS
    Connaître les bases du développement dans Talend Open Studio, ou avoir suivi le cours Talend Open Studio, mise en œuvre de l’intégration de données (REQ-157).

    CONTENU

    Introduction
    - Présentation de Talend Open Studio.
    - Rappel des principes des ETL.
    - Installation de TOS.

    Utilisation avancée de Talend
    - Les contextes et leur gestion.
    - Implémenter les transformations complexes.
    - Manipuler des flux XML.
    - Mettre en oeuvre les composants ELT.
    - Utiliser les expressions régulières.

    Exercice
    Associer un groupe de contextes à un job, utiliser des composants de transformations, créer des fichiers XML à partir d’un fichier plat, utiliser les composants ELT MySQL.

    Java et création de composants
    - Présentation des principes d’implémentation en Java.
    - Consulter le code Java associé à un job.
    - Les composants Talend Java.
    - Utiliser les routines.
    - Anatomie et création d’un composant.
    - Exporter un composant dans la palette.
    - Internationaliser ses composants.

    Exercice
    Utilisation de tMemorizeRows, tJavaFlex, tJava. Ecrire une routine et l’utiliser dans un job. Créer un premier composant. Modifier les fichiers javajet pour étendre les fonctionnalités.

    Optimisation des performances et debugging
    - Monitorer la performance des jobs.
    - Mettre en place son propre système de journalisation.
    - Optimiser la performance des jobs.
    - Debugging.
    - Modifier à chaud les variables en mémoire.

    Exercice
    Ajouter des composants de monitoring à un job, mettre en place son système de logs, utiliser les buffers.

    Déploiement en production
    - Lancer un job hors de TOS.
    - Programmer l’exécution d’un job sous Windows.
    - Programmer l’exécution d’un job sous Linux.
    - Talend Enterprise et la TAC.

    Exercice
    Exporter le premier job créé hors de TOS, planifier l’exécution du job exporté via la planificateur de tâches Windows.

    Pour aller plus loin
    - Bonnes pratiques de développement.
    - Créer un plug-in Eclipse.
    - Intégrer dans Talend Open Studio un plug-in Eclipse.
    - Présentation de Talend ESB.
    - Présentation de Talend Big Data.

    Exercice
    Mutualisation des connexions, utilisation des Rollback.

    Conclusion
    - Présentation des ressources sur Talend.
    - Valoriser son développement au sein de la communauté Talend.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier
     
    VALIDATION

    Evaluation de fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Talend

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 314,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-157 Talend Open Studio, mise en œuvre de l’intégration de données
    Talend Open Studio, mise en œuvre de l’intégration de données
    TOT / LI-REQ-157

    OBJECTIFS PEDAGOGIQUES

    Talend Open Studio (TOS) est une application libre de type ETL permettant d’effectuer des synchronisations massives d’informations d’une base de données vers une autre. Ce stage vous apprendra à concevoir, modéliser et développer des “jobs” TOS afin de faire face aux différentes problématiques.

    PUBLIC

    PRE-REQUIS

    Développeurs, chefs de projet, consultants en informatique décisionnelle, administrateurs de base de données. Bonne connaissance des SGBDR et du SQL. La connaissance du langage Java est un plus.

    CONTENU

    Présentation

     

    - L’intégration de données. Les solutions ETL.
    - TOS : installation, préférences utilisateur. documentation de référence.
    - Philosophie du produit. Conception d’un job.

    Travaux pratiques
    Prise en main de l’outil. Présentation du cahier des charges du projet fil rouge.

    Modéliser le besoin, concevoir un premier job

    - Business Modeler. Job Designer.
    - Principales connexions. Composants CSV et XML.
    - Composants de transformation simples.
    - Visualiser du code généré, exécuter un job.

    Exercice
    Développement d’un job assurant le tri d’une source CSV, le filtrage de données et le stockage du résultat dans un fichier XML.

    Optimiser le développement des jobs

    - Configurer des connexions réutilisables à l’aide des métadonnées.
    - Mettre à jour les métadonnées et les propager sur les jobs, importer/exporter des métadonnées.
    - Paramétrer les jobs par des contextes.
    - Externaliser les variables de contextes dans des fichiers “.properties” et “.ini”.
    - Créer et gérer ses propres variables.
    - Générer des jeux de données pour des tests.

    Exercice
    Refactorer un job en utilisant métadonnées et contextes. Générer un jeu de données de test pour ce job.

    Travailler avec des bases de données

    - Bases de données supportées et leurs principaux composants.
    - Paramétrages des opérations sur les tables.
    - Métadonnées et contexte de connexion à un schéma de base de données.
    - Partage de connexions et gestion des transactions.
    - Créer des requêtes à l’aide de SQLBuilder.

    Exercice
    Lecture et mise à jour d’un référentiel de données hébergé sur un serveur MySQL.

    Travailler sur des données multisources
    - Présentation du composant tMap.
    - Configuration des flux d’entrée, créations de jointures.
    - Réaliser des transformations en utilisant variables, expressions et jointures.
    - Qualifier les données à l’aide de filtres.
    - Générer des sorties multiples, gérer les rejets.

    Exercice
    Consolidation de données multisources et génération d’un entrepôt.

    Compléments

    - Décomposer un job en sous-jobs, utilisation du tRunJob. Lancer les jobs en ligne de commande. Exécution périodique.
    - Débogage d’un job, tracer les statistiques d’exécution.
    - Reporting tJasperOutput.

    Exercice
    Génération d’un rapport Jasper Report à partir d’un entrepôt.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation de fin de stage

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

    Spécialiste talend

    MODALITES PRATIQUES

    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 716,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-BDD-134 Talend Open Studio for Data Quality, gérer la qualité des données TDQ
    Talend Open Studio for Data Quality, gérer la qualité des données
    TDQ / LI-BDD-134
    OBJECTIFS PEDAGOGIQUES
    Ce cours vous apprendra à exploiter efficacement l’outil Talend Open Studio for Data Quality de manière à évaluer le niveau de qualité des données d’un système d’information. Vous mettrez en œuvre des analyses, vérifierez des règles métiers et définirez des stratégies de correction pour les données erronées.

    PUBLIC
    Analystes métiers, intégrateurs de données, gestionnaires de données.
    PRE-REQUIS
    Bonnes connaissances des bases de données relationnelles et du SQL. Connaissances de base de Talend Open Studio for Data Integration.

    CONTENU

    La problématique de la qualité des données
    - L’évaluation de la qualité des données d’un système d’information.
    - Critères fondamentaux : exhaustivité, précision et intégrité des données.
    - Positionnement du produit Talend Open Studio for Data Quality dans la suite Talend.

    Les concepts fondamentaux de TOS for Data Quality
    - Les métadonnées : connexions aux bases, fichiers délimités et fichiers Excel.
    - Présentation des différents types d’analyses.
    - Les outils et indicateurs d’aide à la réalisation des analyses.
    - L’explorateur de données.

    Les analyses simples
    - Recherche de doublons, respect de contraintes d’intervalle, format de date, d’email…
    - Métriques d’une table, dépendances fonctionnelles entre colonnes.
    - Identification des redondances de valeurs.
    - Contrôles de cohérence entre clefs étrangères et primaires.
    - Utiliser les indicateurs, les modèles, les règles et les fichiers sources.

    Les analyses avancées
    - Analyse de schéma et de la structure des tables via l’explorateur de données.
    - Analyse multitable et multicolonne, respect de règles métiers.
    - Recherche et visualisation de corrélation entre colonnes.
    - Créer ses propres indicateurs et fichiers sources.
    - Gérer les analyses.

    Eléments avancés
    - Utiliser des variables de contexte.
    - Créer des modèles basés sur des expressions régulières.
    - Exporter/importer les analyses et les données analysées.
    - Corriger les données erronées avec Talend Data Integration.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Talend

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 314,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-BDD-124 Talend Enterprise Data Integration Administration
    Talend Enterprise Data Integration Administration
    BITA004 / LI-BDD-124

    OBJECTIFS PEDAGOGIQUES

    A la fin du cours, le stagiaire sera capable de :
    Installer manuellement chaque application individuellement
    Configurer Talend Administration Center
    Créer des projets et des utilisateurs
    Gérer des branches SVN
    Générer, déployer et exécuter une tâche
    Configurer l’Activity Monitoring Console
    Utiliser le Commandline

    PUBLIC

    PRE–REQUIS

    Toute personne en charge du fonctionnement, du déploiement ou de la maintenance des Jobs Talend. Avoir suivi la formation Talend Data Integration Basics (BITA001/BDD-121) et posséder des connaissances générales liées aux tâches d’administration.

    CONTENU

    EXERCICE 1 – TALEND ADMINISTRATION CENTER
    Vue d’ensemble
    Talend Administration Center – Architecture
    Configuration de SVN
    Installation de Talend Administration Center
    Configuration de Talend Administration Center
    Création de projets
    Installation d’Archiva et du référentiel d’artefacts Nexus
    Conclusion
    EXERCICE 2 – SUDIO TALEND
    Vue d’ensemble
    Installation du Studio Talend
    Accès aux projets
    Création de branches
    Conclusion
    EXERCICE 3 – COMMANDLINE
    Vue d’ensemble
    Installation du Commandline
    Exécution du Commandline
    Contrôle avec le Commandline
    Conclusion
    EXERCICE 4 – DEPLOIEMENT DE JOBS
    Vue d’ensemble
    Installation d’un serveur de Job
    Déploiement de Jobs enregistrés dans le SVN
    Déploiement de Jobs utilisant des fichiers .zip
    Déploiement de Jobs utilisant le référentiel d’artefacts Nexus
    Déploiement de Jobs utilisant des tâches Artifact
    Conclusion
    EXERCICE 5 – MONITORING
    Vue d’ensemble
    Enregistrement des logs sur le serveur de logs
    Installation de l’Activity Monitoring Console
    Configuration du monitoring
    Accès au monitoring
    Conclusion

    SESSIONS  PROGRAMMEES

    http://www.micropole-institut.com/index.cfm?q=BITA004&page=%2Finstitut%2Fhome%2Fsearch

     

    VALIDATION

    Evaluation de fin de session

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques
    Support de cours en français

    INTERVENANTS

    Spécialiste Talend  Data Integration

    MODALITES PRATIQUES

    Durée : 1 jour soit 7 heures
    Prix stagiaire : 686 € TTC
    Horaires : 9h00 – 17h00

    ( )
  • LI-BDD-122 Talend Data Integration (DI) – Enterprise
    Talend Data Integration (DI) – Enterprise
    BITA002 / LI-BDD-122

    OBJECTIFS  PEDAGOGIQUES

    A la fin du cours, le stagiaire sera capable de :

    • Créer une connexion à un référentiel Talend distant
    • Démarrer le Studio Talend via une connexion à distance
    • Examiner le contenu d’une base de données dans le  Studio Talend  en utilisant deux procédés différents
    • Configurer une table d’une base de données à monitorer pour capturer ses modifications dans une base de données CDC séparée
    • Créer un Job qui reprend les informations dans une base de données CDC pour mettre à jour une table maître d’une base de données avec les changements de la table de base de données monitorée
    • Configurer un projet Talend pour capturer les statistiques et les logs
    • Configurer un Job Talend pour capturer les statistiques et les logs
    • Accéder à Talend Activity Monitoring Console depuis le Studio Talend
    • Lister les types d’informations disponibles dans l’Activity Monitoring Console
    • Configurer le Studio Talend pour identifier les serveurs de Jobs distants
    • Exécuter un Job du Studio Talend  sur un serveur de Jobs distant
    • Configurer un Job pour une exécution multithread
    • Configurer un composant individuel pour utiliser une exécution parallèle
    • Configurer un composant Talend pour utiliser la fonctionnalité d’exécution parallèle des sous-jobs
    • Passer d’une branche SVN à une autre dans le Studio Talend
    • Copier un Job d’une branche à une autre
    • Comparer les différences entre deux versions d’un même Job

    Talend Enterprise Data Integration ajoute aux fonctionnalités de Talend Open Studio for Data Integration les fonctions de développement collaboratif et distribué, ainsi que des fonctionnalités de CDC (Change Data Capture). Le produit Talend Open Studio est conçu pour un développeur travaillant sur un ordinateur. Le produit Enterprise fournit une architecture distribuée permettant à différents développeurs de partager les ressources et de combiner leurs efforts sur un même projet.
    La formation Talend Enterprise Data Integration est une introduction à Talend Enterprise Data Integration. Elle traite des fonctionnalités supplémentaires du produit Enterprise par rapport à Talend Open Studio for Data Integration.

    PUBLIC

    PRE–REQUIS

    Les personnes souhaitant utiliser le Studio Talend pour effectuer des tâches d’intégration et de gestion de données, comme les chefs de projet, les développeurs de logiciels, les experts en Business Intelligence et les administrateurs de bases de données. Avoir suivi la formation DI Basics ou avoir des connaissances équivalentes. La connaissance de Java ou d’un autre langage de programmation, de SQL ou de concepts généraux de bases de données est utile.

    CONTENU

    • Se connecter à un Repository distant
    • Capturer les données modifiées (CDC)
    • Monitorer l’activité des Jobs
    • Exécuter un Job à distance
    • Utiliser la fonctionnalité d’exécution parallèle
    • Utiliser des branches SVN

    Version 5.5

    SESSIONS  PROGRAMMEES

    http://www.micropole-institut.com/formations/business-intelligence/les-etl-extract-transform-load/1508/talend-data-integration-di-enterprise

    VALIDATION

    Evaluation de fin de session

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques
    Support de cours en français

    INTERVENANTS

    Spécialiste Talend

    MODALITES  PRATIQUES

    Durée : 1 jour soit 7 heures
    Horaires : 9h00 – 17h00
    Prix stagiaire : 686€

    ( )
  • LI-BDD-121 Talend Data Integration (DI) – Basics
    Talend Data Integration (DI) – Basics
    BITA001/LI-BDD-121

    OBJECTIFS PEDAGOGIQUES

    A la fin du cours, le stagiaire sera capable de :

    • Démarrer Talend Open Studio for Data Integration
    • Lier le Studio Talend à votre compte Talend et créer un compte si nécessaire
    • Créer un projet Talend contenant des tâches
    • Créer un Job Talend réalisant une tâche spécifique
    • Ajouter et configurer des composants permettant de manipuler l’entrée, la transformation et la sortie de données
    • Exécuter un Job Talend et examiner les résultats
    • Construire un modèle d’un Job Talend  ou d’un projet
    • Copier un Job existant comme base pour un nouveau Job
    • Stocker centralement les informations de configuration pour les utiliser dans d’autres composants
    • Enrichir les données d’une source avec les données extraites d’une seconde source
    • Afficher les lignes de données dans la console au lieu de les stocker
    • Corriger une jointure en examinant les lookups en erreur
    • Utiliser des composants pour filtrer des données
    • Générer des lignes de données d’exemple
    • Exécuter des sections de Job sous condition
    • Dupliquer les flux de sortie
    • Créer un schéma pour l’utiliser dans plusieurs composants
    • Créer des variables pour les paramètres de configuration des composants
    • Exécuter un Job pour accéder aux valeurs spécifiques des variables
    • Arrêter un Job dans certaines circonstances spécifiques
    • Inclure des éléments au Job modifiant son comportement selon la réussite ou de l’échec des composants individuels ou des sous-jobs
    • Se connecter à une base de données à partir d’un Job Talend
    • Utiliser un composant pour créer une table de base de données
    • Ecrire vers et lire à partir d’une table de base de données dans un Job Talend
    • Filtrer des lignes de données uniques
    • Réaliser des calculs pour regrouper des lignes
    • Ecrire des données dans un fichier XML à partir d’un Job Talend
    • Utiliser des composants pour créer une archive et supprimer des fichiers
    • Utiliser un composant Talend pour accéder à un Service Web
    • Extraire des éléments spécifiques à partir d’une réponse du Service Web
    • Stocker les informations d’accès au Service Web pour les utiliser dans plusieurs Jobs
    • Write an XML document to a file
    • Ajouter des commentaires pour documenter un Job et ses composants
    • Générer la documentation HTML pour un Job
    • Exporter un Job
    • Exécuter un Job exporté en dehors de Talend Open Studio
    • Créer une nouvelle version  d’un Job existant

    Talend Open Studio for Data Integration améliore considérablement l’efficacité des Jobs d’intégration de données grâce à son environnement graphique de développement simple à utiliser. Il permet des déploiements rapides et une réduction des coûts de maintenance, grâce à des connecteurs intégrés vers tous les systèmes source et cible, et au support de tous les types d’opérations d’intégration de données, migration de données, et synchronisation de données.

    Cette formation vous permet d’utiliser Talend Open Studio for Data Integration pour travailler sur vos projets aussi rapidement que possible. Le cours est centré sur les foncionnalités de base du Studio et comment l’utiliser pour construire des tâches d’intégration de données fiables et maintenables permettant de résoudre des problèmes pratiques : extraire des données d’une base de données et de formats de fichiers communs, les transformer et les intégrer dans des cibles. Les compétences acquises durant cette formation sont applicables à toute la gamme des produits Talend. Ce cours sert de base à toutes les formations Talend et est le prérequis de nombreux cours.

    PUBLIC

    PRE–REQUIS

    Les personnes souhaitant utiliser le Studio Talend pour effectuer des tâches d’intégration et de gestion de données, comme les chefs de projet, les développeurs de logiciels, les experts en Business Intelligence et les administrateurs de bases de données. Compétences informatiques basiques requises. La connaissance de Java ou d’un autre langage de programmation, de SQL ou de concepts généraux de bases de données est utile.

    CONTENU

    Jour 1 :
    • Démarrer Talend Open Studio
    • Créer un Job
    • Lire des sources d’entrée
    • Transformer des données
    • Exécuter un Job
    • Combiner des colonnes
    • Construire un Business Model
    • Dupliquer un Job
    • Créer des métadonnées
    • Créer une jointure
    • Capturer les erreurs de jointures
    • Corriger les lookups
    • Mettre à jour un Business Model
    • Générer des lignes
    • Créer une jointure
    • Ajouter des contraintes
    • Répliquer la sortie
    • Utiliser des variables de contexte
    • Utiliser les variables de contexte stockées dans le Repository
    • Gérer les erreurs
    Jour 2 :
    • Travailler avec des bases de données
    • Créer un nouveau projet
    • Créer la métadonnée Customer
    • Créer une table Customer
    • Créer une table Product
    • Définir les fichiers Sales
    • Configurer la table Shop Stag
    • Effectuer une jointure sur les données
    • Finaliser le Job
    • Travailler sur les Services Web
    • Accéder à un Service Web
    • Utiliser le standard Advanced WSDL
    • Documenter un Job
    • Exécuter les Jobs en standalone
    • Export un Job

    Version 5.5

    SESSIONS  PROGRAMMEES

    http://www.micropole-institut.com/formations/business-intelligence/les-etl-extract-transform-load/1507/talend-data-integration-di-basics

    VALIDATION

    Evaluation de fin de session

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    Support de cours en français

    INTERVENANTS

    Spécialiste Talend

    MODALITES  PRATIQUES

    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Horaires : 9h00 – 17h00
    Prix stagiaire : 1372€

    ( )

  • Environnement R
  • LI-REQ-190 Environnement R, manipulations de données et statistiques élémentaires
    Environnement R, manipulations de données et statistiques élémentaires
    MDR / LI-REQ-190
    OBJECTIFS PEDAGOGIQUES
    R est un logiciel statistique qui dispose d’outils graphiques de qualité pour présenter les données. Afin de bénéficier de cette richesse, il faut être capable de préparer ces données, de les transformer et de les exploiter avec R. Ce stage vous propose d’approfondir les compétences des utilisateurs de R.

    PUBLIC
    Statisticiens, analystes, ingénieurs, développeurs. Toute personne ayant à manipuler des données, à traiter numériquement et représenter graphiquement des données, à réaliser des statistiques sous R.
    PRE-REQUIS
    Connaissances de base du logiciel R, ou connaissances équivalentes à celles apportées par le stage “Environnement R, initiation” (réf. TDA).

    CONTENU

    Rappels
    - L’environnement RStudio.
    - Les types de données dans R, les listes, les DataFrames, les facteurs et les variables ordinales.
    - Les dates et les séries temporelles.

    Importation-exportation et production de données
    - Lire un fichier texte ASCII, Excel, SPSS, Minitab, SAS ou Matlab.
    - Lire des données au clavier et utiliser le copier-coller.
    - Lecture/écriture des fichiers, bases de données.

    Manipulation de données, fonctions
    - Opérations sur les matrices ou les DataFrames.
    - Les fonctions outer, apply, lapply, sapply et mapply.
    - Opérations logiques et relationnelles.
    - Manipulation de chaînes de caractères. Manipulation de dates et d’unités de temps.

    Techniques pour tracer des courbes et des graphiques
    - Les fenêtres graphiques : manipulation, sauvegarde.
    - Les fonctions de tracé de bas niveau.
    - La gestion des couleurs et paramètres graphiques.
    - L’ajout de texte, titres, axes et légendes.
    - Diagrammes en croix, tuyaux d’orgue, empilé ou circulaire. Boîte à moustaches.
    - Graphe de la fonction de répartition empirique. Histogramme en densité à amplitudes de classes égales ou inégales.
    - Polygone des fréquences. Représentations graphiques dans un cadre bivarié.

    Mathématiques et statistiques élémentaires
    - Structuration des variables suivant leur type.
    - Résumés numériques.
    - Mesures d’association.
    - Notions sur la génération de nombres au hasard et de variable aléatoire.
    - Loi des grands nombres et théorème de la limite centrale.
    - Intervalles de confiance.
    - Tests d’hypothèses usuels. Autres tests d’hypothèses.
    - Analyse de la variance à un facteur, deux facteurs ou à mesures répétées.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste analyse statistique

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-158 Environnement R, traitement de données et analyse statistique
    Environnement R, traitement de données et analyse statistique
    TDA / LI-REQ-158

    OBJECTIFS PEDAGOGIQUES

    R est un environnement logiciel Open Source spécialisé dans le calcul et l’analyse statistique. Ce stage vous présentera ses concepts et ses fonctionnalités. Il vous montrera comment manipuler les données et implémenter des modèles statistiques sur ces données avec le logiciel R.

    PUBLIC

    PRE-REQUIS

    Utilisateurs finaux, statisticiens, analystes type DataMiner, acteurs impliqués dans l’analyse/fouille des données. Connaissances de base en statistiques (régressions, analyse en composantes principales, classification) et des concepts de programmation.

    CONTENU

    Introduction

     

    - Présentation du logiciel R et de ses fonctionnalités.
    - Avantages et inconvénients.
    - Accès au site de téléchargement de l’outil et installation.

    Exercice
    Installation de l’environnement d’analyse.

    Premier pas

    - Environnement de base (console, script).
    - Utilisation de la console.
    - Création et sauvegarde d’un script.
    - Le répertoire sous R Installation.
    - Aide et commentaires.
    - Les autres éditeurs Tinn-R et R Studio.

    Exercice
    Création de scripts.

    Objets et notions de programmation R

    - Les objets de type vecteurs, matrix, array, factor, data.frame, list.
    - Manipulation des objets, classe d’objet, fonction spécifiques, jointure.
    - Sauvegarde, suppression de mémoire.
    - Notion de Boucle (for et while), condition (if), switch.

    Exercice
    Manipulation des types d’objets.

    Création et utilisation de fonctions

    - Structure d’une fonction.
    - Fonctions de type mathématique.
    - Fonctions de type chaîne de caractères.
    - Fonctions liées au temps/date.
    - Opérations ensemblistes.
    - Les tables de contingences.

    Exercice
    Création et d’utilisation de fonctions.

    Génération, gestion et visualisation des données

    - Les données : séquences régulières et aléatoires.
    - Données exemple de R.
    - Importation et exportation de données.
    - Modifier les données d’un objet.
    - Exemples de graphiques construits avec R.
    - Création des graphiques de base.
    - Les options graphiques, partager une fenêtre graphique, sauvegarder un graphique.

    Exercice
    Exercice d’application sur les données.

    Analyses statistiques

    - Présentation de la notion de package (librairie).
    - Télécharger/charger des packages.
    - Quelques packages utiles.
    - Cas de la régression non-linéaire multiple.
    - Cas de l’analyse en composantes principales ACP.
    - Cas de la classification CAH.

    Exercice
    Exercice d’application sur les packages.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation de fin de stage

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

    Spécialiste analyse statistique

    MODALITES PRATIQUES

    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 314,00 € TTC
    Horaires : 9h – 17h30

    ( )

  • Autres solutions
  • LI-REQ-255 Hadoop, développer des applications pour le Big Data
    Hadoop, développer des applications pour le Big Data
    APH / LI-REQ-255
    OBJECTIFS PEDAGOGIQUES

     

    À la fin du cours, le stagiaire sera capable de :

    • Construire un programme à base de Map Reduce
    • Intégrer Hadoop HBase dans un workflow d’entreprise
    • Travailler avec Apache Hive et Pig depuis HDFS
    • Utiliser un graphe de tâches avec Hadoop
    PUBLIC

     

    Concepteurs, développeurs.

    PRE-REQUIS

     

    Bonne expérience en développement Java.
    Des connaissances en architecture Web constituent un plus.

    CONTENU

    Le Big Data

    - Définition du périmètre du Big Data.
    - Le rôle du projet Hadoop.
    - Les concepts de base des projets Big Data.
    - Présentation du Cloud Computing
    - Différence entre Cloud Computing privé et public.
    - Les architectures Big Data à base du projet Hadoop.

    Démonstration
    Usage d’Hadoop et de GoogleApp.

    Collecte de données et application de Map Reduce

    - Analyse des flux de données dans l’entreprise.
    - Données structurées et non-structurées.
    - Les principes de l’analyse sémantique des données d’entreprise.
    - Graphe des tâches à base de MapReduce.
    - La granularité de cohérence des données.
    - Transfert de données depuis un système de persistance dans Hadoop.
    - Transfert de données d’un Cloud dans Hadoop.

    Travaux pratiques
    Gérer la collecte d’informations clientèles par Map Reduce. Configuration de l’implémentation YARN. Développement d’une tâche basée sur Map Reduce.

    Le stockage des données avec HBase

    - Plusieurs types de base de données XML.
    - Patterns d’usages et application au cloud.
    - Application de Hadoop database au sein d’un workflow.
    - Utilisation des projets Hive/Pig.
    - Utilisation du projet HCatalog.
    - L’API Java HBase.

    Travaux pratiques
    Gérer les modifications d’un catalogue de données fournisseur.

    Le stockage des données sur HDFS

    - Patterns d’usages et application au Cloud.
    - Architecture et installation d’un système HDFS, journal, NameNode, DataNode.
    - Opérations, commandes et gestion des commandes.
    - L’API HDFS Java.
    - Analyse de données avec Apache Pig.
    - Le langage Pig Latin. Utiliser Apache Pig avec Java.
    - Requêtage avec Apache Hive.
    - Réplication de données. Partage de données sur une architecture HDFS.

    Travaux pratiques
    Administrer un référentiel client partagé sur Hadoop. Utilisation de la console de visualisation.

    Spring Data Hadoop

    - Introduction à Spring et Spring Data.
    - Le namespace Hadoop pour Spring.
    - Utiliser Spring pour simplifier la configuration Hadoop.
    - Configuration du cache distribué.
    - Définition des Jobs et dépendance entre Jobs.
    - Intégration des outils (Pig, Hive…).

    Travaux pratiques
    Refondre la gestion du catalogue de données fournisseur via Spring Data.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION
    Alternance d’exposés et de travaux pratiques

    PEDAGOGIE

     

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

     

    Spécialiste Big Data

    MODALITES PRATIQUES

    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 271,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-253 Flink, développer des applications pour le Big Data
    Flink, développer des applications pour le Big Data
    FKB / LI-REQ-253
    OBJECTIFS PEDAGOGIQUES

     

    À la fin du cours, le stagiaire sera capable de :

    • Maîtriser les concepts fondamentaux de Flink
    • Développer des applications à l’aide de DataSet et DataStream API
    • Traitement de données distribué avec Flink et Hadoop
    • Exploiter des données avec Table API
    • Avoir une première approche du machine learning
    PUBLIC

     

    Développeurs, architectes.

    PRE-REQUIS

     

    Bonnes connaissances du langage Scala ou Java.

    CONTENU

    Introduction à Apache Flink

    - Historique du framework.
    - Les différentes versions de Flink.
    - Comparaison avec l’environnement Apache Hadoop et Apache Spark.
    - Les différents modules de Flink.

    Traitement de données à l’aide de l’API DataStream

    - Environnement d’exécution et sources de données.
    - Les transformations: Map, FlatMap, Filter, KeyBy, Reduce…
    - Les opérations sur des flux multiples : Union, Cogroup, Connect, Join, Iterate…
    - Les opérations sur Windows : Global, Tumbling, Sliding, Session…
    - Le partitionnement physique personnalisé, aléatoire, rééquilibrage et redimensionnement.
    - Les DataSink et les connecteurs : Kafka, Twitter, ElasticSerch…

    Traitement de données à l’aide de l’API Batch

    - Les différents types de sources de données.
    - Les transformations et agrégations.
    - L’écriture des données.
    - Les DataSink et les connecteurs : HDFS, S3, Avro, MongoDB.

    Traitement de données à l’aide de l’API Table

    - Enregistrement et lecture des tables enregistrées.
    - Les opérateurs : sélection, filtre, jointure, orderBy…
    - Utiliser du SQL sur le flux de données.
    - Les fonctions Scala dans SQL.
    - Traitement des événements complexes.

    Machine Learning avec FlinkML

    - Introduction au machine learning.
    - Les différentes classes d’algorithmes.
    - Présentation de FlinkML et des différents algorithmes.

    API Flink Graph – Gelly

    - Qu’est-ce qu’un graphe ?
    - Les différentes opérations.
    - Créer des graphes.
    - Transformations de graphes.
    - Présentation de différents algorithmes.

    Déploiement de Flink

    - Flink sur YARN Configurations.
    - Lancement et arrêt d’un cluster.
    - Soumettre un travail à Flink.
    - Flink sur Google Cloud.
    - Flink sur AWS.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE

     

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

     

    Spécialiste

    MODALITES PRATIQUES

    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 483,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-198 Hadoop, installation et administration
    Hadoop, installation et administration
    HOD / LI-REQ-198
    OBJECTIFS PEDAGOGIQUES
    La plateforme Apache Hadoop permet de faciliter la création d’applications distribuées. Ce stage vous permettra de comprendre son architecture et vous donnera les connaissances nécessaires pour installer, configurer et administrer un cluster Hadoop. Vous apprendrez également à l’optimiser et le maintenir dans le temps.

    PUBLIC
    Administrateurs de cluster Hadoop, développeurs.
    PRE-REQUIS
    Bonnes connaissances de l’administration Linux. Expérience requise.

    CONTENU

    Présentation du Framework Apache Hadoop
    - Enjeux du Big Data et apports du framework Hadoop.
    - Présentation de l’architecture Hadoop.
    - Description des principaux composants de la plateforme Hadoop.
    - Présentation des distributions principales du marché et des outils complémentaires (Cloudera, MapR, Dataiku…).
    - Avantages/inconvénients de la plateforme.

    Préparations et configuration du cluster Hadoop
    - Principes de fonctionnement de Hadoop Distributed File System (HDFS).
    - Principes de fonctionnement de MapReduce.
    - Design “type” du cluster.
    - Critères de choix du matériel.

    Installation d’une plateforme Hadoop
    - Type de déploiement.
    - Installation d’Hadoop.
    - Installation d’autres composants (Hive, Pig, HBase, Flume…).

    Gestion d’un cluster Hadoop
    - Gestion des nœuds du cluster Hadoop.
    - Les TaskTracker, JobTracker pour MapReduce.
    - Gestion des tâches via les schedulers.
    - Gestion des logs.
    - Utiliser un manager.

    Gestion des données dans HDFS
    - Import de données externes (fichiers, bases de données relationnelles) vers HDFS.
    - Manipulation des fichiers HDFS.

    Configuration avancée
    - Gestion des autorisations et de la sécurité.
    - Reprise sur échec d’un name node (MRV1).
    - NameNode high availability (MRV2/YARN).

    Monitoring et optimisation Tuning
    - Monitoring (Ambari, Ganglia…).
    - Benchmarking/profiling d’un cluster.
    - Les outils Apache GridMix, Vaaidya.
    - Choisir la taille des blocs.
    - Autres options de tuning (utilisation de la compression, configuration mémoire…).

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Hadoop

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 226,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-197 Elasticsearch, administration et exploitation
    Elasticsearch, administration et exploitation
    ELA / LI-REQ-197
    OBJECTIFS PEDAGOGIQUES
    Elasticsearch est un moteur de recherche et d’indexation de données proposant des fonctionnalités de recherche et d’analyse innovantes. Ce stage vous apprendra les principes clés de recherche de données et les possibilités offertes par Elasticsearch et à installer, à configurer et à administrer Elasticsearch.

    PUBLIC
    CTO, COO, chefs de projets techniques, responsables d’applications, responsables des opérations, administrateurs techniques.
    PRE-REQUIS
    Connaissances de base en développement. Connaissances de base en administration du système d’exploitation Windows ou Linux/Unix.

    CONTENU

    Installation et utilisation d’Elasticsearch, logstash et Kibana
    - Développement d’applications utilisant Elasticsearch.
    - Impact sur le design d’applications existantes.
    - Prérequis et types d’installations.
    - Configuration et mise en œuvre.

    Fonctionnement d’Elasticsearch
    - Présentation d’Apache Lucene.
    - Architecture as a Cloud et concepts clés (cluster, node, etc.).
    - Le format JSON. L’API REST.
    - Scoring et pertinence des requêtes.
    - Recherches simples.
    - Stockage de données.
    - Le rôle de logstash et de Kibana.

    Possibilités offertes par Elasticsearch logstash et Kibana
    - Traitement de gros volumes de requêtes et d’indexation.
    - Indexation et recherches sur les documents et des données.
    - Analyse de documents et de données.
    - Calcul des listes de réponses.
    - Filtrage et tri des résultats.
    - Suggestion de requêtes.

    Configuration de la recherche et de l’indexation
    - Gros volumes de requêtes et d’indexation.
    - L’indexation des données.
    - Les requêtes de recherche.
    - Les recherches avancées.
    - La percolation.

    Configuration et administration du cluster
    - Configuration du cluster Elasticsearch.
    - Préparation du cluster Elasticsearch pour le traitement des gros volumes.
    - Configuration des nodes.
    - Gestion des templates.
    - Administration du cluster Elasticsearch.

    Administration du cluster
    - Surveillance du cluster.
    - La répartition de charge.
    - L’allocation des nodes.
    - Alias d’index. Plug-ins Elasticsearch.
    - Propriétés “Transient” et “Persistent”.
    - Principes de la sauvegarde et la restauration.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Elasticsearch

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 779,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-196 ElasticSearch, Logstash et Kibana : indexation, recherche et visualisation de données
    ElasticSearch, Logstash et Kibana : indexation, recherche et visualisation de données
    ELK / LI-REQ-196
    OBJECTIFS PEDAGOGIQUES
    Elasticsearch est un moteur de recherche et d’indexation de données proposant des fonctionnalités de recherche et d’analyse innovantes. Vous le mettrez en œuvre dans ce cours pour indexer, chercher et visualiser des données et des documents et découvrirez les principales approches de développement associées.

    PUBLIC
    CTO, chefs de projets techniques, responsables d’applications, responsables des opérations.
    PRE-REQUIS
    Connaissances de base en développement et en administration du système d’exploitation Windows ou Linux/Unix.

    CONTENU

    Présentation et installation d’Elasticsearch, logstash et Kibana
    - Présentation et histoire d’Elasticsearch, logstash et Kibana.
    - Les prérequis d’installation. Installation type “as a Cloud”.
    - La mise en œuvre d’Elasticsearch, logstash et Kibana.
    - La configuration d’Elasticsearch.
    - Les principes clés l’administration d’Elasticsearch.
    - Le développement d’applications en utilisant Elasticsearch.
    - L’impact d’Elasticsearch sur l’architecture et les applications existantes.
    - Rôles de logstash et de Kibana.

    Fonctionnement d’Elasticsearch
    - Présentation d’Apache Lucene.
    - L’architecture et les concepts clés.
    - Le format d’échange JSON par Service Container.
    - L’API REST.
    - Le scoring et la pertinence de requêtes.
    - Le stockage de données et la recherche simple.

    Possibilités offertes par Elasticsearch
    - L’indexation des documents et des données.
    - La recherche sur les documents et les données.
    - L’analyse de documents et de données.
    - Le calcul des listes de réponses.
    - Le filtrage et le tri des résultats.
    - Les suggestions de requêtes.
    - Le surlignage des résultats.

    Indexer, chercher et visualiser des données et des documents
    - Comment donner un sens aux données avec Elasticsearch et Kibana.
    - Démarche d’amélioration de l’indexation des données.
    - Démarche d’amélioration des requêtes de recherche.
    - La pertinence géographique des recherches.
    - La percolation.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Elasticsearch

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-192 Technique de Big Data Analytics avec Python, modélisation et représentation des données
    Technique de Big Data Analytics avec Python, modélisation et représentation des données
    BDA / LI-REQ-192
    OBJECTIFS PEDAGOGIQUES
    Le Big Bata Analytics repose sur la maîtrise des techniques d’exploration de données fondamentales : statistiques descriptives, prédictives ou exploratoires. Ce stage pratique vous présentera des méthodes telles que les régressions et les ACP et vous apprendra à les mettre en œuvre avec le logiciel Python.

    PUBLIC
    Responsables Infocentre (Datamining, Marketing, Qualité…), utilisateurs et gestionnaires métiers de bases de données.
    PRE-REQUIS
    Bonnes connaissances en statistiques de base, ou connaissances équivalentes à celles apportées par le stage “Statistiques, maîtriser les fondamentaux” (Réf. STA).

    CONTENU

    Introduction à la modélisation
    - Introduction au langage Python.
    - Introduction au logiciel Jupiter Notebook.
    - Les étapes de construction d’un modèle.
    - Les algorithmes supervisés et non supervisés.
    - Le choix entre la régression et la classification.

    Procédures d’évaluation de modèles
    - Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
    - Test de représentativité des données d’apprentissage.
    - Mesures de performance des modèles prédictifs.
    - Matrice de confusion, de coût et la courbe ROC et AUC.

    Les algorithmes supervisés
    - Le principe de régression linéaire univariée.
    - La régression multivariée.
    - La régression polynomiale.
    - La régression régularisée.
    - Le Naive Bayes.
    - La régression logistique.

    Les algorithmes non supervisés
    - Le clustering hiérarchique.
    - Le clustering non hiérarchique.
    - Les approches mixtes.

    Analyse en composantes
    - Analyse en Composantes Principales.
    - Analyse Factorielle des Correspondances.
    - Analyse des Correspondances Multiples.
    - Analyse Factorielle pour Données Mixtes.
    - Classification Hiérarchique sur Composantes Principales.

    Analyse de données textuelles
    - Collecte et prétraitement des données textuelles.
    - Extraction d’entités primaires, d’entités nommées et résolution référentielle.
    - Étiquetage grammatical, analyse syntaxique, analyse sémantique.
    - Lemmatisation.
    - Représentation vectorielle des textes.
    - Pondération TF-IDF.
    - Word2Vec.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 226,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-191 Technique de Big Data Analytics avec R, modélisation et représentation des données
    Technique de Big Data Analytics avec R, modélisation et représentation des données
    DTA / LI-REQ-191
    OBJECTIFS PEDAGOGIQUES
    Le Big Bata Analytics repose sur la maîtrise des techniques d’exploration de données fondamentales : statistiques descriptives, prédictives ou exploratoires. Ce stage pratique vous présentera des méthodes telles que les régressions et les ACP et vous apprendra à les mettre en œuvre avec le logiciel R, RStudio et Shiny.

    PUBLIC
    Responsables Infocentre (Datamining, Marketing, Qualité…), utilisateurs et gestionnaires métiers de bases de données.
    PRE-REQUIS
    Bonnes connaissances en statistiques de base, ou connaissances équivalentes à celles apportées par le stage “Statistiques, maîtriser les fondamentaux” (Réf. STA).

    CONTENU

    Introduction
    - Introduction au langage R.
    - Les types de données dans R.
    - Importation-exportation de données.
    - Techniques pour tracer des courbes et des graphiques.

    Analyse en composantes
    - Analyse en Composantes Principales.
    - Analyse Factorielle des Correspondances.
    - Analyse des Correspondances Multiples.
    - Analyse Factorielle pour Données Mixtes.
    - Classification Hiérarchique sur Composantes Principales.

    La modélisation
    - Les étapes de construction d’un modèle.
    - Les algorithmes supervisés et non supervisés.
    - Le choix entre la régression et la classification.

    Procédures d’évaluation de modèles
    - Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
    - Test de représentativité des données d’apprentissage.
    - Mesures de performance des modèles prédictifs.
    - Matrice de confusion, de coût et la courbe ROC et AUC.

    Les algorithmes non supervisés
    - Le clustering hiérarchique.
    - Le clustering non hiérarchique.
    - Les approches mixtes.

    Les algorithmes supervisés
    - Le principe de régression linéaire univariée.
    - La régression multivariée.
    - La régression polynomiale.
    - La régression régularisée.
    - Le Naive Bayes.
    - La régression logistique.

    Analyse de données textuelles
    - Collecte et prétraitement des données textuelles.
    - Extraction d’entités primaires, d’entités nommées et résolution référentielle.
    - Étiquetage grammatical, analyse syntaxique, analyse sémantique.
    - Lemmatisation. Représentation vectorielle des textes. Pondération TF-IDF.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 226,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-186 Microsoft Azure Machine Learning, développer et exploiter des algorithmes sur la plateforme cloud Microsoft
    Microsoft Azure Machine Learning, développer et exploiter des algorithmes sur la plateforme cloud Microsoft
    AZL / LI-REQ-186
    OBJECTIFS PEDAGOGIQUES
    Les algorithmes s’imposent comme l’un des sujets prédominants du Big Data. Ce sont les outils des méthodes exploratoires, explicatives ou prédictives que l’on applique aux données, dans le cadre du Machine Learning. Ce cours vous permettra d’acquérir les compétences nécessaires à l’utilisation d’Azure Machine Learning.

    PUBLIC
    Data Scientists, data miners, statisticiens, développeurs en charge de la mise en production des modèles.
    PRE-REQUIS
    Connaissances de base en statistiques (centrage, dispersion, corrélation, tests d’hypothèses). Des notions de programmation ou d’algorithmique peuvent être utiles.

    CONTENU

    Prise en main de l’interface Azure Machine Learning
    - Découvrir l’ensemble de l’offre Azure et son mode de facturation à l’usage.
    - Présentation du mode de facturation à l’usage de l’offre Azure.
    - Prise en main de l’interface Machine Learning Studio.
    - Créer un jeu de données (dataset) à partir d’un fichier local ou se connecter à une source de données.
    - Construire une nouvelle expérience de Machine Learning.
    - Définir un Web Service prédictif.
    - Proposer ses algorithmes sur le Marketplace.

    Créer une expérience de Machine Learning
    - Utiliser l’arbre de choix des algorithmes.
    - Détecter les valeurs aberrantes.
    - Choisir les variables de l’algorithme (features sélection).
    - Initialiser le modèle, entraîner le modèle, évaluer le modèle.
    - Évaluer différents algorithmes à l’aide de la courbe ROC.

    Savoir paramétrer les grandes familles d’algorithmes
    - Paramétrer les algorithmes de clustering (approche non supervisée).
    - Paramétrer les algorithmes de régression linéaire.
    - Paramétrer les algorithmes de régression logistique ou ordinale.
    - Paramétrer les algorithmes de classification (approche supervisée) : arbres, forêts, jungles d’arbres de décision.
    - Expérimenter les méthodes complexes : réseaux de neurones, machines à vecteurs de support.
    - Utiliser des packages R et Python.

    Traiter d’autres types de données
    - Convertir le texte en mesures numériques.
    - Appliquer un algorithme Vowpal Wabbit (online learning).
    - Réaliser une analyse de données textuelles avec les packages R dédiés.
    - Découvrir la procédure de configuration Import Images.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Machine Learning

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 779,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-179 Power BI, concevoir des tableaux de bord
    Power BI, concevoir des tableaux de bord
    PBI / LI-REQ-179
    OBJECTIFS PEDAGOGIQUES
    Power BI, la solution de data visualisation de Microsoft permet de créer des tableaux de bord, riches et interactifs, grâce aux multiples éléments graphiques qu’elle propose. Ce stage vous familiarisera avec son environnement et vous permettra de manipuler des données, de créer vos rapports et de les publier.
    A l’issue de la formation vous serez capable de :
    - Interroger et associer des sources de données hétérogènes
    - Concevoir des mesures avec le langage DAX
    - Utiliser des éléments visuels pour concevoir des tableaux de bord

    PUBLIC
    Toutes personnes souhaitant consolider des informations provenant d’Excel, de bases de données ou d’autres sources, afin de concevoir des tableaux de bord graphiques et interactifs.
    PRE-REQUIS
    Usage courant d’un tableur, des notions sur les bases de données sont souhaitables.

    CONTENU

    Introduction
    - Présentation de l’offre BI Microsoft.
    - La Suite Power BI : Power BI Desktop, le service Power BI et les applications Power BI Mobile.

    Obtenir les données
    - Extraire, transformer et charger des données dans Power BI.
    - Utiliser des fichiers plats, Excel, bases de données relationnelles, sources SSAS, Web.
    - Choisir les colonnes, choisir les lignes, filtrer, trier et supprimer les doublons.

    Travaux pratiques
    Créer des connexions pour importer des données depuis des sources variées.

    Transformer les données
    - Nettoyer et compléter les jeux de données.
    - Fractionner les colonnes, formater les colonnes et définir le type de données, assembler et fusionner des tables.
    - Créer des colonnes calculées. Empiler et fusionner des requêtes.

    Travaux pratiques
    Manipulation de données pour reformater et modifier les types de données.

    Définir le modèle de données
    - Utiliser la vue Diagramme pour définir des relations entre les tables.
    - Concevoir des mesures avec les fonctions statistiques.
    - Fonctions DAX pour concevoir des mesures élaborées : CALCULATE, ALL, ALLEXCEPT, FILTER, RANKX etc.
    - Utiliser les fonctions DAX Time Intelligence.

    Travaux pratiques
    Créer un modèle de données. Réaliser des mesures statistiques.

    Conception de rapport Power BI
    - Création de rapports, pages, tableaux de bord.
    - Afficher des données : Table, Matrice, Carte.
    - Exploiter les paramètres de données et de formatage.
    - Insérer des éléments visuels. Exploiter les visualisations cartographiques.
    - Importer des éléments visuels (.pbviz) depuis la galerie : jauges, images etc.
    - Ajouter des outils de filtrage, des segments, des KPI. Mise en page pour écran ou smartphone.

    Travaux pratiques
    Mettre en page un rapport. Mettre en forme les données. Concevoir un tableau de bord visuel et interactif.

    Le service Power BI online
    - Présentation des fonctionnalités du service Power BI, stockage, présentation, partage.
    - Épingler les visualisations dans un tableau de bord.
    - Conception de rapport avec le service Power BI.
    - Quels jeux de données dans Power BI ?

    Travaux pratiques
    Consulter, exploiter et partager les rapports publiés. Concevoir un rapport en ligne.

     
    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation de fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste PowerBi

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 779,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-129 Oracle SQL pour le décisionnel
    Oracle SQL pour le décisionnel
    ROD / LI-REQ-129

    OBJECTIFS PEDAGOGIQUES

    Un cours intensif pour acquérir toutes les compétences nécessaires à l’utilisation des fonctionnalités décisionnelles du SQL d’Oracle.

    PUBLIC

    PRE-REQUIS

    Ce stage s’adresse aux développeurs d’applications décisionnelles sous Oracle désireux d’utiliser tout le potentiel SQL d’Oracle. Bonnes connaissances du langage SQL.

    CONTENU

    Introduction

     

    - Informatique décisionnelle. Etat de la norme SQL. Norme SQL3 et décisionnel.
    - Rappels des concepts liés à un Datawarehouse. Notions de CUBE. Concept OLAP. Analyse multidimensionnelle.
    - Modélisation en étoile et constellation. Notions de dimension. Notion de table de fait.

    Etude de cas
    Présentation : le modèle, les problématiques.
     
    Groupements des données

    - Fonctions horizontales. Fonctions verticales. Fonctions d’agrégat.
    - Le groupe. Rappels : fonctionnement du GROUP BY, fonctionnement du HAVING.
    - Fonctions GROUPING. Syntaxe. Exemples. Gestion des valeurs NULL.
    - Le groupe à deux niveaux.

    Travaux pratiques
    Manipulation de la syntaxe et des fonctionnalités de groupements.
     
    Agrégation et analyse des données

    - Extensions ROLLUP et CUBE. Expression de GROUPING SET.
    - Fonctions de groupes. Fonctions analytiques. La clause de partitionnement.
    - La clause d’ordre. La clause de fenêtrage. Fonctions de classement.
    - Ordonner les tris. Fonction de classement. Fonctions de fenêtres.

    Travaux pratiques
    Manipulation de la syntaxe et des fonctionnalités d’agrégation.
     
    La clause MODEL

    - La mise en oeuvre. La fonction CV.
    - La fonction ITERATION_NUMBER. La fonction PRESENTNNV.
    - La fonction PRESENTV. La fonction PREVIOUS.

    Travaux pratiques
    Manipulation de la syntaxe de la clause MODEL
     
    Mise à jour des données

    - Insertion multi tables. Insertion sans condition.
    - INSERT_ALL, INSERT_FIRST. Mises à jour conditionnées.

    Travaux pratiques
    Alimentation du modèle en étoile.
     
    Objets

    - Les ETL (Extraction, Transformation, Chargement).
    - Interrogation de tables externes. Vues du dictionnaire de données.
    - Vues Matérialisées (VM). Intérêt. Syntaxe de création. Options.
    - Vues Matérialisées et l’optimisation. Réécriture de requêtes. Dimensions et hiérarchies.

    Travaux pratiques
    Utilisation des tables externes pour le déplacement des données. Création des vues matérialisées pour optimiser les requêtes.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation de fin de stage

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

    Spécialiste Oracle SQL

    MODALITES PRATIQUES

    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 752,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-DEV-583 Pentaho Data Integrator, mise en œuvre de l’intégration de données
    Pentaho Data Integrator, mise en œuvre de l’intégration de données
    PEN-DEV / LI-DEV-583

    OBJECTIFS PEDAGOGIQUES

    A la fin du cours, le stagiaire sera capable de :
    -Maîtriser l’outil Pentaho Data Integration

    PUBLIC

    PRE–REQUIS

    Tout informaticien amené à gérer des flux de données inter-application ou à alimenter un entrepôt de données. Indispensables :
    -       Connaissance du SQL

    CONTENU

    Introduction
    Problématique
    EAI / ETL
    Architecture
    Installation

    Découverte de l’environnement
    Premier pas avec PDI
    Vue d’ensemble des composants
     
    Les premiers Flux
    Les transformations
    Les jobs
    Generate Rows
    Generate Random value
    Text file Output
    CSV Input
    Write to log
    Mail
    Types de liaisons entre composants
    Dans un Job
    Dans une transformation
    Exécuter un job
    Exécuter une transformation
     
    Traiter les données
    Sort rows
    Unique rows
    Filter rows
    String cut
    Replace in string
    Calculator
    Join rows
    Merge join
    Merge rows
    Group by

    Les métadonnées
    Vue d’ensemble
    Créer une métadonnée BDD

    Travailler avec les bases de données
    Base de données supportées
    Récupérer une table d’une métadonnée
    Interaction avec la base de données
    Mise en pratique
    Jointure entre 2 tables
    Insert / Update
    Database
     
    Autres composants et fonctionnalités
    Write to log
    Set / Get Variables
    Copy / Get rows to result
    Web Services Lookup
    Propriétés d’un job et transformation

    Les itérations
    Cas général
    Job
    Transformation
    Mise en pratique
    Itération avec paramètres et  »Copy rows to result »
    Itération avec « Copy rows to result » et  »Get rows from result »

    Gestion des logs et des erreurs
    Plusieurs types d’erreurs
    Gestion d’erreurs
    Dans un job
    Dans une transformation
    Paramètres de gestion d’erreurs
    Composant « Data Validation »
    Gestion des logs
    Les niveaux de logs
    Logs via la console
    Logs sauvegardés en BDD
     
    Fonctionnalités avancées
    Déboguer notre application
    Prévisualiser nos données
    Ajout de points d’arrêts
    Parallélisation des traitements

    Automatisation et documentation
    Exporter vos travaux
    Kitchen : l’exécuteur de jobs
    Fichier
    Repository
    Tâches planifiées
    Documenter ses jobs

    SESSIONS PROGRAMMEES

    https://www.m2iformation.fr/formation-pentaho-data-integration-developpeur/PEN-DEV/
    Uniquement en intra

    VALIDATION

    Exercices de validation au cours de la formation

    PEDAGOGIE

    Exposés – Cas pratiques – Synthèse

    INTERVENANTS

    Consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par M2i Formation.

    MODALITES PRATIQUES

    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : contactez votre site Institut 4.10
    Horaires : 09h00-17h30

    ( )