Business Intelligence > Datawarehouse, intégration de données, autres solutions

Systèmes décisionnels,
  • LI-SEC-086 Data Mining par la pratique
    Data Mining par la pratique
    DMP / LI-SEC-086
    OBJECTIFS PEDAGOGIQUES
    Ce stage vous permettra de travailler à définir et mettre en œuvre un projet d’analyse statistique. Il vous apporte les notions de l’architecture technique nécessaires à l’analyse statistique des données (en environnement classique ou Big Data) et aux techniques statistiques d’analyse profonde des données.

    PUBLIC
    Chargés d’études, responsables de projet analyse de données, responsables Infocentre, Marketing ou Qualité, utilisateurs et gestionnaires métiers de bases de données, futurs Data Scientist.
    PRE-REQUIS
    Connaissances de base en statistiques ou connaissances équivalentes à celles apportées par le stage “Statistiques descriptives, introduction” (réf. UES).

    CONTENU

    Le projet de Data Mining
    - La problématique du Data Scientist : de la donnée à l’information.
    - Le vocabulaire et les concepts.
    - L’exploration descriptive du jeu de données.
    - Les métadonnées pour le suivi du projet de Data Mining.
    - Rappels sur le logiciel R.

    Les techniques de l’approche Data Mining
    - Méthode basée sur la classification : identification de groupes d’individus statistiques.
    - Méthode par association : mise en évidence d’une cause et d’une conséquence.
    - Méthode de l’estimation : complément d’un effectif ou d’une fréquence d’un jeu de données.
    - Apports du Data Mining pour le traitement des grandes volumétries de données.
    - Méthode de segmentation : définition de critères, extension de la méthode de classification et principe des k-means.
    - Méthode de prévision : importance de la temporalité et des hypothèses.

    Les outils statistiques
    - Méthodes descriptives : corrélation, classification, réseaux de Kohonen, règles d’association.
    - Méthodes prédictives : régression, arbres de décision, réseaux de neurones, les K plus proches voisins.
    - Mise en œuvre de classification par k-means et CAH (Classification Ascendante Hiérarchique).
    - Principe des méthodes supervisées.

    La visualisation des données
    - Les objectifs de la visualisation des données.
    - Les différents types de représentations de données quantitatives.
    - Concevoir des tableaux de bord.

    Analyse de données qualitatives et textuelles
    - Spécificités de la problématique et les alternatives (Analyse Factorielle des Correspondances, table de contingence).
    - Présentation d’instanciation, de pattern, de vecteur et d’heuristique.
    - Comment utiliser un espace de vecteurs, d’indexation, de scoring.
    - Différents types de transformations et traitement d’un document textuel.

    SESSIONS PROGRAMMEES
     Accès au calendrier
    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1824€ TTC
    Horaires : 9h – 17h30

     

    ( )
  • LI-REQ-232 Spark, développer des applications pour le Big Data
    Spark, développer des applications pour le Big Data
    SPK / LI-REQ-232
    OBJECTIFS PEDAGOGIQUES
    Vous développerez des applications en Java en vue de traiter en temps réel des données issues du Big Data. Vous collecterez, stockerez et traiterez avec Spark des données de formats hétérogènes afin de mettre en place des chaînes de traitement intégrées à votre système d’information.

    PUBLIC
    Développeurs, architectes.
    PRE-REQUIS
    Bonnes connaissances du langage Java.

    CONTENU

    Présentation d’Apache Spark
    - Historique du Framework.
    - Les différentes versions de Spark (Scala, Python et Java).
    - Comparaison avec l’environnement Apache Hadoop.
    - Les différents modules de Spark.

    Travaux pratiques
    Installation et configuration de Spark. Exécution d’un premier exemple avec le comptage de mots.

    Programmer avec les Resilient Distributed Dataset (RDD)
    - Présentation des RDD.
    - Créer, manipuler et réutiliser des RDD.
    - Accumulateurs et variables broadcastées.
    - Utiliser des partitions.

    Travaux pratiques
    Manipulation de différents Datasets à l’aide de RDD et utilisation de l’API fournie par Spark.

    Manipuler des données structurées avec Spark SQL
    - SQL, DataFrames et Datasets.
    - Les différents types de sources de données.
    - Interopérabilité avec les RDD.
    - Performance de Spark SQL.
    - JDBC/ODBC server et Spark SQL CLI.

    Travaux pratiques
    Manipulation de Datasets via des requêtes SQL. Connexion avec une base externe via JDBC.

    Spark sur un cluster
    - Les différents types d’architecture : Standalone, Apache Mesos ou Hadoop YARN.
    - Configurer un cluster en mode Standalone.
    - Packager une application avec ses dépendances.
    - Déployer des applications avec Spark-submit.
    - Dimensionner un cluster.

    Travaux pratiques
    Mise en place d’un cluster Spark.

    Analyser en temps réel avec Spark Streaming
    - Principe de fonctionnement.
    - Présentation des Discretized Streams (DStreams).
    - Les différents types de sources.
    - Manipulation de l’API.
    - Comparaison avec Apache Storm.

    Travaux pratiques
    Consommation de logs avec Spark Streaming.

    Manipuler des graphes avec GraphX
    - Présentation de GraphX.
    - Les différentes opérations.
    - Créer des graphes.
    - Vertex and Edge RDD.
    - Présentation de différents algorithmes.

    Travaux pratiques
    Manipulation de l’API GraphX à travers différents exemples.
     
    Machine Learning avec Spark
    - Introduction au Machine Learning.
    - Les différentes classes d’algorithmes.
    - Présentation de SparkML et MLlib.
    - Implémentations des différents algorithmes dans MLlib.
    Travaux pratiques
    Utilisation de SparkML et MLlib.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier
     
    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 815,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-199 Développer des applications de DataVisualisation, outils et frameworks
    Développer des applications de DataVisualisation, outils et frameworks
    DTV / LI-REQ-199
    OBJECTIFS PEDAGOGIQUES
    Après avoir découvert les concepts de base et les techniques liés à la représentation visuelle des données, vous apprendrez à développer des applications de visualisation de données basées sur les principaux outils et Frameworks JavaScript de DataVisualisation.

    PUBLIC
    Développeurs logiciel souhaitant réaliser de manière pratique des visualisations de données.
    PRE-REQUIS
    Connaissances de base en développement logiciel.

    CONTENU

    Introduction à la visualisation d’information
    - Définition, notions et objectifs. Rôle de l’utilisateur et de l’interaction.
    - Diagrammes courants : histogrammes, pie chart, 3D.
    - Visualisation multidimensionnelles : nuages de points, diagrammes d’inselberg.
    - Visualisation multi-niveaux : données hiérarchiques, full zoom.
    - Techniques de visualisations : fisheyes, vue hyperbolique.
    - Visualisation de réseaux : hiérarchiques, radiales.
    - Visualisation par modèle de force : modèle énergie, ressort.

    Sémiologie graphique : la base de la visualisation
    - Le système visuel humain.
    - Les variables visuelles.
    - Les propriétés perceptives.
    - Extension de la sémiologie : le mouvement.

    Transitions animées et légendes interactives
    - Définition, notions et buts.
    - Animations et légendes interactives dans des visualisations.
    - Manipulation des variables visuelles.
    - Règles à respecter.
    - Valeurs ajoutées.

    Outils pour la visualisation d’informations
    - Frameworks JavaScript de DataVisualisation.
    - Frameworks de DataVisualisation basés sur d’autres langages (Java, Python…).
    - Quelques outils supplémentaires.

    Visualisation de réseaux
    - Types de réseaux (sans échelle, petit monde…).
    - Analyse d’un réseau (réseau lexical, réseau social, corpus de textes…).
    - Réalisation d’une visualisation orientée réseaux (en JavaScript).
    - Mise en place et choix des différents leviers d’interaction : full zoom, sélection…

    Visualisation de diagrammes
    - Etude d’un jeu de données.
    - Réalisation de plusieurs visualisations interactives orientées diagrammes (en JavaScript).
    - Mise en place et choix de différents leviers d’interaction : légendes interactives, survol etc.

    Visualisation de l’OpenData et Cartographie
    - Présentation de l’Open Data.
    - Visualisation de l’Open Data Paris avec des Frameworks de Visualisation.
    - Etude de frameworks de cartographie en JavaScript.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 226,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-195 Data Clustering, organiser les données du Big Data
    Data Clustering, organiser les données du Big Data
    DAU / LI-REQ-195
    OBJECTIFS PEDAGOGIQUES
    Le clustering de données vise à regrouper, au sein de “données massives”, des données similaires afin d’identifier des connaissances pertinentes et permettre une prise de décision adaptée. Ce cours vous permettra de comprendre les fondamentaux du clustering de données et de les mettre en pratique sur des cas concrets.

    PUBLIC
    Data analyst, développeurs, chefs de projets ou toutes personnes s’intéressant aux techniques de clustering de données.
    PRE-REQUIS
    Connaissances de base de la programmation.

    CONTENU

    Introduction au clustering de données
    - Approches supervisées et non supervisées.
    - Méthodes floues et strictes.
    - Théorie des graphes, différents types de structures de données.
    - Calcul de similarité (TF, TF-IDF…).
    - Propriétés des jeux de données.

    Clustering simple et clustering hiérarchique
    - Clustering simple.
    - Clusterings hiérarchiques et composés.
    - Utilité du clustering hiérarchique.
    - Présentation du résultat.

    Techniques de clustering
    - Approches orientées K-means.
    - Approches par agglomération.
    - Approches basées sur un modèle physique (modèle énergie, ressort…).
    - Approches “divisives”.
    - Approches par marche aléatoire.
    - Algorithmes incrémentaux.

    Outils pratiques et algorithmes pour le clustering de données
    - K-means simple, Graclus, Cluto.
    - Algorithme hiérarchique : Louvain.
    - InfoMap, Fast Modularity.
    - NCut, approche Girvan Newman…
    - Extraction d’arbres couvrants et composition.

    Mesures Qualité et Performance
    - Introduction à la performance et à la complexité.
    - Mesures de qualité.
    - Critères : Cut, Perf, Cond, Cov, MQ, Mod, Critère de Dunn…
    - Trouver le bon algorithme : technique des diagrammes d’Inselberg.

    Clustering de données à partir d’un réseau lexical
    - Présentation du jeu de données.
    - Analyse des propriétés du réseau.
    - Exécution d’algorithmes de clustering.
    - Affichage du résultat.
    - Calcul de la qualité des partitionnements effectués.

    Clustering de documents
    - Présentation du jeu de données.
    - Analyse des propriétés du réseau.
    - Calcul de mesures de similarité.
    - Exécution d’algorithmes de clustering.
    - Affichage du résultat.
    - Calcul de la qualité.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-189 Big Data, méthodes et solutions pratiques pour l’analyse des données
    Big Data, méthodes et solutions pratiques pour l’analyse des données
    BID / LI-REQ-189
    OBJECTIFS PEDAGOGIQUES
    Ce stage vous permettra de comprendre les enjeux et les apports du Big Data ainsi que les technologies pour le mettre en œuvre. Vous apprendrez à intégrer des volumétries massives de données structurées et non structurées via un ETL, puis à les analyser grâce à des modèles statistiques et des dashboards dynamiques.

    PUBLIC
    Dataminers, chargés d’études statistiques, développeurs, chefs de projet, consultants en informatique décisionnelle.
    PRE-REQUIS
    Connaissances de base des modèles relationnels, des statistiques et des langages de programmation. Connaissances de base des concepts de la Business Intelligence.

    CONTENU

    Comprendre les concepts et les enjeux du Big Data
    - Origines et définition du Big Data.
    - Les chiffres clés du marché dans le monde et en France.
    - Les enjeux du Big Data : ROI, organisation, confidentialité des données.
    - Un exemple d’architecture Big Data.

    Les technologies du Big Data
    - Description de l’architecture et des composants de la plateforme Hadoop.
    - Les modes de stockage (NoSQL, HDFS).
    - Principes de fonctionnement de MapReduce, Spark, Storm…
    - Principales distributions du marché (Hortonworks, Cloudera, MapR, Elastic Map Reduce, Biginsights).
    - Installer une plateforme Hadoop.
    - Les technologies du datascientist.
    - Présentation des technologies spécifiques pour le Big Data (Tableau, Talend, Qlikview …).

    Gérer les données structurées et non structurées
    - Principes de fonctionnement de Hadoop Distributed File System (HDFS).
    - Importer des données externes vers HDFS.
    - Réaliser des requêtes SQL avec HIVE.
    - Utiliser PIG pour traiter la donnée.
    - Le principe des ETL (Talend…).
    - Gestion de streaming de données massive (NIFI, Kafka, Spark, Storm…)

    Technique et méthodes Big data analytics
    - Machine Learning, une composante de l’intelligence artificielle.
    - Découvrir les trois familles : Régression, Classification et Clustering.
    - La préparation des données (data preparation, feature engineering).
    - Générer des modèles en R ou Python.
    - Ensemble Learning.
    - Découvrir les outils du marché : Jupyter Notebook, Dataïku, Amazon Machine Learning…

    Data visualisation et cas d’usage concrets
    - Définir le besoin de la data visualisation.
    - Analyse et visualisation des données.
    - Peut concerner tous les types de données dans la DataViz ?
    - Les outils DataViz du marché.

    Conclusion
    - Ce qu’il faut retenir.
    - Synthèse des bonnes pratiques.
    - Bibliographie.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 5 jours soit 35 heures avec 7 heures par jour
    Prix stagiaire : 2 709,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-188 Big Data Foundation, certification
    Big Data Foundation, certification
    BDT / LI-REQ-188
    OBJECTIFS PEDAGOGIQUES
    L’explosion quantitative des données numériques a contraint à trouver de nouvelles façons d’analyser le monde, et cela a abouti à l’émergence du Big Data. Cette formation apportera aux participants les bases du Big Data et du Data Mining et les préparera au passage de la certification Big Data Foundation de l’EXIN.

    PUBLIC
    Responsables SI, architectes IT, chefs de projet et toute personne souhaitant acquérir des bases sur le Big Data.
    PRE-REQUIS
    Connaissances de base des architectures techniques.

    CONTENU

    Les fondamentaux du Big Data
    - L’histoire et les principaux bénéfices du Big Data.
    - Les trois dimensions du Big Data (volume, variété, vélocité).
    - Les technologies Hadoop et MongoDB.
    - Les limites du Big Data.
    - Les grands acteurs du marché. La vie privée.

    Mise en pratique des approches Big Data, synthèse
    - La fraude bancaire.
    - La relation client et le marketing.
    - L’internet des objets.
    - Le “People Analytics”.

    Les sources du Big Data
    - Les principaux types de données.
    - Les données de l’entreprise (Oracle, SAP, Microsoft, Data Warhouses, données non-structurées).
    - Les liens avec les réseaux sociaux (Facebook, Twitter, autres).
    - Les données publiques (Opendata, économiques, financières, comportementales…).

    Les données et l’information
    - La notion de Datalake.
    - Collecter, préparer et gérer les données.
    - La modélisation de données.
    - La Data Sécurité, la Data Gouvernance, la Data Scientist.
    - La Metadata.

    Data Mining
    - Qu’est-ce que le Data Mining ?
    - Les différents types (classification, association…).
    - Quelques algorithmes essentiels (régression linéaires, régression polynomiale).
    - Notion de séries temporelles.
    - La Machine Learning et l’Intelligence Artificielle (IA).
    - Les outils (Weka, KNIME, R).
    - Principales application : Analyse sentiment sur Twitter, analyse des log réseau…

    Outil : Hadoop
    - Présentation de Hadoop (les principaux composants).
    - Architecture d’Hadoop. Installation et configuration.
    - MapReduce (Parallelisation automatique des programmes Hadoop).
    - DataProcessing avec Hadoop (Analyse de sentiment, analyse des logs).

    Outil : MongoDB
    - Présentation de MongoDB (fonctionnalités et concepts).
    - Réplication et Sharding.
    - Ecosystèmes (langages, drivers, outils, intégration avec Hadoop).
    - Installation et configuration.
    - Base de données de documents.
    - Modèle de données de documents (Analyse de sentiment, analyse des logs).

    Examen “Big Data Foundation” de l’EXIN
    - Examen blanc avec correction commentée.
    - Passage de l’examen “Big Data Foundation”.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 2 298,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-187 Statistiques descriptives, introduction UES
    Statistiques descriptives, introduction
    UES / LI-REQ-187
    OBJECTIFS PEDAGOGIQUES
    La “statistique” est une discipline qui collecte, classe, résume, interprète et explique les données. La complexité et le volume de données à traiter augmentant, la maîtrise de ces techniques est donc essentielle pour aborder la “Data Science”. Ce stage très pratique vous apportera les bases nécessaires pour l’aborder.

    PUBLIC
    Professionnels ayant besoin de faire des calculs statistiques au quotidien pour traiter leurs données. Analystes de données, chargés de projets d’aide à la décision, futurs Data Scientists.
    PRE-REQUIS
    Aucune connaissance particulière.

    CONTENU

    Définition
    - Définition de la statistique descriptive. L’étude de l’incertitude.
    - Comparaison de produits calibrés à des données aléatoires.
    - Introduction à l’aléa des données statistiques.
    - Conclusion : la question que se pose un statisticien.

    Formalisation mathématiques
    - Indexation de 1 à n. La valeur absolue.
    - Le Symbole Sigma pour l’écriture de sommes.
    - Le Carré et la Racine Carrée.
    - Effectif, fréquence, quartile, centile : explication et représentations graphiques.
    - Calcul d’intervalles : le traitement des données continues.

    Traitement statistique des données à une dimension
    - Type de données : qualitative ou quantitative.
    - Données avec effectif : calcul de fréquences et interprétation.
    - Tri et traitement des données : mise en forme statistique de différents exemples de données brutes.
    - Représentations graphiques.
    - Paramètres de position : moyenne, mode, médiane.
    - Les paramètres de dispersion : étendue, quantiles, décile, variance.
    - La variance : une moyenne “d’écarts”.

    Variables aléatoires
    - Définition. Catégorie de variables.
    - Exemples et examen de variables aléatoires.
    - Courbes de distribution.
    - Explications des intervalles de confiance.
    - La loi la plus connue : la loi normale.

    Statistique descriptive à deux dimensions : les tableaux de contigence
    - Les données.
    - Représentations graphiques.
    - La covariance.
    - Le coefficient de corrélation linéaire.

    Cas pratique : utilisation des données des participants
    - Mise en évidence de la problématique statistique.
    - Mise en forme des données.
    - Calcul des statistiques de base et représentations graphiques.
    - Recherche de la méthode appropriée au problème.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste analyse statistique

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-093 Modélisation statistique
    Modélisation statistique
    STA / LI-REQ-093

    OBJECTIFS PEDAGOGIQUES

    Ce stage présente l’essentiel des modèles statistiques. Il vous permettra de comprendre leur rôle dans le monde de l’analyse décisionnelle, du Big Data et du Data Mining, ainsi que les mécanismes qui permettent de transformer et d’affiner des données pour en tirer des informations métiers utiles.

    PUBLIC

    PRE-REQUIS

    Responsables Infocentre, responsables marketing, responsables Qualité, utilisateurs et gestionnaires métiers de bases de données. Connaissances de base en mathématiques équivalent à un niveau 3 de formation initiale.

    CONTENU

    Rappels des fondamentaux de la statistique descriptive- Définition de la statistique descriptive.
    - Analyse d’une population.
    - Méthodes d’échantillonnage.
    - Variables qualitatives et quantitatives.
    - Effectifs et calcul des fréquences.
    - Effectifs cumulés croissants et décroissants.
    - Séries statistiques.
    - Représentation graphique des variables qualitatives et quantitatives.Etude de cas
    Etude d’une population et dimensionnement d’un échantillon.

    Démarche et modélisation d’une analyse statistique
    - Statistique descriptive.
    - Phase d’apprentissage.
    - Statistique prédictive pour estimer et anticiper.
    - Modélisation statistique d’un phénomène.Paramètre de position et de dispersion
    - Mode, valeur modale, valeur la plus probable.
    - Moyenne d’une population (ou d’un échantillon).
    - Médiane, partager une série numérique.
    - Etendue, différence entre valeurs extrêmes.
    - Utiliser les quantiles.
    - Comprendre l’utilisation de la variance et co-variance.
    - Ecart-Type, calculer la dispersion d’un ensemble de données.

    Etude de cas
    Calcul de paramètres de position et de dispersion sur différents échantillonnages et comparaisons des résultats.

    Analyses prédictives
    - Régression linéaire simple.
    - Régression linéaire multiple.
    - Régression logistique.
    - Analyse de la variance et de la co-variance et recherche de corrélation.

    Exercice
    Mise en place d’un modèle de régression linéaire multiple pour estimer une valeur.

    Tests et intervalle de confiance
    - Tests.
    - Intervalle de confiance.
    - Lois statistiques et intervalle de confiance.
    - Valider la précision d’une estimation – Amplitude de l’intervalle.

    Etude de cas
    Détection de produits finis défectueux sur une chaine de production.

    Panorama des outils
    - Zoom sur le Logiciel Open Source “R”.
    - Initiation au logiciel Open Source “R”.
    - Les principaux outils : SAS, SPSS.

    Travaux pratiques
    Ecriture de scripts pour calculer des métriques, moyennes, variances. Régression linéaire simple.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation de fin de stage

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

    Spécialiste analyse statistique

    MODALITES PRATIQUES

    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 314,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-092 Construire un Data Warehouse, qualité des données et performance du SI décisionnel
    Construire un Data Warehouse, qualité des données et performance du SI décisionnel
    DAW / LI-REQ-092
    OBJECTIFS PEDAGOGIQUES
    Le Data Warehouse est au cœur de l’analyse décisionnelle. Au travers d’une démarche structurée et pragmatique, vous découvrirez les meilleures méthodes et outils pour élaborer un entrepôt de données à partir des besoins métier, l’alimenter et le rendre fiable et évolutif. Vous découvrirez également quels sont les rôles clés dans ce type de projet, et quel est l’impact sur l’architecture SI et la qualité du référentiel de données d’entreprise. Un cours centré sur l’expérience pratique qui vous donnera aussi une première approche de la modélisation “en étoile”.

    PUBLIC
    Responsables Infocentre, responsables informatiques, responsables des études, architectes de systèmes d’information, chefs de projets fonctionnels et techniques.
    PRE-REQUIS
    Bonnes connaissances en gestion de bases de données. Connaissances de base en analyse décisionnelle.

    CONTENU

    Le Data Warehouse, finalité et principes
    - Les enjeux stratégiques d’un SI décisionnel.
    - Les raisons techniques et culturelles qui conduisent au Data Warehouse.
    - Définition du Data Warehouse selon Bill Inmon.
    - Les solutions apportées par l’architecture technique et fonctionnelle du Data Warehouse.
    - Caractéristiques des données du SI décisionneL
    - L’Infocentre et le SI décisionnel.
    - Présentation des différentes approches Data Warehouse et Infocentre, leurs avantages et inconvénients.

    L’architecture d’un SI décisionnel d’entreprise
    - Les différentes couches de l’organisation d’un Data Warehouse.
    - La collecte et l’intégration des données.
    - L’operational Data Store et la Data Staging area.
    - La couche de présentation, le portail décisionnel.
    - Les moteurs d’analyse OLAP : (MOLAP) et/ou relationnel OLAP (ROLAP).
    - Les techniques d’analyse “Data Mining” : méthodes prédictives, méthodes descriptives.
    - Croissance du volume et de la nature des données, les enjeux du Big Data.
    - La documentation des données du DW : notions de référentiel de données.
    - Comment le DW fiabilise la gestion du référentiel de données (MDM).
    - La gestion des flux : la capture des données sources, les règles de transformation.

    Les principes de la modélisation Data Warehouse
    - Les modèles relationnels opérationnels et dénormalisés.
    - Les modèles hybrides.
    - Les modèles génériques.
    - Comprendre le modèle en étoile, sa finalité.
    - Comprendre les notions de faits et d’analyse. Les hiérarchies d’axe d’analyse.
    - Le modèle en flocon.
    - La problématique des dimensions à évolution.
    - Gestion des agrégats et de la stabilité du périmètre fonctionnel.
    - Quelle approche favorise les informations de détail ou les agrégats ? Bonnes pratiques, questions à poser au métier.

    La démarche de construction d’un Data Warehouse
    - Identifier le périmètre fonctionnel candidat. Déterminer l’objectif et les événements de gestion à suivre.
    - Estimer la volumétrie du périmètre.
    - Analyse fonctionnelle, recueil des besoins utilisateurs.
    - Conception de l’architecture technique détaillée.
    - Etablir une démarche générique de mise en œuvre.
    - Les apports d’une démarche itérative, le contenu d’une itération.
    - Première itération ou projet pilote, bien le choisir. Rôle du sponsor, de la MOA, de la MOE, impact sur l’organisation.
    - L’administration et le suivi de la solution opérationnelle.

    Organisation du projet, les acteurs et les livrables
    - Le rôle fondamental du sponsor ou promoteur.
    - Le comité de pilotage.
    - Rôle de l’équipe fonctionnelle, du groupe de projet utilisateurs : valider le design de l’environnement utilisateur.
    - Le transfert de compétences vers les utilisateurs finaux par l’équipe fonctionnelle : formation et documentation.
    - L’équipe technique, les architectes.
    - Les principaux livrables d’un projet décisionnel.

    Les outils dans le domaine du décisionnel
    - Les dernières évolutions techniques des SGBDR dans le domaine du décisionnel.
    - Panorama et typologie des solutions BI du marché. Les offres en mode SaaS.
    - Les solutions de reporting : SSRS, IBM Cognos, SAS, BusinessObjects… La mise en œuvre des outils de requête.
    - Les outils d’analyse OLAP côté serveur et côté client : utilisation, évolutivité, approche DataMart, temps de réponse.
    - Les solutions d’analyse Data Mining : SAS Enterprise Miner, IBM, OBI Datamining. Exigences et points forts.
    - Les solutions ETL : IBM, Informatica, Oracle, SAP, Talend…
    - Les outils de modélisation relationnelle : possibilités et limites.

    Synthèse
    - Les tendances d’évolution des systèmes décisionnels.
    - Bonnes pratiques pour la modélisation.
    - Recommandations pour l’organisation du projet Data Warehouse.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Datawarehouse

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 2 020,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-MOA-040 La modélisation en étoile, conception et mise en œuvre
    La modélisation en étoile, conception et mise en œuvre
    AMT / LI-MOA-040
    OBJECTIFS PEDAGOGIQUES
    Ce cours, construit autour de nombreux cas pratiques, vous donnera une idée précise de la démarche de modélisation en étoile dans le cadre du projet Data Warehouse. Vous verrez pourquoi elle est l’expression même du besoin de la maîtrise d’ouvrage et comment elle permet de faire converger la vision des opérationnels, des analystes et des pilotes sur les activités de l’entreprise.

    PUBLIC
    Maîtres d’ouvrage et maîtres d’œuvre, responsables des systèmes décisionnels, responsables informatiques, responsables des études, architectes de systèmes d’information, chefs de projets.
    PRE-REQUIS
    Connaissances de base de l’analyse décisionnelle et des SGBD relationnelles.

    CONTENU

    Introduction et rappels
    - Qu’est-ce qu’un système d’information décisionnel ?
    - Evolution des exigences de décision dans le contexte actuel.
    - Infocentres, SIAD, EIS, Data Warehouse, définition et positionnement.
    - Comprendre la finalité de l’approche Data Warehouse.

    Les architectures en réponse aux besoins décisionnels
    - Les composants principaux, Data Warehouse, ODS ou “staging area”, datamarts.
    - Les architectures proposées par Kimball et Inmon. Avantages et inconvénients.
    - Positionnement du modèle en étoile dans le Data Warehouse selon l’architecture.
    - Les phases du cycle de vie d’un Data Warehouse.
    - Les critères de qualité d’un Data Warehouse.
    - La notion de métadonnée, de référentiel.

    Principes et définitions de base sur la modélisation en étoile
    - Rappels sur la modélisation des bases de données opérationnelles.
    - Différences entre OLTP et OLAP.
    - Entités, attributs, cardinalités, formes normales.
    - Le principe de la dénormalisation pour concevoir un modèle en étoile.
    - Comprendre les notions de fait, dimension et axe d’analyse.
    - Les alternatives de modélisation : modèle en flocon, en galaxie.
    - Les règles et bonnes pratiques de modélisation en étoile. Proposition alternative de Kortink et Moody.

    Conception du modèle en étoile
    - Organisation et synthèse des interviews utilisateur pour le recueil du besoin.
    - Compréhension et identification des processus métiers à modéliser.
    - Choix des dimensions d’analyse.
    - Création de hiérarchies dans les dimensions.
    - Identification des mesures et croisements avec les dimensions.
    - Définition de la granularité de l’analyse.
    - Définition des règles d’agrégation.
    - Utilisation d’outils de modélisation.

    Optimisation fonctionnelle du modèle en étoile
    - Gestion de l’évolution des référentiels et du changement des nomenclatures.
    - Gestion des dimensions à évolution lente et rapide.
    - Les clés de substitution.
    - Gestion de la qualité, fiabilité des données.
    - Gestion du contexte non renseigné ou inconnu.
    - Les dimensions dégénérées.

    Replacer la modélisation dans le cadre du projet décisionnel
    - Présentation de la méthode Kimball et Inmon pour l’organisation du projet.
    - Les acteurs et livrables du projet.
    - Recueil des besoins métier. Formalisation des exigences techniques et d’organisation.
    - Identification des priorités et du périmètre pilote.
    - Modélisation des informations.
    - Choix de l’infrastructure. Implémentation et recette.
    - Déploiement et maintenance du modèle.
    - Gestion des historiques.

    Optimisation physique du modèle
    - Gestion de la performance des requêtes.
    - Estimation de l’espace disque requis pour le modèle.
    - Limitation de la taille occupée par une dimension.
    - Agrégation directe de certains éléments dans les tables.
    - Dimensions techniques pour assurer la traçabilité des faits.

    Alimentation du modèle en étoile
    - Contraintes des systèmes opérationnels sources.
    - Rôle des ODS dans l’alimentation.
    - L’organisation des traitements dans la DSA (Data Staging Area).
    - Les différents types d’alimentation (delta, stock, complète).
    - Les étapes, les règles et les prérequis de l’alimentation.
    - Gestion des rejets.
    - Gestion des sources différentes pour l’alimentation d’une dimension ou d’un fait.
    - ETL, les solutions d’alimentation disponibles sur le marché.

    Restitution des informations d’un modèle en étoile
    - Les différents types d’outils au service de la restitution.
    - Le marché des outils de restitution.
    - Optimisation du modèle pour l’exploration des données.
    - Optimisation des index.
    - Utilisation du partitionnement des tables.

    Conclusion
    - Ce qu’il faut retenir.
    - Les pièges à éviter.
    - Pour aller plus loin.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste modélisation en étoile

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 484,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-DEV-608 Pentaho Data Integration – Développeur
    Pentaho Data Integration – Développeur
    PDI-DEV / LI-DEV-608

    OBJECTIFS PEDAGOGIQUES

    A la fin du cours, le stagiaire sera capable de :
    - Maîtriser l’outil Pentaho Data Integration.

    PUBLIC

    PRE–REQUIS

    Tout informaticien amené à gérer des flux de données inter-application ou à alimenter un entrepôt de données. Indispensables :
    -       Connaissance du SQL.

    CONTENU

    Introduction
    Problématique
    EAI / ETL
    Architecture
    Installation 

    Découverte de l’environnement
    Premier pas avec PDI
    Vue d’ensemble des composants

     

    Les premiers Flux
    Les transformations
    Les jobs
    Generate Rows
    Generate Random value
    Text file Output
    CSV Input
    Write to log
    Mail
    Types de liaisons entre composants
    Dans un Job
    Dans une transformation
    Exécuter un job
    Exécuter une transformation

     

    Traiter les données
    Sort rows
    Unique rows
    Filter rows
    String cut
    Replace in string
    Calculator
    Join rows
    Merge join
    Merge rows
    Group by

     

    Les métadonnées
    Vue d’ensemble
    Créer une métadonnée BDD

     

    Travailler avec les bases de données
    Base de données supportées
    Récupérer une table d’une métadonnée
    Interaction avec la base de données
    Mise en pratique
    Jointure entre 2 tables
    Insert / Update
    Database

     

    Autres composants et fonctionnalités
    Write to log
    Set / Get Variables
    Copy / Get rows to result
    Web Services Lookup
    Propriétés d’un job et transformation

     

    Les itérations
    Cas général
    Job
    Transformation
    Mise en pratique
    Itération avec paramètres et « Copy rows to result »
    Itération avec « Copy rows to result » et « Get rows from result »

     

    Gestion des logs et des erreurs
    Plusieurs types d’erreurs
    Gestion d’erreurs
    Dans un job
    Dans une transformation
    Paramètres de gestion d’erreurs
    Composant « Data Validation »
    Gestion des logs
    Les niveaux de logs
    Logs via la console
    Logs sauvegardés en BDD

     

    Fonctionnalités avancées
    Déboguer notre application
    Prévisualiser nos données
    Ajout de points d’arrêts
    Parallélisation des traitements

     

    Automatisation et documentation
    Exporter vos travaux
    Kitchen : l’exécuteur de jobs
    Fichier
    Repository
    Tâches planifiées
    Documenter ses jobs

    SESSIONS PROGRAMMEES

    Pentaho Data Integration – Développeur

    VALIDATION

    Exercices de validation au cours de la formation

    PEDAGOGIE

    Exposés – Cas pratiques – Synthèse

    INTERVENANTS

    Consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par M2i Formation.

    MODALITES PRATIQUES

    Durée : 3 jours (21 heures) avec 7 heures par jour
    Prix : uniquement en INTRA. Consultez votre Institut 4.10.
    Horaires
    Jour 1 : 09h00-12h30 / 13h30-17h30
    Jour 2 : 09h00-12h30 / 13h30-17h30
    Jour 3 : 09h00-12h30 / 13h30-16h00

     

    ( )

  • QlikView

    Mapinfo

    Talend
  • LI-REQ-194 Talend Open Studio for Big Data, exploiter vos données massives TAD
    Talend Open Studio for Big Data, exploiter vos données massives
    TAD / LI-REQ-194
    OBJECTIFS PEDAGOGIQUES
    La plateforme d’intégration de données de Talend étend ses possibilités aux technologies Big Data que sont Hadoop (HDFS, HBase, HCatalog, Hive et Pig) et les bases NoSQL Cassandra et MongoDB. Ce stage vous apportera les bases pour bien utiliser les composants Talend crées pour communiquer avec les systèmes Big Data.

    PUBLIC
    Gestionnaires de données, architectes, consultants en informatique décisionnelle.
    PRE-REQUIS
    Expérience dans l’utilisation de l’outil Talend Open Studio For Data Integration ou compétences acquises durant la formation TOT.

    CONTENU

    Présentation de Talend Open Studio for Big Data
    - Problématique du Big Data : le modèle de 4V, les cas d’usage.
    - L’écosystème Hadoop (HDFS, MapReduce, HBase, Hive, Pig…).
    - Données non structurées et base de données NoSQL.
    - TOS for Big Data versus TOS for Data Integration.

    Mise en œuvre de HDFS, HBase et HCatalog
    - Définition des métadonnées de connexion du cluster Hadoop.
    - Gestion des ressources HDFS : les principaux composants Talend.
    - Connexion à HBase, création, lecture/écriture dans une table HBase.
    - Configuration HBase, mode local versus mode distribué.
    - Création de bases de données, tables et de partitions via HCatalog.
    - Lecture de tweets (composants d’extension).

    Effectuer des traitements à l’aide de Pig
    - Le langage de script Pig Latin, Pig versus SQL.
    - Principaux composants Pig de Talend, conception de flux Pig.
    - Exécution de scripts Pig (tPigCode).
    - Configuration des propriétés associées à l’usage de MapReduce.
    - Développement de routines UDF.

    Exploiter Hive
    - Métadonnées de connexion et de schéma Hive.
    - Le langage HiveQL.
    - Conception de flux Hive, exécution de requêtes.
    - Mettre en œuvre les composants ELT de Hive.

    Autres aspects couverts par Talend for Big Data
    - Utiliser Scoop pour importer, exporter, mettre à jour des données entre systèmes RDBMS et HDFS.
    - Support Talend des bases de données NoSQL (MongoDB et Cassandra).
    - Conception de jobs MapReduce et Spark Streaming.
    - Configuration avancée des composants du cluster (zookeeper, resource manager, job history…).

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Talend

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-171 Talend Open Studio, optimiser vos flux de données – développement avancé
    Talend Open Studio, optimiser vos flux de données – développement avancé
    TAO / LI-REQ-171
    OBJECTIFS PEDAGOGIQUES
    L’ETL Talend permet d’ajouter simplement de nouvelles fonctions et composants afin de réaliser des processus complexes. Ce stage vous permettra de prendre en main les fonctionnalités avancées de Talend Open Studio, afin d’aboutir à une mise en place optimisée et fiable des flux de données.

    PUBLIC
    Développeurs, chefs de projet, consultants en informatique décisionnelle, administrateurs de base de données.
    PRE-REQUIS
    Connaître les bases du développement dans Talend Open Studio, ou avoir suivi le cours Talend Open Studio, mise en œuvre de l’intégration de données (REQ-157).

    CONTENU

    Introduction
    - Présentation de Talend Open Studio.
    - Rappel des principes des ETL.
    - Installation de TOS.

    Utilisation avancée de Talend
    - Les contextes et leur gestion.
    - Implémenter les transformations complexes.
    - Manipuler des flux XML.
    - Mettre en oeuvre les composants ELT.
    - Utiliser les expressions régulières.

    Exercice
    Associer un groupe de contextes à un job, utiliser des composants de transformations, créer des fichiers XML à partir d’un fichier plat, utiliser les composants ELT MySQL.

    Java et création de composants
    - Présentation des principes d’implémentation en Java.
    - Consulter le code Java associé à un job.
    - Les composants Talend Java.
    - Utiliser les routines.
    - Anatomie et création d’un composant.
    - Exporter un composant dans la palette.
    - Internationaliser ses composants.

    Exercice
    Utilisation de tMemorizeRows, tJavaFlex, tJava. Ecrire une routine et l’utiliser dans un job. Créer un premier composant. Modifier les fichiers javajet pour étendre les fonctionnalités.

    Optimisation des performances et debugging
    - Monitorer la performance des jobs.
    - Mettre en place son propre système de journalisation.
    - Optimiser la performance des jobs.
    - Debugging.
    - Modifier à chaud les variables en mémoire.

    Exercice
    Ajouter des composants de monitoring à un job, mettre en place son système de logs, utiliser les buffers.

    Déploiement en production
    - Lancer un job hors de TOS.
    - Programmer l’exécution d’un job sous Windows.
    - Programmer l’exécution d’un job sous Linux.
    - Talend Enterprise et la TAC.

    Exercice
    Exporter le premier job créé hors de TOS, planifier l’exécution du job exporté via la planificateur de tâches Windows.

    Pour aller plus loin
    - Bonnes pratiques de développement.
    - Créer un plug-in Eclipse.
    - Intégrer dans Talend Open Studio un plug-in Eclipse.
    - Présentation de Talend ESB.
    - Présentation de Talend Big Data.

    Exercice
    Mutualisation des connexions, utilisation des Rollback.

    Conclusion
    - Présentation des ressources sur Talend.
    - Valoriser son développement au sein de la communauté Talend.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier
     
    VALIDATION

    Evaluation de fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Talend

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 314,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-157 Talend Open Studio, mise en œuvre de l’intégration de données
    Talend Open Studio, mise en œuvre de l’intégration de données
    TOT / LI-REQ-157

    OBJECTIFS PEDAGOGIQUES

    Talend Open Studio (TOS) est une application libre de type ETL permettant d’effectuer des synchronisations massives d’informations d’une base de données vers une autre. Ce stage vous apprendra à concevoir, modéliser et développer des “jobs” TOS afin de faire face aux différentes problématiques.

    PUBLIC

    PRE-REQUIS

    Développeurs, chefs de projet, consultants en informatique décisionnelle, administrateurs de base de données. Bonne connaissance des SGBDR et du SQL. La connaissance du langage Java est un plus.

    CONTENU

    Présentation

     

    - L’intégration de données. Les solutions ETL.
    - TOS : installation, préférences utilisateur. documentation de référence.
    - Philosophie du produit. Conception d’un job.

    Travaux pratiques
    Prise en main de l’outil. Présentation du cahier des charges du projet fil rouge.

    Modéliser le besoin, concevoir un premier job

    - Business Modeler. Job Designer.
    - Principales connexions. Composants CSV et XML.
    - Composants de transformation simples.
    - Visualiser du code généré, exécuter un job.

    Exercice
    Développement d’un job assurant le tri d’une source CSV, le filtrage de données et le stockage du résultat dans un fichier XML.

    Optimiser le développement des jobs

    - Configurer des connexions réutilisables à l’aide des métadonnées.
    - Mettre à jour les métadonnées et les propager sur les jobs, importer/exporter des métadonnées.
    - Paramétrer les jobs par des contextes.
    - Externaliser les variables de contextes dans des fichiers “.properties” et “.ini”.
    - Créer et gérer ses propres variables.
    - Générer des jeux de données pour des tests.

    Exercice
    Refactorer un job en utilisant métadonnées et contextes. Générer un jeu de données de test pour ce job.

    Travailler avec des bases de données

    - Bases de données supportées et leurs principaux composants.
    - Paramétrages des opérations sur les tables.
    - Métadonnées et contexte de connexion à un schéma de base de données.
    - Partage de connexions et gestion des transactions.
    - Créer des requêtes à l’aide de SQLBuilder.

    Exercice
    Lecture et mise à jour d’un référentiel de données hébergé sur un serveur MySQL.

    Travailler sur des données multisources
    - Présentation du composant tMap.
    - Configuration des flux d’entrée, créations de jointures.
    - Réaliser des transformations en utilisant variables, expressions et jointures.
    - Qualifier les données à l’aide de filtres.
    - Générer des sorties multiples, gérer les rejets.

    Exercice
    Consolidation de données multisources et génération d’un entrepôt.

    Compléments

    - Décomposer un job en sous-jobs, utilisation du tRunJob. Lancer les jobs en ligne de commande. Exécution périodique.
    - Débogage d’un job, tracer les statistiques d’exécution.
    - Reporting tJasperOutput.

    Exercice
    Génération d’un rapport Jasper Report à partir d’un entrepôt.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation de fin de stage

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

    Spécialiste talend

    MODALITES PRATIQUES

    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 716,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-DEV-641 TALEND pour le Big Data
    TALEND pour le Big Data
    BIG-TAL / LI-DEV-641

    OBJECTIFS PEDAGOGIQUES

    A la fin du cours, le stagiaire sera capable de :
    - Maîtriser Talend dans un environnement Big Data.

    PUBLIC

    PRE–REQUIS

    Consultants BI, architectes SI, chefs de projets. Indispensables :
    -       Avoir des connaissances en Hadoop, Spark et Kafka serait un plus pour la formation.

    CONTENU

    Concepts de bases
    Ouvrir un projet
    Monitorer un cluster Hadoop
    Créer un cluster de métadonnées 

    Lire et écrire des données en HDFS
    Stocker un fichier sur HDFS
    Stocker plusieurs fichiers de HDFS
    Lire les données de HDFS
    Utiliser HBase pour sauvegarder les données charger dans HDFS

     

    Travailler avec les tables
    Importation de tables avec Sqoop
    Création de tables dans HDFS avec Hive

     

    Traitement des données et des tables en HDFS
    Traitement des tables Hive avec des jobs
    Traitement des données avec Pig
    Traitement des données par lots

     

    Guide de dépannage
    Dépannage de votre cluster

     

    Cas d’utilisation de clickstream (flux de clics)
    Surveillance du cluster Hadoop
    Créer un environnement de développement
    Chargement des données dans HDFS
    Enrichissement des logs
    Calculer les statistiques
    Conversion d’un job standard en un lot Big Data
    Comprendre les jobs MapReduce
    Utilisation du studio pour configurer les resource requests vers YARN

     

    Cas d’utilisation : l’analyse comportementale
    Chargement du dictionnaire et des données du fuseau horaire dans HDFS
    Chargement des tweets dans HDFS
    Traitement des tweets avec MapReduce
    Planification de l’exécution du job

     

    Introduction à Kafka
    Surveillance du cluster Hadoop
    Comprendre les bases de Kafka
    Publication de messages sur un sujet Kafka
    Consommer des messages

     

    Introduction à Spark
    Comprendre les bases de Spark
    Analyser les données des clients
    Produire et consommer des messages en temps réel

     

    Cas d’utilisation de traitement des logs : génération des logs enrichis
    Introduction au cas d’utilisation du traitement des lois
    Génération de logs bruts
    Génération de logs enrichis

    Traitement des logs cas d’utilisation : surveillance
    Surveillance des logs enrichis

     

    Cas d’utilisation de traitement des logs : rapports
    Génération de rapports basés sur les fenêtres de données

     

    Cas d’utilisation de traitement des logs : analyse des batchs
    Ingestion de flux de données
    Analyser les logs avec un batch job

     

    Certification (en option)
    Nos tests de validation des compétences font partie intégrante du processus d’apprentissage car ils permettent de développer différents niveaux d’abstractions.
    Solliciter l’apprenant à l’aide de nos QCM, c’est lui permettre d’étayer sa réflexion en mobilisant sa mémoire pour choisir la bonne réponse. Nous sommes bien dans une technique d’ancrage mémoriel.
    L’examen sera passé à la fin de la formation.

     

    Les + de la formation
    L’examen de certification (proposé en option) est en français.

    SESSIONS PROGRAMMEES

    TALEND pour le Big Data

    VALIDATION

    Exercices de validation au cours de la formation

    PEDAGOGIE

    Exposés – Cas pratiques – Synthèse

    INTERVENANTS

    Consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par M2i Formation.

    MODALITES PRATIQUES

    Durée : 3 jours (21 heures) avec 7 heures par jour
    Prix stagiaire : Consultez votre Portail client I4.10.
    Horaires
    Jour 1 : 09h00-12h30 / 13h30-17h30
    Jour 2 : 09h00-12h30 / 13h30-17h30
    Jour 3 : 09h00-12h30 / 13h30-16h00

     

    ( )
  • LI-DEV-640 TALEND – Maîtrise
    TALEND – Maîtrise
    TAL-MAI / LI-DEV-640

    OBJECTIFS PEDAGOGIQUES

    A la fin du cours, le stagiaire sera capable de :
    - Mettre en place et paramétrer un environnement de développement stable sur la base de la version gratuite de Talend
    - Modéliser ses besoins
    - Maîtriser la bibliothèque de composants
    - Implémenter, déboguer et déployer ses jobs.

    PUBLIC

    PRE–REQUIS

    Tout informaticien amené à gérer des flux de données inter-application ou à alimenter un entrepôt de données. Indispensables :
    -       Connaissance du SQL.

    CONTENU

    Introduction
    Problématique
    EAI / ERP
    Installation 

    Découverte de l’environnement
    Premier pas avec TOS
    Vue d’ensemble des composants

     

    Les premiers flux
    Le Business Model
    Le job
    Les bonnes pratiques
    tRowGenerator
    tFileInputExcel et tFileOutputExcel
    tMsgBox
    tSendMail
    Type de liaisons entre composants
    Exécuter un job

     

    Traiter les données
    tFilterRow
    tUniqRow
    tAgregateRow
    tSortRow
    tMap

     

    Les métadonnées
    Vue d’ensemble
    Créer une métadonnée Excel
    Utiliser une métadonnée Excel
    Créer une métadonnée Access
    Récupérer les tables d’une BDD

     

    Travailler avec les bases de données
    tAccessInput
    tAccessOutput

     

    Autres composants et fonctionnalités
    Variables globales
    tBuffer
    tSystem
    tServerAlive
    tUnite
    tReplicate

     

    Les itérations
    tFileList
    tInfiniteLoop
    tLoop
    tPOP
    tFlowToIterate

    Gestion des logs et des erreurs
    tLogRow
    tDie et tLogCatcher
    tWarn
    tStatCatcher
    tFlowMeter et tFlowMeterCatcher

     

    Fonctionnalités avancées
    Variables de contexte
    Créer une variable de contexte
    Utiliser une variable de contexte
    Modifier une variable de contexte
    Cascade de jobs
    Les routines

     

    Automatisation et documentation
    Documenter ses jobs
    Générer des scripts

    SESSIONS PROGRAMMEES

    TALEND – Maîtrise

    VALIDATION

    Exercices de validation au cours de la formation

    PEDAGOGIE

    Exposés – Cas pratiques – Synthèse

    INTERVENANTS

    Consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par M2i Formation.

    MODALITES PRATIQUES

    Durée : 3 jours (21 heures) avec 7 heures par jour
    Prix stagiaire : Consultez votre Portail client I4.10.
    Horaires
    Jour 1 : 09h00-12h30 / 13h30-17h30
    Jour 2 : 09h00-12h30 / 13h30-17h30
    Jour 3 : 09h00-12h30 / 13h30-16h00

     

    ( )
  • LI-BDD-134 Talend Open Studio for Data Quality, gérer la qualité des données TDQ
    Talend Open Studio for Data Quality, gérer la qualité des données
    TDQ / LI-BDD-134
    OBJECTIFS PEDAGOGIQUES
    Ce cours vous apprendra à exploiter efficacement l’outil Talend Open Studio for Data Quality de manière à évaluer le niveau de qualité des données d’un système d’information. Vous mettrez en œuvre des analyses, vérifierez des règles métiers et définirez des stratégies de correction pour les données erronées.

    PUBLIC
    Analystes métiers, intégrateurs de données, gestionnaires de données.
    PRE-REQUIS
    Bonnes connaissances des bases de données relationnelles et du SQL. Connaissances de base de Talend Open Studio for Data Integration.

    CONTENU

    La problématique de la qualité des données
    - L’évaluation de la qualité des données d’un système d’information.
    - Critères fondamentaux : exhaustivité, précision et intégrité des données.
    - Positionnement du produit Talend Open Studio for Data Quality dans la suite Talend.

    Les concepts fondamentaux de TOS for Data Quality
    - Les métadonnées : connexions aux bases, fichiers délimités et fichiers Excel.
    - Présentation des différents types d’analyses.
    - Les outils et indicateurs d’aide à la réalisation des analyses.
    - L’explorateur de données.

    Les analyses simples
    - Recherche de doublons, respect de contraintes d’intervalle, format de date, d’email…
    - Métriques d’une table, dépendances fonctionnelles entre colonnes.
    - Identification des redondances de valeurs.
    - Contrôles de cohérence entre clefs étrangères et primaires.
    - Utiliser les indicateurs, les modèles, les règles et les fichiers sources.

    Les analyses avancées
    - Analyse de schéma et de la structure des tables via l’explorateur de données.
    - Analyse multitable et multicolonne, respect de règles métiers.
    - Recherche et visualisation de corrélation entre colonnes.
    - Créer ses propres indicateurs et fichiers sources.
    - Gérer les analyses.

    Eléments avancés
    - Utiliser des variables de contexte.
    - Créer des modèles basés sur des expressions régulières.
    - Exporter/importer les analyses et les données analysées.
    - Corriger les données erronées avec Talend Data Integration.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Talend

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 314,00 € TTC
    Horaires : 9h – 17h30

    ( )

  • Environnement R
  • LI-REQ-190 Environnement R, manipulations de données et statistiques élémentaires
    Environnement R, manipulations de données et statistiques élémentaires
    MDR / LI-REQ-190
    OBJECTIFS PEDAGOGIQUES
    R est un logiciel statistique qui dispose d’outils graphiques de qualité pour présenter les données. Afin de bénéficier de cette richesse, il faut être capable de préparer ces données, de les transformer et de les exploiter avec R. Ce stage vous propose d’approfondir les compétences des utilisateurs de R.

    PUBLIC
    Statisticiens, analystes, ingénieurs, développeurs. Toute personne ayant à manipuler des données, à traiter numériquement et représenter graphiquement des données, à réaliser des statistiques sous R.
    PRE-REQUIS
    Connaissances de base du logiciel R, ou connaissances équivalentes à celles apportées par le stage “Environnement R, initiation” (réf. TDA).

    CONTENU

    Rappels
    - L’environnement RStudio.
    - Les types de données dans R, les listes, les DataFrames, les facteurs et les variables ordinales.
    - Les dates et les séries temporelles.

    Importation-exportation et production de données
    - Lire un fichier texte ASCII, Excel, SPSS, Minitab, SAS ou Matlab.
    - Lire des données au clavier et utiliser le copier-coller.
    - Lecture/écriture des fichiers, bases de données.

    Manipulation de données, fonctions
    - Opérations sur les matrices ou les DataFrames.
    - Les fonctions outer, apply, lapply, sapply et mapply.
    - Opérations logiques et relationnelles.
    - Manipulation de chaînes de caractères. Manipulation de dates et d’unités de temps.

    Techniques pour tracer des courbes et des graphiques
    - Les fenêtres graphiques : manipulation, sauvegarde.
    - Les fonctions de tracé de bas niveau.
    - La gestion des couleurs et paramètres graphiques.
    - L’ajout de texte, titres, axes et légendes.
    - Diagrammes en croix, tuyaux d’orgue, empilé ou circulaire. Boîte à moustaches.
    - Graphe de la fonction de répartition empirique. Histogramme en densité à amplitudes de classes égales ou inégales.
    - Polygone des fréquences. Représentations graphiques dans un cadre bivarié.

    Mathématiques et statistiques élémentaires
    - Structuration des variables suivant leur type.
    - Résumés numériques.
    - Mesures d’association.
    - Notions sur la génération de nombres au hasard et de variable aléatoire.
    - Loi des grands nombres et théorème de la limite centrale.
    - Intervalles de confiance.
    - Tests d’hypothèses usuels. Autres tests d’hypothèses.
    - Analyse de la variance à un facteur, deux facteurs ou à mesures répétées.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste analyse statistique

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-158 Environnement R, traitement de données et analyse statistique
    Environnement R, traitement de données et analyse statistique
    TDA / LI-REQ-158

    OBJECTIFS PEDAGOGIQUES

    R est un environnement logiciel Open Source spécialisé dans le calcul et l’analyse statistique. Ce stage vous présentera ses concepts et ses fonctionnalités. Il vous montrera comment manipuler les données et implémenter des modèles statistiques sur ces données avec le logiciel R.

    PUBLIC

    PRE-REQUIS

    Utilisateurs finaux, statisticiens, analystes type DataMiner, acteurs impliqués dans l’analyse/fouille des données. Connaissances de base en statistiques (régressions, analyse en composantes principales, classification) et des concepts de programmation.

    CONTENU

    Introduction

     

    - Présentation du logiciel R et de ses fonctionnalités.
    - Avantages et inconvénients.
    - Accès au site de téléchargement de l’outil et installation.

    Exercice
    Installation de l’environnement d’analyse.

    Premier pas

    - Environnement de base (console, script).
    - Utilisation de la console.
    - Création et sauvegarde d’un script.
    - Le répertoire sous R Installation.
    - Aide et commentaires.
    - Les autres éditeurs Tinn-R et R Studio.

    Exercice
    Création de scripts.

    Objets et notions de programmation R

    - Les objets de type vecteurs, matrix, array, factor, data.frame, list.
    - Manipulation des objets, classe d’objet, fonction spécifiques, jointure.
    - Sauvegarde, suppression de mémoire.
    - Notion de Boucle (for et while), condition (if), switch.

    Exercice
    Manipulation des types d’objets.

    Création et utilisation de fonctions

    - Structure d’une fonction.
    - Fonctions de type mathématique.
    - Fonctions de type chaîne de caractères.
    - Fonctions liées au temps/date.
    - Opérations ensemblistes.
    - Les tables de contingences.

    Exercice
    Création et d’utilisation de fonctions.

    Génération, gestion et visualisation des données

    - Les données : séquences régulières et aléatoires.
    - Données exemple de R.
    - Importation et exportation de données.
    - Modifier les données d’un objet.
    - Exemples de graphiques construits avec R.
    - Création des graphiques de base.
    - Les options graphiques, partager une fenêtre graphique, sauvegarder un graphique.

    Exercice
    Exercice d’application sur les données.

    Analyses statistiques

    - Présentation de la notion de package (librairie).
    - Télécharger/charger des packages.
    - Quelques packages utiles.
    - Cas de la régression non-linéaire multiple.
    - Cas de l’analyse en composantes principales ACP.
    - Cas de la classification CAH.

    Exercice
    Exercice d’application sur les packages.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation de fin de stage

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

    Spécialiste analyse statistique

    MODALITES PRATIQUES

    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 314,00 € TTC
    Horaires : 9h – 17h30

    ( )

  • Autres solutions
  • LI-SYS-428 Power BI, perfectionnement
    Power BI, perfectionnement
    BIG / LI-SYS-428
    OBJECTIFS PEDAGOGIQUES
    Power BI, la solution de Business Intelligence de Microsoft permet aux entreprises d’agréger, d’analyser et de visualiser les données en provenance de sources multiples. À l’issue de cette formation, vous serez en mesure de créer des tableaux de bord complexes en maîtrisant les fonctionnalités avancées de ce logiciel.

    PUBLIC
    Toute personne souhaitant consolider et approfondir ses connaissances dans l’utilisation de Power BI afin de concevoir des tableaux de bord graphiques et interactifs de niveau avancé.
    PRE-REQUIS
    Connaissances des bases de Power BI ou connaissances équivalentes à celles apportées par le stage Power BI, concevoir des tableaux de bord (réf. PBI).

    CONTENU

    Présentation, rappels et bonne pratiques
    - Rappel du cycle de conception d’un rapport Power BI.
    - Expression du besoin et identification des sources de données.
    - Se connecter et préparer les données.
    - Organiser les tables et les relations, définir des mesures, visualisation.
    - Comprendre l’organisation d’un modèle en étoile, des tables de faits, des tables de dimensions.

    Utiliser les requêtes pour concevoir un modèle adéquat
    - Fusionner les requêtes pour réduire les flocons.
    - Agréger et empiler les sources.
    - Importer des données à partir d’une liste de sources.
    - Personnaliser des fonctions et passage de paramètres en langage M.
    - Gérer les erreurs.

    Travailler avec la dimension Temps
    - Utiliser les variables en DAX pour réaliser un calendrier, les listes et les fonctions pour réaliser un calendrier en M.
    - Cumuler par périodes. Comparer des périodes. Cumuler sur des périodes glissantes.
    - Utiliser les fonctions Time Intelligence pour créer des comparaisons de périodes, des cumuls et des périodes glissantes.
    - Utiliser les fonctions : DATEADD, DATESYTD, DATESBETWEEN, DATESINPERIOD, CLOSINGBALANCE.
    - Travailler avec plusieurs colonnes de dates et de double relation avec USERELATIONSHIP.
    - Filtrer les données sur la période en cours.

    Exploiter les fonctions DAX avancées
    - Le calcul de cumul avec la fonction EARLIER.
    - La fonction CALCULATE avec plusieurs conditions et la fonction FILTER.
    - La fonction de gestion des valeurs vides : ISBLANK.
    - Les fonctions DAX de création de tables : FILTER, CALCULATETABLE, ADDCOLUMNS, SUMMURIZE, UNION, etc.

    Affichage, navigation et visualisations
    - Créer un fond de page, un thème, un modèle de rapport.
    - Créer des rapports “Maître-Détail” en utilisant les filtres d’extractions.
    - Utiliser l’onglet des filtres et l’onglet sélection.
    - Utiliser les signets pour la navigation et le Storytelling.
    - Représenter avec des images. Préparer des commentaires dynamiques et personnaliser les infobulles.

    - Définir un visuel personnalisé avec le Synoptic Pannel.

    SESSIONS PROGRAMMEES
     Accès au calendrier
    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1339€ TTC
    Horaires : 9h – 17h30

     

    ( )
  • LI-REQ-268 Tableau Desktop, perfectionnement, enrichir les analyses et visualisations des données
    Tableau Desktop, perfectionnement, enrichir les analyses et visualisations des données
    TKY / LI-REQ-268
    OBJECTIFS PEDAGOGIQUES
    Tableau Software Desktop permet de créer des calculs analytiques complexes et de les visualiser sous différents types de graphisme : cartographie, axe double, diagramme de Gantt. Ce cours vous permettra de prendre en main les fonctions et outils pour rendre vos tableaux de bord encore plus riches.

    PUBLIC
    Analystes, consultants, contrôleurs de gestion. Chargés de reporting, chargés d’étude statistiques. Tout concepteur de tableaux de bord et de reporting.
    PRE-REQUIS
    Connaissances de base de l’utilisation de Tableau Desktop, ou connaissances équivalentes à celles apportées par le cours “Tableau Desktop, exploiter visuellement ses données” (réf. TBL).

    CONTENU

    Introduction
    - L’environnement de travail.
    - Les options de connexion.
    - Chargement incrémental (extrait).
    - Données multi-sources, tout sur les jointures.
    - Le mélange de données (data blending).
    - Rappel des fonctionnalités de base de Tableau Software.

    Calculs analytiques avancés
    - Les différentes familles de fonctions de calculs Tableau Software.
    - Calculs de table. Périmètre et direction d’un calcul de table.
    - Calculs d’agrégation, de partition.
    - Comparaisons temporelles et des calculs de prévision.
    - Création de calculs de type LOD (Level Of Detail Expressions).
    - Calculs Record Level pour les conversions de dates.
    - Gestion des valeurs nulles.
    - Analyses statistiques.

    Paramétrages avancés
    - Combinaison d’ensembles.
    - Contextualisation des filtres.
    - Calculs de type Top N.
    - Association de paramètres à des actions dans les vues.
    - Paramétrage de sous-ensembles.
    - Différence entre groupes et sous-ensembles de données.

    Représentation de l’évolution de données
    - Intégration de variations temporelles dans une courbe d’évolution.
    - Sparklines, évolution de variable en ligne.
    - Graphiques Water Falls (chute d’eau), explication des variations.
    - Indicateurs clés de progrès (KPI).
    - Diagramme de Gantt, suivi projet.

    Représentation de données statistiques
    - Market Basket Analysis.
    - Graphique de Pareto.
    - Box plots (Boîte à moustache).
    - Distribution de références.
    - Nuage de points.
    - Statistiques, tendances et prévisions.

    Représentation cartographique
    - Géocodification des données.
    - Modification des géocodes des lieux.
    - Cartographie : principes, niveaux de cartographie, rôles géographiques.
    - Graphiques et cartes munis d’axes doubles.
    - Utilisation d’images en arrière-plan pour l’analyse spatiale.
    - Utilisation d’un fichier de données spatiales.

    Tableaux de bord interactifs
    - Actions pour rendre les dashboards interactifs (surlignage, animation, Drill Down..)
    - Action de type web avec prise en compte d’un paramètre.
    - Création de tableaux de bord liés (parent-enfant, drill vers détail, etc.).
    - Paramétrage des tableaux de bord.
    - Visualisation et exploitation du contenu des tableaux de bord (exporter, etc.).

    Aller plus loin
    - Tableau Software Desktop versus Tableau Software Public.
    - Partage de Workbooks packagés.
    - Export de données brutes.
    - Export de fichiers images.
    - Synthèse et bonnes pratiques.

    SESSIONS PROGRAMMEES
     Accès au calendrier
    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : Consultez votre Portail client I4.10.
    Horaires : 9h – 17h30

     

    ( )
  • LI-REQ-264 Big Data Analytics avec Julia
    Big Data Analytics avec Julia, Modélisation et représentation des données
    TBD / LI-REQ-264
    OBJECTIFS PEDAGOGIQUES
    Le Big Bata Analytics repose sur la maîtrise des techniques d’exploration de données fondamentales : statistiques descriptives, prédictives ou exploratoires. Ce cours pratique vous présentera des méthodes telles que les régressions et les ACP et vous apprendra à les mettre en œuvre avec le langage Julia.

    PUBLIC
    Responsables Infocentre (Datamining, Marketing, Qualité…), utilisateurs et gestionnaires métiers de bases de données.
    PRE-REQUIS
    Connaissances de base en statistiques, ou avoir suivi le cours “Statistiques, maîtriser les fondamentaux” (Réf. STA).

    CONTENU

    Introduction au langage Julia
    - L’environnement du langage de programmation Julia.
    - Les types de données.
    - L’importation et l’exportation de données.
    - Les techniques pour tracer des courbes et des graphiques.
    - L’utilisation des librairies R, Python et Spark.

    Analyse en composantes
    - Analyse en composantes principales.
    - Analyse factorielle de données mixtes.
    - Analyse des correspondances multiples.
    - Classification hiérarchique sur composantes principales.

    La modélisation
    - Les étapes de construction d’un modèle.
    - Les algorithmes supervisés et non supervisés.
    - Le choix entre la régression et la classification.

    Procédures d’évaluation de modèles
    - Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
    - Test de représentativité des données d’apprentissage.
    - Mesures de performance des modèles prédictifs.
    - Matrice de confusion, de coût et la courbe ROC et AUC.

    Les algorithmes non supervisés
    - Le clustering hiérarchique.
    - Le clustering non hiérarchique.
    - Les approches mixtes.

    Les algorithmes supervisés
    - Le principe de régression linéaire univariée.
    - La régression multivariée.
    - La régression polynomiale.
    - La régression régularisée.
    - Le Naive Bayes.
    - La régression logistique.

    Analyse de données textuelles
    - Collecte et prétraitement des données textuelles.
    - Extraction d’entités primaires, d’entités nommées et résolution référentielle.
    - Étiquetage grammatical, analyse syntaxique, analyse sémantique.
    - Lemmatisation. Représentation vectorielle des textes. Pondération TF-IDF.

    SESSIONS PROGRAMMEES
     Accès au calendrier
    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2307€ TTC
    Horaires : 9h – 17h30

     

    ( )
  • LI-REQ-263 Text Mining par la pratique
    Text Mining par la pratique
    MMD / LI-REQ-263
    OBJECTIFS PEDAGOGIQUES
    Machine Learning et Deep Learning pour les données textuelles s’inscrivent dans le cadre du traitement statistique et de la valorisation des données dans tout projet Big Data. Ce cours pratique vous présentera toute la chaîne de conception appliquée au Machine Learning dans un contexte Big Data batch et streaming.

    PUBLIC
    Ingénieurs/chefs de projet IA, consultants IA et toute personne souhaitant découvrir le Text Mining pour le Machine Learning et le Deep Learning.
    PRE-REQUIS
    Bonnes connaissances en statistiques. Bonnes connaissances du Machine Learning et du Deep Learning. Expérience requise.

    CONTENU

    Les approches traditionnelles en Text Mining
    - Les API pour récupérer des données textuelles.
    - La préparation des données textuelles en fonction de la problématique.
    - La récupération et l’exploration du corpus de textes.
    - La suppression des caractères accentués et spéciaux.
    - Stemming, Lemmatization et suppression des mots de liaison.
    - Tout rassembler pour nettoyer et normaliser les données.

    Feature Engineering pour la représentation de texte
    - Comprendre la syntaxe et la structure du texte.
    - Le modèle Bag of Words et Bag of N-Grams.
    - Le modèle TF-IDF, Transformer et Vectorizer.
    - Le modèle Word2Vec et l’implémentation avec Gensim.
    - Le modèle GloVe.
    - Le modèle FastText.

    La similarité des textes et classification non supervisée
    - Les concepts essentiels de similarité.
    - Analyse de la similarité des termes : distances Hamming, Manhattan, Euclidienne et Levenshtein.
    - Analyse de la similarité des documents.
    - Okapi BM25 et le palmarès de classement.
    - Les algorithmes de classification non supervisée.

    La classification supervisée du texte
    - Prétraitement et normalisation des données.
    - Modèles de classification.
    - Multinomial Naïve Bayes.
    - Régression logistique. Support Vector Machines.
    - Random Forest. Gradient Boosting Machines.
    - Évaluation des modèles de classification.

    Natural Language Processing et Deep Learning
    - Les librairies NLP : NLTK, TextBlob, SpaCy, Gensim, Pattern, Stanford CoreNLP.
    - Les librairies Deep Learning : Theano, TensorFlow, Keras.
    - Natural Language Processing et Recurrent Neural Networks.
    - RNN et Long Short-Term Memory. Les modèles bidirectionnels RNN.
    - Les modèles Sequence-to-Sequence.
    - Questions et réponses avec les modèles RNN.

    SESSIONS PROGRAMMEES
     Accès au calendrier
    VALIDATIONEvaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1824€ TTC
    Horaires : 9h – 17h30

     

    ( )
  • LI-REQ-262 Intelligence Artificielle, algorithmes utiles appliqués à la robotique
    Intelligence Artificielle, algorithmes utiles appliqués à la robotique
    IAG / LI-REQ-262
    OBJECTIFS PEDAGOGIQUES
    En charge de projets robotiques vous souhaitez parfaire vos connaissances en Intelligence Artificielle et algorithmes afin d’ajouter des capacités logicielles à vos projets : analyse d’images, reconnaissance d’objets, apprentissage par renforcement, algorithmes génétiques, Machine Learning, Deep Learning…

    PUBLIC
    Intégrateurs robotique, ingénieurs en robotique, chefs de projet techniques, développeurs.
    PRE-REQUIS
    Connaissance d’un langage de programmation de type C, C++ ou Python.

    CONTENU

    Introduction
    - Histoire et culture robotique, IoT.
    - L’Intelligence Artificielle et sa famille Machine Learning, Deep Learning.
    - Applications et évolutions des nouvelles technologies.
    - De l’algorithme au circuit imprimé.

    Algorithme et Intelligence Artificielle
    - Définitions et exemples d’algorithmes utiles.
    - Scénarios, graphes, arbres de décisions.
    - Machine Learning, apprentissage supervisé, non supervisé.
    - Deep Learning, principes.
    - Apprentissage par renforcement, algorithmes génétiques.

    Analyse d’image

    - QR Codes, codes barres : création et lecture.
    - Reconnaissance optique de caractères : OCR.
    - Identification et authentification d’objets, de visages.
    - Suivi de points, d’objets, de chemins.

    Son, reconnaissance vocale, chatbot et TAL/NLP
    - Cas d’usage, possibilités et limites.
    - De la voix au texte.
    - API, mode connecté et non connecté.
    - Chatbot à scénario fermé, à scénario ouvert (TAL, NLP).
    - Du texte à la voix (Text To Speech).

    Cartographie 2D, 3D et virtualisation robotique
    - Transformer une carte en graphe.
    - Trouver son chemin : Dijkstra, A-Star, optimiser la lecture d’une carte.
    - Algorithmes de photogrammétrie.
    - Cartographie temps réel : sonar, lidar, caméra.
    - Environnement virtuel robotique et digital twin.

    Communication robotique
    - Les principaux protocoles : 4G, 5G, Lifi, Wifi, Bluetooth.
    - Communication électronique et informatique : série, TOR, multiplexage, démultiplexage.
    - Flux vidéos et audios en temps réel.
    - Cryptographie, chiffrement des transmissions.

    Frameworks et boîte à outils
    - Arduino, Raspberry Pi : présentations.
    - Bibliothèques graphiques : OpenCV, BoofCV.
    - ROS : Robot Operating System.
    - Tensorflow, Keras, OpenAI, CNTK.
    - Scratch : programmation par briques élémentaires.
    - Simulation : Unity, Blender, Bullet.

    SESSIONS PROGRAMMEES
     Accès au calendrier
    VALIDATIONEvaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 2137€ TTC
    Horaires : 9h – 17h30

     

    ( )
  • LI-REQ-260 Chatbot, créer et déployer un agent conversationnel en JavaScript
    Chatbot, créer et déployer un agent conversationnel en JavaScript
    BQW / LI-REQ-260
    OBJECTIFS PEDAGOGIQUES
    Les chatbots, agents conversationnels capables de dialoguer avec un utilisateur, s’imposent comme une nouvelle interface à part entière. Vous apprendrez dans ce stage à en développer en JavaScript sur le runtime Node.js. Vous intégrerez vos développements avec différentes API et solutions de création dédiées.

    PUBLIC
    Développeurs, architectes, chefs de projet.
    PRE-REQUIS
    Connaissances du JavaScript et de Node.js.

    CONTENU

    Chatbots : conception et usages
    - Chatbot, quels types pour quels usages ?
    - Natural Language Processing (NLP) et Machine Learning.
    - Les Frameworks de bots versus les plateformes pour bots.

    Rappels Node.js
    - Rappels JavaScript ES/2015.
    - L’approche modulaire de Node.js.
    - La gestion événementielle, la gestion des routes, la persistance des données.
    - Packages utiles pour le développement de chatbots.

    Architecture d’un chatbot
    - Les différents composants : connecteurs, adaptateurs, modules NLP, actions…
    - Cible I/O : plateformes de messagerie, API publiques…
    - Architecture logique : Messager, Classifier, Analyser, Responder, Selector.
    - Définir les intentions, réponses et entités.
    - Configurer des connecteurs pour les API externes.

    Conception du flux conversationnel
    - Identifier les utilisateurs potentiels et analyser leurs besoins.
    - Implémenter un scénario de réponse à un besoin métier.
    - Définition de conversations simples et de conversations complexes.
    - Modéliser l’arborescence de décisions et gérer les impasses.
    - Personnaliser les réponses.

    Traitement du langage naturel (Natural Langage Processing)
    - La démocratisation de l’Intelligence Artificielle.
    - NLU et NLP, principes des systèmes de compréhension du langage naturel.
    - Intentions, utterances et entités.
    - Définir une personnalité, un caractère pour votre chatbot.
    - Moteurs de langage naturel : Dialogflow, Wit.ai, LUIS.ai, Lex, Recast.ai…
    - Entraîner et faire évoluer son chatbot.
    - Les Frameworks du Machine Learning (TensorFlow.js, …).

    Déploiement et intégration au Système d’Information
    - Solutions d’hébergement pour la publication du chatbot.
    - Se connecter à un service de messagerie instantanée (Slack, Facebook Messenger, Teams…).
    - Liaison avec d’autres applications du SI.

    Enrichissement du chatbot
    - Gestion du contexte et de la mémorisation.
    - Persistance des données, contextes, conversations « logs».
    - Plateformes et outils pour les statistiques, indices clés (KPI).

    SESSIONS PROGRAMMEES
     Accès au calendrier
    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1824€ TTC
    Horaires : 9h – 17h30

     

    ( )
  • LI-REQ-258 Machine learning, méthodes et solutions MLB
    Machine learning, méthode  et solutions
    MLB /LI-REQ-258

    OBJECTIFS PEDAGOGIQUES

    Le Machine Learning couvre l’ensemble des méthodes et concepts qui permettent d’extraire automatiquement à partir de données, des modèles de prédiction et de prise de décision. Vous mettrez en œuvre toute la chaîne de conception appliquée au Machine Learning dans un contexte Big Data batch et streaming.

    PUBLIC

    PRE–REQUIS

    Ingénieurs/chefs de projet souhaitant considérer les techniques d’apprentissage automatique dans la résolution de problèmes industriels. Bonnes connaissances en statistiques de base, ou connaissances équivalentes à celles apportées par le stage « Statistiques, maîtriser les fondamentaux » (Réf. STA).

    CONTENU

    Introduction au Machine Learning

    -         Le Big Data et le Machine Learning.
    -         Les algorithmes d’apprentissage supervisés, non supervisés et par renforcement.
    -         Les étapes de construction d’un modèle prédictif.
    -         Détecter les valeurs aberrantes et traiter les données manquantes.
    -         Comment choisir l’algorithme et les variables de l’algorithme ?
    Démonstration
    Prise en main de l’environnement Spark avec R, Python et Scala à l’aide de Jupyter Notebook. Visualiser plusieurs exemples de modèles fournis.

    Procédures d’évaluation de modèles

    -         Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
    -         Test de représentativité des données d’apprentissage.
    -         Mesures de performance des modèles prédictifs.
    -         Matrice de confusion, de coût et la courbe ROC et AUC.
    Travaux pratiques
    Evaluation et comparaison des différents algorithmes sur les modèles fournis.

    Les modèles prédictifs, l’approche fréquentiste

    -         Apprentissage statistique.
    -         Conditionnement des données et réduction de dimension.
    -         Machines à vecteurs supports et méthodes à noyaux.
    -         Quantification vectorielle.
    -         Réseaux de neurones et Deep Learning.
    -         Ensemble learning et arbres de décision.
    -         Les algoritmes de Bandits, optimisme face à l’incertitude.
    Travaux pratiques
    Mise en œuvre des familles d’algorithmes en utilisant des jeux de données variés.

    Les modèles et apprentissages bayésiens

    -         Principes d’inférence et d’apprentissage bayésiens.
    -         Modèles graphiques : réseaux bayésiens, champs de Markov, inférence et apprentissage.
    -         Méthodes bayésiennes : Naive Bayes, mélanges de gaussiennes, processus gaussiens.
    -         Modèles markoviens : processus markoviens, chaînes de Markov, chaînes de Markov cachées, filtrage bayésien.
    Travaux pratiques
    Mise en œuvre des familles d’algorithmes en utilisant des jeux de données variés.

    Machine Learning en production

    -         Les spécificités liées au développement d’un modèle en environnement distribué.
    -         Le déploiement Big Data avec Spark et la MLlib.
    -         Le Cloud : Amazon, Microsoft Azure ML, IBM Bluemix…
    -         La maintenance du modèle.
    Travaux pratiques
    Mise en production d’un modèle prédictif avec l’intégration dans des processus de batch et dans des flux de traitements.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation  de la satisfaction en fin de session

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    MODALITES PRATIQUES

    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2271€
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-255 Hadoop, développer des applications pour le Big Data
    Hadoop, développer des applications pour le Big Data
    APH / LI-REQ-255
    OBJECTIFS PEDAGOGIQUES

     

    À la fin du cours, le stagiaire sera capable de :

    • Construire un programme à base de Map Reduce
    • Intégrer Hadoop HBase dans un workflow d’entreprise
    • Travailler avec Apache Hive et Pig depuis HDFS
    • Utiliser un graphe de tâches avec Hadoop
    PUBLIC

     

    Concepteurs, développeurs.

    PRE-REQUIS

     

    Bonne expérience en développement Java.
    Des connaissances en architecture Web constituent un plus.

    CONTENU

    Le Big Data

    - Définition du périmètre du Big Data.
    - Le rôle du projet Hadoop.
    - Les concepts de base des projets Big Data.
    - Présentation du Cloud Computing
    - Différence entre Cloud Computing privé et public.
    - Les architectures Big Data à base du projet Hadoop.

    Démonstration
    Usage d’Hadoop et de GoogleApp.

    Collecte de données et application de Map Reduce

    - Analyse des flux de données dans l’entreprise.
    - Données structurées et non-structurées.
    - Les principes de l’analyse sémantique des données d’entreprise.
    - Graphe des tâches à base de MapReduce.
    - La granularité de cohérence des données.
    - Transfert de données depuis un système de persistance dans Hadoop.
    - Transfert de données d’un Cloud dans Hadoop.

    Travaux pratiques
    Gérer la collecte d’informations clientèles par Map Reduce. Configuration de l’implémentation YARN. Développement d’une tâche basée sur Map Reduce.

    Le stockage des données avec HBase

    - Plusieurs types de base de données XML.
    - Patterns d’usages et application au cloud.
    - Application de Hadoop database au sein d’un workflow.
    - Utilisation des projets Hive/Pig.
    - Utilisation du projet HCatalog.
    - L’API Java HBase.

    Travaux pratiques
    Gérer les modifications d’un catalogue de données fournisseur.

    Le stockage des données sur HDFS

    - Patterns d’usages et application au Cloud.
    - Architecture et installation d’un système HDFS, journal, NameNode, DataNode.
    - Opérations, commandes et gestion des commandes.
    - L’API HDFS Java.
    - Analyse de données avec Apache Pig.
    - Le langage Pig Latin. Utiliser Apache Pig avec Java.
    - Requêtage avec Apache Hive.
    - Réplication de données. Partage de données sur une architecture HDFS.

    Travaux pratiques
    Administrer un référentiel client partagé sur Hadoop. Utilisation de la console de visualisation.

    Spring Data Hadoop

    - Introduction à Spring et Spring Data.
    - Le namespace Hadoop pour Spring.
    - Utiliser Spring pour simplifier la configuration Hadoop.
    - Configuration du cache distribué.
    - Définition des Jobs et dépendance entre Jobs.
    - Intégration des outils (Pig, Hive…).

    Travaux pratiques
    Refondre la gestion du catalogue de données fournisseur via Spring Data.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION
    Alternance d’exposés et de travaux pratiques

    PEDAGOGIE

     

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

     

    Spécialiste Big Data

    MODALITES PRATIQUES

    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 271,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-253 Flink, développer des applications pour le Big Data
    Flink, développer des applications pour le Big Data
    FKB / LI-REQ-253
    OBJECTIFS PEDAGOGIQUES 

    À la fin du cours, le stagiaire sera capable de :

    • Maîtriser les concepts fondamentaux de Flink
    • Développer des applications à l’aide de DataSet et DataStream API
    • Traitement de données distribué avec Flink et Hadoop
    • Exploiter des données avec Table API
    • Avoir une première approche du machine learning
    PUBLIC 

    Développeurs, architectes.

    PRE-REQUIS 

    Bonnes connaissances du langage Scala ou Java.

    CONTENU

    Introduction à Apache Flink

    - Historique du framework.
    - Les différentes versions de Flink.
    - Comparaison avec l’environnement Apache Hadoop et Apache Spark.
    - Les différents modules de Flink.

    Traitement de données à l’aide de l’API DataStream

    - Environnement d’exécution et sources de données.
    - Les transformations: Map, FlatMap, Filter, KeyBy, Reduce…
    - Les opérations sur des flux multiples : Union, Cogroup, Connect, Join, Iterate…
    - Les opérations sur Windows : Global, Tumbling, Sliding, Session…
    - Le partitionnement physique personnalisé, aléatoire, rééquilibrage et redimensionnement.
    - Les DataSink et les connecteurs : Kafka, Twitter, ElasticSerch…

    Traitement de données à l’aide de l’API Batch

    - Les différents types de sources de données.
    - Les transformations et agrégations.
    - L’écriture des données.
    - Les DataSink et les connecteurs : HDFS, S3, Avro, MongoDB.

    Traitement de données à l’aide de l’API Table

    - Enregistrement et lecture des tables enregistrées.
    - Les opérateurs : sélection, filtre, jointure, orderBy…
    - Utiliser du SQL sur le flux de données.
    - Les fonctions Scala dans SQL.
    - Traitement des événements complexes.

    Machine Learning avec FlinkML

    - Introduction au machine learning.
    - Les différentes classes d’algorithmes.
    - Présentation de FlinkML et des différents algorithmes.

    API Flink Graph – Gelly

    - Qu’est-ce qu’un graphe ?
    - Les différentes opérations.
    - Créer des graphes.
    - Transformations de graphes.
    - Présentation de différents algorithmes.

    Déploiement de Flink

    - Flink sur YARN Configurations.
    - Lancement et arrêt d’un cluster.
    - Soumettre un travail à Flink.
    - Flink sur Google Cloud.
    - Flink sur AWS.

    SESSIONS PROGRAMMEES 

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE 

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS 

    Spécialiste

    MODALITES PRATIQUES

    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 779,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-198 Hadoop, installation et administration
    Hadoop, installation et administration
    HOD / LI-REQ-198
    OBJECTIFS PEDAGOGIQUES
    La plateforme Apache Hadoop permet de faciliter la création d’applications distribuées. Ce stage vous permettra de comprendre son architecture et vous donnera les connaissances nécessaires pour installer, configurer et administrer un cluster Hadoop. Vous apprendrez également à l’optimiser et le maintenir dans le temps.

    PUBLIC
    Administrateurs de cluster Hadoop, développeurs.
    PRE-REQUIS
    Bonnes connaissances de l’administration Linux. Expérience requise.

    CONTENU

    Présentation du Framework Apache Hadoop
    - Enjeux du Big Data et apports du framework Hadoop.
    - Présentation de l’architecture Hadoop.
    - Description des principaux composants de la plateforme Hadoop.
    - Présentation des distributions principales du marché et des outils complémentaires (Cloudera, MapR, Dataiku…).
    - Avantages/inconvénients de la plateforme.

    Préparations et configuration du cluster Hadoop
    - Principes de fonctionnement de Hadoop Distributed File System (HDFS).
    - Principes de fonctionnement de MapReduce.
    - Design “type” du cluster.
    - Critères de choix du matériel.

    Installation d’une plateforme Hadoop
    - Type de déploiement.
    - Installation d’Hadoop.
    - Installation d’autres composants (Hive, Pig, HBase, Flume…).

    Gestion d’un cluster Hadoop
    - Gestion des nœuds du cluster Hadoop.
    - Les TaskTracker, JobTracker pour MapReduce.
    - Gestion des tâches via les schedulers.
    - Gestion des logs.
    - Utiliser un manager.

    Gestion des données dans HDFS
    - Import de données externes (fichiers, bases de données relationnelles) vers HDFS.
    - Manipulation des fichiers HDFS.

    Configuration avancée
    - Gestion des autorisations et de la sécurité.
    - Reprise sur échec d’un name node (MRV1).
    - NameNode high availability (MRV2/YARN).

    Monitoring et optimisation Tuning
    - Monitoring (Ambari, Ganglia…).
    - Benchmarking/profiling d’un cluster.
    - Les outils Apache GridMix, Vaaidya.
    - Choisir la taille des blocs.
    - Autres options de tuning (utilisation de la compression, configuration mémoire…).

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Hadoop

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 226,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-197 Elasticsearch, administration et exploitation
    Elasticsearch, administration et exploitation
    ELA / LI-REQ-197
    OBJECTIFS PEDAGOGIQUES
    Elasticsearch est un moteur de recherche et d’indexation de données proposant des fonctionnalités de recherche et d’analyse innovantes. Ce stage vous apprendra les principes clés de recherche de données et les possibilités offertes par Elasticsearch et à installer, à configurer et à administrer Elasticsearch.

    PUBLIC
    CTO, COO, chefs de projets techniques, responsables d’applications, responsables des opérations, administrateurs techniques.
    PRE-REQUIS
    Connaissances de base en développement. Connaissances de base en administration du système d’exploitation Windows ou Linux/Unix.

    CONTENU

    Installation et utilisation d’Elasticsearch, logstash et Kibana
    - Développement d’applications utilisant Elasticsearch.
    - Impact sur le design d’applications existantes.
    - Prérequis et types d’installations.
    - Configuration et mise en œuvre.

    Fonctionnement d’Elasticsearch
    - Présentation d’Apache Lucene.
    - Architecture as a Cloud et concepts clés (cluster, node, etc.).
    - Le format JSON. L’API REST.
    - Scoring et pertinence des requêtes.
    - Recherches simples.
    - Stockage de données.
    - Le rôle de logstash et de Kibana.

    Possibilités offertes par Elasticsearch logstash et Kibana
    - Traitement de gros volumes de requêtes et d’indexation.
    - Indexation et recherches sur les documents et des données.
    - Analyse de documents et de données.
    - Calcul des listes de réponses.
    - Filtrage et tri des résultats.
    - Suggestion de requêtes.

    Configuration de la recherche et de l’indexation
    - Gros volumes de requêtes et d’indexation.
    - L’indexation des données.
    - Les requêtes de recherche.
    - Les recherches avancées.
    - La percolation.

    Configuration et administration du cluster
    - Configuration du cluster Elasticsearch.
    - Préparation du cluster Elasticsearch pour le traitement des gros volumes.
    - Configuration des nodes.
    - Gestion des templates.
    - Administration du cluster Elasticsearch.

    Administration du cluster
    - Surveillance du cluster.
    - La répartition de charge.
    - L’allocation des nodes.
    - Alias d’index. Plug-ins Elasticsearch.
    - Propriétés “Transient” et “Persistent”.
    - Principes de la sauvegarde et la restauration.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Elasticsearch

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 779,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-196 ElasticSearch, Logstash et Kibana : indexation, recherche et visualisation de données
    ElasticSearch, Logstash et Kibana : indexation, recherche et visualisation de données
    ELK / LI-REQ-196
    OBJECTIFS PEDAGOGIQUES
    Elasticsearch est un moteur de recherche et d’indexation de données proposant des fonctionnalités de recherche et d’analyse innovantes. Vous le mettrez en œuvre dans ce cours pour indexer, chercher et visualiser des données et des documents et découvrirez les principales approches de développement associées.

    PUBLIC
    CTO, chefs de projets techniques, responsables d’applications, responsables des opérations.
    PRE-REQUIS
    Connaissances de base en développement et en administration du système d’exploitation Windows ou Linux/Unix.

    CONTENU

    Présentation et installation d’Elasticsearch, logstash et Kibana
    - Présentation et histoire d’Elasticsearch, logstash et Kibana.
    - Les prérequis d’installation. Installation type “as a Cloud”.
    - La mise en œuvre d’Elasticsearch, logstash et Kibana.
    - La configuration d’Elasticsearch.
    - Les principes clés l’administration d’Elasticsearch.
    - Le développement d’applications en utilisant Elasticsearch.
    - L’impact d’Elasticsearch sur l’architecture et les applications existantes.
    - Rôles de logstash et de Kibana.

    Fonctionnement d’Elasticsearch
    - Présentation d’Apache Lucene.
    - L’architecture et les concepts clés.
    - Le format d’échange JSON par Service Container.
    - L’API REST.
    - Le scoring et la pertinence de requêtes.
    - Le stockage de données et la recherche simple.

    Possibilités offertes par Elasticsearch
    - L’indexation des documents et des données.
    - La recherche sur les documents et les données.
    - L’analyse de documents et de données.
    - Le calcul des listes de réponses.
    - Le filtrage et le tri des résultats.
    - Les suggestions de requêtes.
    - Le surlignage des résultats.

    Indexer, chercher et visualiser des données et des documents
    - Comment donner un sens aux données avec Elasticsearch et Kibana.
    - Démarche d’amélioration de l’indexation des données.
    - Démarche d’amélioration des requêtes de recherche.
    - La pertinence géographique des recherches.
    - La percolation.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Elasticsearch

    MODALITES PRATIQUES
    Durée : 2 jours soit 14 heures avec 7 heures par jour
    Prix stagiaire : 1 457,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-192 Technique de Big Data Analytics avec Python, modélisation et représentation des données
    Technique de Big Data Analytics avec Python, modélisation et représentation des données
    BDA / LI-REQ-192
    OBJECTIFS PEDAGOGIQUES
    Le Big Bata Analytics repose sur la maîtrise des techniques d’exploration de données fondamentales : statistiques descriptives, prédictives ou exploratoires. Ce stage pratique vous présentera des méthodes telles que les régressions et les ACP et vous apprendra à les mettre en œuvre avec le logiciel Python.

    PUBLIC
    Responsables Infocentre (Datamining, Marketing, Qualité…), utilisateurs et gestionnaires métiers de bases de données.
    PRE-REQUIS
    Bonnes connaissances en statistiques de base, ou connaissances équivalentes à celles apportées par le stage “Statistiques, maîtriser les fondamentaux” (Réf. STA).

    CONTENU

    Introduction à la modélisation
    - Introduction au langage Python.
    - Introduction au logiciel Jupiter Notebook.
    - Les étapes de construction d’un modèle.
    - Les algorithmes supervisés et non supervisés.
    - Le choix entre la régression et la classification.

    Procédures d’évaluation de modèles
    - Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
    - Test de représentativité des données d’apprentissage.
    - Mesures de performance des modèles prédictifs.
    - Matrice de confusion, de coût et la courbe ROC et AUC.

    Les algorithmes supervisés
    - Le principe de régression linéaire univariée.
    - La régression multivariée.
    - La régression polynomiale.
    - La régression régularisée.
    - Le Naive Bayes.
    - La régression logistique.

    Les algorithmes non supervisés
    - Le clustering hiérarchique.
    - Le clustering non hiérarchique.
    - Les approches mixtes.

    Analyse en composantes
    - Analyse en Composantes Principales.
    - Analyse Factorielle des Correspondances.
    - Analyse des Correspondances Multiples.
    - Analyse Factorielle pour Données Mixtes.
    - Classification Hiérarchique sur Composantes Principales.

    Analyse de données textuelles
    - Collecte et prétraitement des données textuelles.
    - Extraction d’entités primaires, d’entités nommées et résolution référentielle.
    - Étiquetage grammatical, analyse syntaxique, analyse sémantique.
    - Lemmatisation.
    - Représentation vectorielle des textes.
    - Pondération TF-IDF.
    - Word2Vec.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION
    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 226,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-191 Technique de Big Data Analytics avec R, modélisation et représentation des données
    Technique de Big Data Analytics avec R, modélisation et représentation des données
    DTA / LI-REQ-191
    OBJECTIFS PEDAGOGIQUES
    Le Big Bata Analytics repose sur la maîtrise des techniques d’exploration de données fondamentales : statistiques descriptives, prédictives ou exploratoires. Ce stage pratique vous présentera des méthodes telles que les régressions et les ACP et vous apprendra à les mettre en œuvre avec le logiciel R, RStudio et Shiny.

    PUBLIC
    Responsables Infocentre (Datamining, Marketing, Qualité…), utilisateurs et gestionnaires métiers de bases de données.
    PRE-REQUIS
    Bonnes connaissances en statistiques de base, ou connaissances équivalentes à celles apportées par le stage “Statistiques, maîtriser les fondamentaux” (Réf. STA).

    CONTENU

    Introduction
    - Introduction au langage R.
    - Les types de données dans R.
    - Importation-exportation de données.
    - Techniques pour tracer des courbes et des graphiques.

    Analyse en composantes
    - Analyse en Composantes Principales.
    - Analyse Factorielle des Correspondances.
    - Analyse des Correspondances Multiples.
    - Analyse Factorielle pour Données Mixtes.
    - Classification Hiérarchique sur Composantes Principales.

    La modélisation
    - Les étapes de construction d’un modèle.
    - Les algorithmes supervisés et non supervisés.
    - Le choix entre la régression et la classification.

    Procédures d’évaluation de modèles
    - Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
    - Test de représentativité des données d’apprentissage.
    - Mesures de performance des modèles prédictifs.
    - Matrice de confusion, de coût et la courbe ROC et AUC.

    Les algorithmes non supervisés
    - Le clustering hiérarchique.
    - Le clustering non hiérarchique.
    - Les approches mixtes.

    Les algorithmes supervisés
    - Le principe de régression linéaire univariée.
    - La régression multivariée.
    - La régression polynomiale.
    - La régression régularisée.
    - Le Naive Bayes.
    - La régression logistique.

    Analyse de données textuelles
    - Collecte et prétraitement des données textuelles.
    - Extraction d’entités primaires, d’entités nommées et résolution référentielle.
    - Étiquetage grammatical, analyse syntaxique, analyse sémantique.
    - Lemmatisation. Représentation vectorielle des textes. Pondération TF-IDF.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Big Data

    MODALITES PRATIQUES
    Durée : 4 jours soit 28 heures avec 7 heures par jour
    Prix stagiaire : 2 226,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-186 Microsoft Azure Machine Learning, développer et exploiter des algorithmes sur la plateforme cloud Microsoft
    Microsoft Azure Machine Learning, développer et exploiter des algorithmes sur la plateforme cloud Microsoft
    AZL / LI-REQ-186
    OBJECTIFS PEDAGOGIQUES
    Les algorithmes s’imposent comme l’un des sujets prédominants du Big Data. Ce sont les outils des méthodes exploratoires, explicatives ou prédictives que l’on applique aux données, dans le cadre du Machine Learning. Ce cours vous permettra d’acquérir les compétences nécessaires à l’utilisation d’Azure Machine Learning.

    PUBLIC
    Data Scientists, data miners, statisticiens, développeurs en charge de la mise en production des modèles.
    PRE-REQUIS
    Connaissances de base en statistiques (centrage, dispersion, corrélation, tests d’hypothèses). Des notions de programmation ou d’algorithmique peuvent être utiles.

    CONTENU

    Prise en main de l’interface Azure Machine Learning
    - Découvrir l’ensemble de l’offre Azure et son mode de facturation à l’usage.
    - Présentation du mode de facturation à l’usage de l’offre Azure.
    - Prise en main de l’interface Machine Learning Studio.
    - Créer un jeu de données (dataset) à partir d’un fichier local ou se connecter à une source de données.
    - Construire une nouvelle expérience de Machine Learning.
    - Définir un Web Service prédictif.
    - Proposer ses algorithmes sur le Marketplace.

    Créer une expérience de Machine Learning
    - Utiliser l’arbre de choix des algorithmes.
    - Détecter les valeurs aberrantes.
    - Choisir les variables de l’algorithme (features sélection).
    - Initialiser le modèle, entraîner le modèle, évaluer le modèle.
    - Évaluer différents algorithmes à l’aide de la courbe ROC.

    Savoir paramétrer les grandes familles d’algorithmes
    - Paramétrer les algorithmes de clustering (approche non supervisée).
    - Paramétrer les algorithmes de régression linéaire.
    - Paramétrer les algorithmes de régression logistique ou ordinale.
    - Paramétrer les algorithmes de classification (approche supervisée) : arbres, forêts, jungles d’arbres de décision.
    - Expérimenter les méthodes complexes : réseaux de neurones, machines à vecteurs de support.
    - Utiliser des packages R et Python.

    Traiter d’autres types de données
    - Convertir le texte en mesures numériques.
    - Appliquer un algorithme Vowpal Wabbit (online learning).
    - Réaliser une analyse de données textuelles avec les packages R dédiés.
    - Découvrir la procédure de configuration Import Images.

    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation en fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste Machine Learning

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 779,00 € TTC
    Horaires : 09h00 – 17h30

    ( )
  • LI-REQ-179 Power BI, concevoir des tableaux de bord
    Power BI, concevoir des tableaux de bord
    PBI / LI-REQ-179
    OBJECTIFS PEDAGOGIQUES
    Power BI, la solution de data visualisation de Microsoft permet de créer des tableaux de bord, riches et interactifs, grâce aux multiples éléments graphiques qu’elle propose. Ce stage vous familiarisera avec son environnement et vous permettra de manipuler des données, de créer vos rapports et de les publier.
    A l’issue de la formation vous serez capable de :
    - Interroger et associer des sources de données hétérogènes
    - Concevoir des mesures avec le langage DAX
    - Utiliser des éléments visuels pour concevoir des tableaux de bord

    PUBLIC
    Toutes personnes souhaitant consolider des informations provenant d’Excel, de bases de données ou d’autres sources, afin de concevoir des tableaux de bord graphiques et interactifs.
    PRE-REQUIS
    Usage courant d’un tableur, des notions sur les bases de données sont souhaitables.

    CONTENU

    Introduction
    - Présentation de l’offre BI Microsoft.
    - La Suite Power BI : Power BI Desktop, le service Power BI et les applications Power BI Mobile.

    Obtenir les données
    - Extraire, transformer et charger des données dans Power BI.
    - Utiliser des fichiers plats, Excel, bases de données relationnelles, sources SSAS, Web.
    - Choisir les colonnes, choisir les lignes, filtrer, trier et supprimer les doublons.

    Travaux pratiques
    Créer des connexions pour importer des données depuis des sources variées.

    Transformer les données
    - Nettoyer et compléter les jeux de données.
    - Fractionner les colonnes, formater les colonnes et définir le type de données, assembler et fusionner des tables.
    - Créer des colonnes calculées. Empiler et fusionner des requêtes.

    Travaux pratiques
    Manipulation de données pour reformater et modifier les types de données.

    Définir le modèle de données
    - Utiliser la vue Diagramme pour définir des relations entre les tables.
    - Concevoir des mesures avec les fonctions statistiques.
    - Fonctions DAX pour concevoir des mesures élaborées : CALCULATE, ALL, ALLEXCEPT, FILTER, RANKX etc.
    - Utiliser les fonctions DAX Time Intelligence.

    Travaux pratiques
    Créer un modèle de données. Réaliser des mesures statistiques.

    Conception de rapport Power BI
    - Création de rapports, pages, tableaux de bord.
    - Afficher des données : Table, Matrice, Carte.
    - Exploiter les paramètres de données et de formatage.
    - Insérer des éléments visuels. Exploiter les visualisations cartographiques.
    - Importer des éléments visuels (.pbviz) depuis la galerie : jauges, images etc.
    - Ajouter des outils de filtrage, des segments, des KPI. Mise en page pour écran ou smartphone.

    Travaux pratiques
    Mettre en page un rapport. Mettre en forme les données. Concevoir un tableau de bord visuel et interactif.

    Le service Power BI online
    - Présentation des fonctionnalités du service Power BI, stockage, présentation, partage.
    - Épingler les visualisations dans un tableau de bord.
    - Conception de rapport avec le service Power BI.
    - Quels jeux de données dans Power BI ?

    Travaux pratiques
    Consulter, exploiter et partager les rapports publiés. Concevoir un rapport en ligne.

     
    SESSIONS PROGRAMMEES

     

    Accès au calendrier

    VALIDATION

    Evaluation de fin de session

    PEDAGOGIE
    Alternance d’exposés et de travaux pratiques
    INTERVENANTS
    Spécialiste PowerBi

    MODALITES PRATIQUES
    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 779,00 € TTC
    Horaires : 9h – 17h30

    ( )
  • LI-REQ-129 Oracle SQL pour le décisionnel
    Oracle SQL pour le décisionnel
    ROD / LI-REQ-129

    OBJECTIFS PEDAGOGIQUES

    Un cours intensif pour acquérir toutes les compétences nécessaires à l’utilisation des fonctionnalités décisionnelles du SQL d’Oracle.

    PUBLIC

    PRE-REQUIS

    Ce stage s’adresse aux développeurs d’applications décisionnelles sous Oracle désireux d’utiliser tout le potentiel SQL d’Oracle. Bonnes connaissances du langage SQL.

    CONTENU

    Introduction

     

    - Informatique décisionnelle. Etat de la norme SQL. Norme SQL3 et décisionnel.
    - Rappels des concepts liés à un Datawarehouse. Notions de CUBE. Concept OLAP. Analyse multidimensionnelle.
    - Modélisation en étoile et constellation. Notions de dimension. Notion de table de fait.

    Etude de cas
    Présentation : le modèle, les problématiques.
     
    Groupements des données

    - Fonctions horizontales. Fonctions verticales. Fonctions d’agrégat.
    - Le groupe. Rappels : fonctionnement du GROUP BY, fonctionnement du HAVING.
    - Fonctions GROUPING. Syntaxe. Exemples. Gestion des valeurs NULL.
    - Le groupe à deux niveaux.

    Travaux pratiques
    Manipulation de la syntaxe et des fonctionnalités de groupements.
     
    Agrégation et analyse des données

    - Extensions ROLLUP et CUBE. Expression de GROUPING SET.
    - Fonctions de groupes. Fonctions analytiques. La clause de partitionnement.
    - La clause d’ordre. La clause de fenêtrage. Fonctions de classement.
    - Ordonner les tris. Fonction de classement. Fonctions de fenêtres.

    Travaux pratiques
    Manipulation de la syntaxe et des fonctionnalités d’agrégation.
     
    La clause MODEL

    - La mise en oeuvre. La fonction CV.
    - La fonction ITERATION_NUMBER. La fonction PRESENTNNV.
    - La fonction PRESENTV. La fonction PREVIOUS.

    Travaux pratiques
    Manipulation de la syntaxe de la clause MODEL
     
    Mise à jour des données

    - Insertion multi tables. Insertion sans condition.
    - INSERT_ALL, INSERT_FIRST. Mises à jour conditionnées.

    Travaux pratiques
    Alimentation du modèle en étoile.
     
    Objets

    - Les ETL (Extraction, Transformation, Chargement).
    - Interrogation de tables externes. Vues du dictionnaire de données.
    - Vues Matérialisées (VM). Intérêt. Syntaxe de création. Options.
    - Vues Matérialisées et l’optimisation. Réécriture de requêtes. Dimensions et hiérarchies.

    Travaux pratiques
    Utilisation des tables externes pour le déplacement des données. Création des vues matérialisées pour optimiser les requêtes.

    SESSIONS PROGRAMMEES

    Accès au calendrier

    VALIDATION

    Evaluation de fin de stage

    PEDAGOGIE

    Alternance d’exposés et de travaux pratiques

    INTERVENANTS

    Spécialiste Oracle SQL

    MODALITES PRATIQUES

    Durée : 3 jours soit 21 heures avec 7 heures par jour
    Prix stagiaire : 1 752,00 € TTC
    Horaires : 9h – 17h30

    ( )