Passer commande via notre portail client

Partager cet article ...Print this pageEmail this to someoneTweet about this on TwitterShare on FacebookShare on Google+Share on LinkedInPin on PinterestShare on TumblrDigg this
Technique de Big Data Analytics avec R, modélisation et représentation des données
DTA / LI-REQ-191
OBJECTIFS PEDAGOGIQUES
Le Big Bata Analytics repose sur la maîtrise des techniques d’exploration de données fondamentales : statistiques descriptives, prédictives ou exploratoires. Ce stage pratique vous présentera des méthodes telles que les régressions et les ACP et vous apprendra à les mettre en œuvre avec le logiciel R, RStudio et Shiny.

PUBLIC
Responsables Infocentre (Datamining, Marketing, Qualité…), utilisateurs et gestionnaires métiers de bases de données.
PRE-REQUIS
Bonnes connaissances en statistiques de base, ou connaissances équivalentes à celles apportées par le stage “Statistiques, maîtriser les fondamentaux” (Réf. STA).

CONTENU

Introduction
- Introduction au langage R.
- Les types de données dans R.
- Importation-exportation de données.
- Techniques pour tracer des courbes et des graphiques.

Analyse en composantes
- Analyse en Composantes Principales.
- Analyse Factorielle des Correspondances.
- Analyse des Correspondances Multiples.
- Analyse Factorielle pour Données Mixtes.
- Classification Hiérarchique sur Composantes Principales.

La modélisation
- Les étapes de construction d’un modèle.
- Les algorithmes supervisés et non supervisés.
- Le choix entre la régression et la classification.

Procédures d’évaluation de modèles
- Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
- Test de représentativité des données d’apprentissage.
- Mesures de performance des modèles prédictifs.
- Matrice de confusion, de coût et la courbe ROC et AUC.

Les algorithmes non supervisés
- Le clustering hiérarchique.
- Le clustering non hiérarchique.
- Les approches mixtes.

Les algorithmes supervisés
- Le principe de régression linéaire univariée.
- La régression multivariée.
- La régression polynomiale.
- La régression régularisée.
- Le Naive Bayes.
- La régression logistique.

Analyse de données textuelles
- Collecte et prétraitement des données textuelles.
- Extraction d’entités primaires, d’entités nommées et résolution référentielle.
- Étiquetage grammatical, analyse syntaxique, analyse sémantique.
- Lemmatisation. Représentation vectorielle des textes. Pondération TF-IDF.

SESSIONS PROGRAMMEES

 

Accès au calendrier

VALIDATION

Evaluation en fin de session

PEDAGOGIE
Alternance d’exposés et de travaux pratiques
INTERVENANTS
Spécialiste Big Data

MODALITES PRATIQUES
Durée : 4 jours soit 28 heures avec 7 heures par jour
Prix stagiaire : 2 226,00 € TTC
Horaires : 09h00 – 17h30

Durée: