Passer commande via notre portail client

Partager cet article ...Print this pageEmail this to someoneTweet about this on TwitterShare on FacebookShare on Google+Share on LinkedInPin on PinterestShare on TumblrDigg this
Data Clustering, organiser les données du Big Data
DAU / LI-REQ-195
OBJECTIFS PEDAGOGIQUES
Le clustering de données vise à regrouper, au sein de “données massives”, des données similaires afin d’identifier des connaissances pertinentes et permettre une prise de décision adaptée. Ce cours vous permettra de comprendre les fondamentaux du clustering de données et de les mettre en pratique sur des cas concrets.

PUBLIC
Data analyst, développeurs, chefs de projets ou toutes personnes s’intéressant aux techniques de clustering de données.
PRE-REQUIS
Connaissances de base de la programmation.

CONTENU

Introduction au clustering de données
- Approches supervisées et non supervisées.
- Méthodes floues et strictes.
- Théorie des graphes, différents types de structures de données.
- Calcul de similarité (TF, TF-IDF…).
- Propriétés des jeux de données.

Clustering simple et clustering hiérarchique
- Clustering simple.
- Clusterings hiérarchiques et composés.
- Utilité du clustering hiérarchique.
- Présentation du résultat.

Techniques de clustering
- Approches orientées K-means.
- Approches par agglomération.
- Approches basées sur un modèle physique (modèle énergie, ressort…).
- Approches “divisives”.
- Approches par marche aléatoire.
- Algorithmes incrémentaux.

Outils pratiques et algorithmes pour le clustering de données
- K-means simple, Graclus, Cluto.
- Algorithme hiérarchique : Louvain.
- InfoMap, Fast Modularity.
- NCut, approche Girvan Newman…
- Extraction d’arbres couvrants et composition.

Mesures Qualité et Performance
- Introduction à la performance et à la complexité.
- Mesures de qualité.
- Critères : Cut, Perf, Cond, Cov, MQ, Mod, Critère de Dunn…
- Trouver le bon algorithme : technique des diagrammes d’Inselberg.

Clustering de données à partir d’un réseau lexical
- Présentation du jeu de données.
- Analyse des propriétés du réseau.
- Exécution d’algorithmes de clustering.
- Affichage du résultat.
- Calcul de la qualité des partitionnements effectués.

Clustering de documents
- Présentation du jeu de données.
- Analyse des propriétés du réseau.
- Calcul de mesures de similarité.
- Exécution d’algorithmes de clustering.
- Affichage du résultat.
- Calcul de la qualité.

SESSIONS PROGRAMMEES

 

Accès au calendrier

VALIDATION

Evaluation en fin de session

PEDAGOGIE
Alternance d’exposés et de travaux pratiques
INTERVENANTS
Spécialiste Big Data

MODALITES PRATIQUES
Durée : 2 jours soit 14 heures avec 7 heures par jour
Prix stagiaire : 1 457,00 € TTC
Horaires : 09h00 – 17h30

Durée: