Comprendre les concepts et les enjeux du Big Data
Origines et définition du Big Data.
Les chiffres clés du marché dans le monde et en France.
Les enjeux du Big Data : ROI, organisation, confidentialité des données.
Un exemple d’architecture Big Data.
Les technologies du Big Data
Description de l’architecture et des composants de la plateforme Hadoop.
Les modes de stockage (NoSQL, HDFS).
Principes de fonctionnement de MapReduce, Spark, Storm…
Principales distributions du marché (Hortonworks, Cloudera, MapR, Elastic Map Reduce, Biginsights).
Installer une plateforme Hadoop.
Les technologies du datascientist.
Présentation des technologies spécifiques pour le Big Data (Tableau, Talend, Qlikview …).
Travaux pratiques
Installation d’une plateforme Big Data Hadoop (via Cloudera QuickStart ou autre).
Gérer les données structurées et non structurées
Principes de fonctionnement de Hadoop Distributed File System (HDFS).
Importer des données externes vers HDFS.
Réaliser des requêtes SQL avec HIVE.
Utiliser PIG pour traiter la donnée.
Le principe des ETL (Talend…).
Gestion de streaming de données massive (NIFI, Kafka, Spark, Storm…)
Travaux pratiques
Implémentation de flux de données massives.
L’univers NoSQL
Le théorème CAP
NoSQL
Les entrepôts clévaleur
Les bases orientées documents
Les bases orientées colonnes
Le déluge des données
La diversité des sources
La diversité des formats
Travaux pratiques
Mise en place une base de données NoSQL.
Technique et méthodes Big data analytics
Machine Learning, une composante de l’intelligence artificielle.
Découvrir les trois familles : Régression, Classification et Clustering.
La préparation des données (data preparation, feature engineering).
Générer des modèles en R ou Python.
Ensemble Learning.
Découvrir les outils du marché : Jupyter Notebook, Dataïku, DataBricks, Amazon Machine Learning…
Travaux pratiques
Mise en place d’analyses avec une des outils étudiés.
Data visualisation et cas d’usage concrets
Définir le besoin de la data visualisation.
Analyse et visualisation des données.
Peut concerner tous les types de données dans la DataViz ?
Les outils DataViz du marché.
Travaux pratiques
Installation et utilisation d’un outil de Data Visualisation pour constituer des analyses dynamiques.
Conclusion
Ce qu’il faut retenir.
Synthèse des bonnes pratiques.
Bibliographie.