Introduction au Machine Learning
Le Big Data et le Machine Learning.
Les algorithmes d’apprentissage supervisés, non supervisés et par renforcement.
Les étapes de construction d’un modèle prédictif.
Détecter les valeurs aberrantes et traiter les données manquantes.
Comment choisir l’algorithme et les variables de l’algorithme ?
Travaux pratiques
Prise en main de l’environnement R/Python à l’aide de Jupyter Notebook. Visualiser plusieurs exemples de modèles fournis.
Procédures d’évaluation de modèles
Les techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test.
Test de représentativité des données d’apprentissage.
Les techniques de bootstrap
La validation croisée
Définition d’une métrique de performance.
Mesures de performance des modèles prédictifs.
Matrice de confusion, de coût et la courbe ROC et AUC.
Travaux pratiques
Evaluation et comparaison des différents algorithmes sur les modèles fournis.
Les algorithmes non supervisés
Le clustering hiérarchique.
Le clustering non hiérarchique.
Les approches mixtes.
Le clustering par mesure de densité DBSCAN
Autres approches du Clustering
Travaux pratiques
Traitements de clustering non supervisés sur plusieurs jeux de données.
Les algorithmes supervisés régressions
Le principe de régression linéaire univariée.
La régression multivariée.
La régression polynomiale.
La régression régularisée.
Réseaux de neurones.
Travaux pratiques
Mise en œuvre des régressions sur plusieurs types de données.
Les algorithmes supervisés classifications
Le Naive Bayes.
La régression logistique.
Les arbres de décision
Machines à vecteurs supports et méthodes à noyaux.
Quantification vectorielle.
Travaux pratiques
Mise en œuvre des classifications sur plusieurs types de données.
Les algorithmes ensemblistes
L’ensemble de méthodes bagging
Ramdom Forest.
Les méthodes de Boosting.
L’assemblage de plusieurs modèles.
Travaux pratiques
Mise en œuvre des analyses avec un assemblage des algorithmes.
Machine Learning en production
Le cycle de vie d’un projet de machine Learning.
Les spécificités liées au développement d’un modèle en environnement distribué.
Les outils du marché pour le traitement de la donnée.
Le déploiement Big Data avec Spark et la MLlib.
Le Cloud : DataBrics, Dataiku, DataDog, Amazon, Microsoft Azure ML, IBM Watson…
La maintenance du modèle.
Travaux pratiques
Mise en production d’un modèle prédictif avec l’intégration dans des processus de batch et dans des flux de traitements.