Identification de la formation
Code de formation: 
8038
Domaine - Formacode: 
information scientifique et technique

Enjeux

Dans certaines disciplines, en une dizaine d’années, le volume de données à traiter s’est considérablement massifié. Ainsi, ce qui était l’apanage de projets de recherche bénéficiant de financements importants est devenu le quotidien des chercheurs et spécialistes du traitement des données.

Le machine learning, qui est un sous-ensemble de l’intelligence artificielle (tout machine learning relève de l’IA mais l’inverse n’est pas vrai !), offre aux experts en données des potentialités importantes : la possibilité de prédire des valeurs comme des appartenances en se fondant sur un critère donné (apprentissage supervisé) ; classer des individus sans critères préalables (apprentissage non supervisé), déterminer des groupes a posteriori ; apprendre par l’expérience à partir d’une stratégie comportementale (apprentissage par renforcement). Par machine learning, selon Jakobowicz, il faut entendre une “[...] utilisation des données pour que la machine apprenne et construise des modèles qui pourront être appliqués sur de nouvelles données” (Jakobowicz 2018).

Pourquoi passer au machine learning? (et pourquoi le faire sous Python?)

S’il existe de très nombreux langages, dans le domaine de l’analyse de données se pose assez rapidement la question : R ou Python? Il s’avère que Python est le langage le plus adapté pour faire du machine learning. Certes, toutes les méthodes sont présentes dans R et [le package caret (Classification And REgression Training)](http://topepo.github.io/caret/index.html)permet d’en tirer le maximum. Mais la bibliothèque Python Scikit-Learn présente un degré d’aboutissement avec lequel il est actuellement difficile de rivaliser ; cf. (Buitinck et al. 2013) (Pedregosa et al. 2011). Par ailleurs, il faut également citer l’environnement open source [Tensorflow](https://www.tensorflow.org/), conçu par Google pour traiter des algorithmes basés sur des réseaux neuronaux profonds et doté d’une API Python (Abadi et al. 2016). Tout un écosystème pythonien-friendly est donc à la disposition des data analysts.

Les méthodes de machine learning vont offrir de plus grandes potentialités que la statistique inférentielle dans la mesure on l’on tend à s’éloigner d’un cadre à caractère confirmatoire. Le machine learning va permettre de travailler dans un cadre plus prédictif et exploratoire.

Contenus du stage

Cette initiation au ML mêle apports méthodologiques et TP.

- Introduction : machine learning, deep learning? Quelques rapides rappels terminologiques, explication des différents types/catégories/bases d’apprentissage. Des notions de base sur les statistiques, les neurones, etc. seront rappelées.
- L’apprentissage automatique : principes, enjeux, applications en analyse de données ; types d’apprentissages ; classification, régression
- Traitement des données : enjeux, classes rares, kmeans, entropie de Shannon, etc.
- Sélect

Contenus pédagogiques
Objectifs: 
- Identifier le type d'apprentissage adapté à ses besoins - Développer de bonnes pratiques pour l'application des algorithmes : définir des modalités adaptées de création du modèle ; respecter les hypothèses sous-jacentes ; éviter l'overfitting ; tenir compte du "fléau de la dimension" ; savoir quand automatiser ou non l'application des algorithmes de machine learning Prérequis : notions de base sur la programmation en Python, ou à défaut, une bonne pratique d’un langage de programmation et une connaissance des structures de contrôles et des structures de données. Les notions et les approches seront introduites de manière générale mais des cas d’utilisation divers seront considérés. Les TPs se feront sur un environnement Python avec essentiellement la bibliothèque sklearn.
Public visé: 
tout public
Résultats attendus de la formation: 
- Identifier le type d'apprentissage adapté à ses besoins - Développer de bonnes pratiques pour l'application des algorithmes : définir des modalités adaptées de création du modèle ; respecter les hypothèses sous-jacentes ; éviter l'overfitting ; tenir compte du "fléau de la dimension" ; savoir quand automatiser ou non l'application des algorithmes de machine learning Prérequis : notions de base sur la programmation en Python, ou à défaut, une bonne pratique d’un langage de programmation et une connaissance des structures de contrôles et des structures de données. Les notions et les approches seront introduites de manière générale mais des cas d’utilisation divers seront considérés. Les TPs se feront sur un environnement Python avec essentiellement la bibliothèque sklearn.
Modalités d'alternance: 
pas d'alternance
Conditions spécifiques: 
Notions de base sur la programmation en Python, ou à défaut, une bonne pratique d’un langage de programmation et une connaissance des structures de contrôles et des structures de données.
Déroulement du stage
Modalités d'enseignement: 
Formation entièrement présentielle
Durée (heures): 
14 heures
Période de formation: 
Me, 18/12/2019 - Je, 19/12/2019
Inscription
Période d`inscription: 
Me, 18/12/2019 - Ma, 17/12/2019
Prise en charge des frais de formation possible: 
Oui
Contact de l'action de formation: 

URFIST de Bordeaux (4 avenue Denis Diderot 33607 PESSAC)

Nom: 
URFIST de Bordeaux
Adresse: 
4 avenue Denis Diderot
Code postal: 
33607
Ville: 
PESSAC
Téléphone fixe: 
05 56 84 29 19
Fax: 
05 56 84 86 96
Courriel: 
urfist@u-bordeaux.fr
Web: 
weburfist.univ-bordeaux.fr/
Région: 
Aquitaine
Organisme formateur: 
URFIST de Bordeaux
Organisme de formation: 
URFIST de Bordeaux
Domaine - NSF: 
325
Domaine - Rome: 
32214
Niveau à l'entrée en formation: 
Information non communiquée
Niveau à l'entrée en formation obligatoire: 
Non
Formation certifiante: 
Non
Rythme de la formation: 
Temps plein
Modalités d'entrée sortie: 
Entrées / sorties à dates fixes
Langue utilisée lors de la formation: 
Français