Identification de la formation
Code de formation: 
8004
Domaine - Formacode: 
information scientifique et technique

Contexte

La classification de variables va permettre de créer des groupes de variables similaires car porteuses de la « même information ». Il s’agit de mieux comprendre les structures sous-jacentes aux données, d’identifier les redondances de variables.

Plusieurs méthodes et outils existent pour opérer ces regroupements ainsi que le rappellent Chavent et ses co-auteurs (Chavent et al. 2012). Or, la multiplicité des stratégies applicables constitue le premier obstacle pour l’utilisateur final, a fortiori s’il n’est pas statisticien : comment identifier la méthode adaptée à ses besoins et à ses compétences?

“A simple and frequently used approach for clustering a set of variables is to calculate the dissimilarities between these variables and to apply a classical cluster analysis method to this dissimilarity matrix” (Chavent et al. 2012).

L’inconvénient de cette approche est qu’il faut calculer d’abord une matrice de dissimilarités.

On peut citer également l’approche VARCLUS, procédure disponible via SAS. Mais faut-il encore disposer d’une licence du logiciel. Par ailleurs, le recours à des logiciels propriétaires entrave la compréhension des processus mis en œuvre ainsi que le soulignent Ince et ses co-auteurs (Ince, Hatton, and Graham-Cumming 2012) :

“We argue that, with some exceptions, anything less than the release of source programs is intolerable for results that depend on computation. The vagaries of hardware, software and natural language will always ensure that exact reproducibility remains uncertain, but withholding code increases the chances that efforts to reproduce results will fail.”

Pourquoi utiliser ClustOfVar ?

ClustOfVar est un package R conçu pour réaliser des clusters (groupes/classes) homogènes de variables à partir de données mixtes, c’est à dire que les individus de l’étude peuvent être décrits par des variables quantitatives (numériques) et/ou par des variables qualitatives (catégorielles).

L’avantage du package ClustOfVar est de permettre également à l’utilisateur d’obtenir des groupes variables contenant aussi bien des quantitatives que qualitatives, chaque groupe de variables étant ensuite décrit par une variable synthétique (quantitative), c’est un score construit à partir des variables de son groupe.

Le package inclut également un méthode de type bootstrap permettant de déterminer le nombre K le plus adapté de clusters. Suite à une classification de variables, l’utilisateur aura alors à sa disposition K scores résumant au mieux les p variables quantitatives et/ou qualitatives initiales, ceci lui permettant de réduire la dimension de son jeu de données afin de faire d’autres analyses statistiques.

Comment fonctionne ClustOfVar? Quels principes sont-ils mis en œuvre ?

“La méthode ClustOfVar [Chavent, Kuentz, Liquet et Saracco, 2012] est une méthode de classification ascendante hiérarchique de variables. Elle maxi

Contenus pédagogiques
Objectifs: 
- Identifier les liens entre les variables et la redondance dans un jeu de données en recourant au package ClustOfVar Le stage s’adresse aux personnes maîtrisant les notions de base en statistique descriptive (et éventuellement avoir des notions de classifications d’individus) et les fonctionnalités de base sous R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console, création de graphiques simples.
Public visé: 
tout public
Résultats attendus de la formation: 
- Identifier les liens entre les variables et la redondance dans un jeu de données en recourant au package ClustOfVar Le stage s’adresse aux personnes maîtrisant les notions de base en statistique descriptive (et éventuellement avoir des notions de classifications d’individus) et les fonctionnalités de base sous R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console, création de graphiques simples.
Modalités d'alternance: 
pas d'alternance
Conditions spécifiques: 
● Maîtriser les notions de base de statistique descriptive (et éventuellement avoir des notions de classifications d’individus). ● Maîtriser les fonctionnalités de base de R : création et manipulation des objets sous R, importation des données, utilisation simple de R en mode console, création de graphiques simples.
Déroulement du stage
Modalités d'enseignement: 
Formation entièrement présentielle
Durée (heures): 
6 heures
Période de formation: 
Me, 13/11/2019
Inscription
Période d`inscription: 
Me, 13/11/2019 - Ma, 12/11/2019
Prise en charge des frais de formation possible: 
Oui
Contact de l'action de formation: 

URFIST de Bordeaux (4 avenue Denis Diderot 33607 PESSAC)

Nom: 
URFIST de Bordeaux
Adresse: 
4 avenue Denis Diderot
Code postal: 
33607
Ville: 
PESSAC
Téléphone fixe: 
05 56 84 29 19
Fax: 
05 56 84 86 96
Courriel: 
urfist@u-bordeaux.fr
Web: 
weburfist.univ-bordeaux.fr/
Région: 
Aquitaine
Organisme formateur: 
URFIST de Bordeaux
Organisme de formation: 
URFIST de Bordeaux
Domaine - NSF: 
325
Domaine - Rome: 
32214
Niveau à l'entrée en formation: 
Information non communiquée
Niveau à l'entrée en formation obligatoire: 
Non
Formation certifiante: 
Non
Rythme de la formation: 
Temps plein
Modalités d'entrée sortie: 
Entrées / sorties à dates fixes
Langue utilisée lors de la formation: 
Français