Identification de la formation
Code de formation: 
7958
Domaine - Formacode: 
information scientifique et technique

Le Web scraping consiste à automatiser l’extraction de contenus Web. La plupart du temps, les données publiées sur le Web ne sont ni disponibles d’emblée sous des formats exploitables pour réaliser une analyse de données, ni facilement téléchargeables. Le recours à des APIs et des packages (tels que rvest ou rcrawler) permet de tirer parti de données peu, pas ou inhabituellement structurées (par exemple : données JSON, HTML ou XML), pour les traiter ensuite avec toute la palette d’outils R.

L’enjeu de cette formation est d’utiliser R pour collecter des données Web : chiffres, texte, images, etc. Ces données permettent de composer des jeux de données personnalisés à partir de gisements d’information variés. Utiliser R à cette fin permet de gagner du temps dans la récupération des données, et de concevoir des jeux de données adaptés à des besoins d’analyse spécifiques.

Le stage s’adresse à des utilisateurs du langage R. Les autres langages de programmation permettant de faire du Web scraping (Python, par exemple) seront aussi brièvement mentionnés. Enfin, des rappels sur certains langages comme HTML, CSS et JSON sont également prévus au cours du stage.

Le stage s’adresse à tous personnels scientifiques travaillant sous R.

Les bonnes pratiques inhérentes à la collecte et à l’exploitation de données produites par des tiers ne s’inscrivent pas sur le seul plan technique : le stage traitera de questions techniques (récupération de données sans déperdition d’information, data cleaning, etc.), mais aussi des questions éthiques et juridiques qui y sont liées.

Programme

- Qu’est-ce que le Web scraping :
- Web scraping, crawling et parsing : de quoi parle-t-on ?
- Applications et cas d’usage du Web scraping en recherche
- Enjeux juridiques et éthiques du Web scraping

- Rappels sur les langages de représentation de pages Web les plus courants : HTML, CSS, etc.
- Etapes préparatoires : identifier les éléments d’intérêt d’une page HTML
- Prise en main des packages R dédiés au Web scraping : quels packages pour quels besoins ?
- Extraction d’URLs, d’éléments de listes imbriquées, et de tableaux
- Export au format CSV, texte et autres
- Sensibilisation aux aspects juridiques et éthiques du Web scraping
- codes de conduite , fichiers robots.txt et « terms of service »
- repères et taux à respecter pour une pratique raisonnée du Web scraping et des APIs
- statut des données collectées et modalités d’exploitation

À consulter : [Densmore, James. 2017. ‘Ethics in Web Scraping’. Towards Data Science.](https://towardsdatascience.com/ethics-in-web-scraping-b96b18136f01)

Intervenant : chercheur associé au [Médialab](http://www.medialab.sciences-po.fr/) de Sciences Po Paris, François Briatte enseigne à l’Université Catholique de Lille et est rattaché à l’[École européenne des sciences politiques et sociales (ESPOL)](http://espol-lille.eu/). Ses r

Contenus pédagogiques
Objectifs: 
- Automatiser la collecte de données issues du web - Développer de bonnes pratiques de récupération de données Le stage s’adresse aux utilisateurs de R. Il n’est pas adapté à des personnes débutant complètement avec R.
Public visé: 
tout public
Résultats attendus de la formation: 
- Automatiser la collecte de données issues du web - Développer de bonnes pratiques de récupération de données Le stage s’adresse aux utilisateurs de R. Il n’est pas adapté à des personnes débutant complètement avec R.
Modalités d'alternance: 
pas d'alternance
Conditions spécifiques: 
Fonctionnalités de R à maîtriser : Savoir importer un jeu de données/Maîtriser l'environnement R : définir le répertoire courant, charger et installer des packages, etc./Connaître les bases de la syntaxe du langage R/Réaliser quelques graphiques simples
Déroulement du stage
Modalités d'enseignement: 
Formation entièrement présentielle
Durée (heures): 
6 heures
Période de formation: 
Ma, 10/12/2019
Inscription
Période d`inscription: 
Ma, 10/12/2019 - Lu, 09/12/2019
Prise en charge des frais de formation possible: 
Oui
Contact de l'action de formation: 

URFIST de Bordeaux (4 avenue Denis Diderot 33607 PESSAC)

Nom: 
URFIST de Bordeaux
Adresse: 
4 avenue Denis Diderot
Code postal: 
33607
Ville: 
PESSAC
Téléphone fixe: 
05 56 84 29 19
Fax: 
05 56 84 86 96
Courriel: 
urfist@u-bordeaux.fr
Web: 
weburfist.univ-bordeaux.fr/
Région: 
Aquitaine
Organisme formateur: 
URFIST de Bordeaux
Organisme de formation: 
URFIST de Bordeaux
Domaine - NSF: 
325
Domaine - Rome: 
32214
Niveau à l'entrée en formation: 
Information non communiquée
Niveau à l'entrée en formation obligatoire: 
Non
Formation certifiante: 
Non
Rythme de la formation: 
Temps plein
Modalités d'entrée sortie: 
Entrées / sorties à dates fixes
Langue utilisée lors de la formation: 
Français