Aller au contenu
Langage & Développement informatique

Web Scraping – Récolter des données sur le web avec Python

Cette formation de 28 heures permet d’apprendre à collecter automatiquement des données depuis le web en utilisant Python. Les participants apprendront à cibler, extraire, structurer et exploiter des données publiques,…

28h
Intermédiaire
Blended

Description de la formation

Introduction & premiers scrapers

  • Notions essentielles du web : HTML, DOM, HTTP
  • Librairies Python : `requests`, `BeautifulSoup`
  • Scraping d’éléments simples (titres, paragraphes, liens, tableaux)
  • Structuration et stockage basique (CSV, JSON)

Scraping structuré et multipage

  • Utilisation des sélecteurs CSS et XPath
  • Gestion de la pagination (URLs dynamiques, liens « suivant »)
  • Scraping de données tabulaires
  • Stockage dans SQLite

Sites dynamiques et robustesse

  • Scraping de contenu dynamique avec `Selenium`
  • Gestion des délais, exceptions, cookies et headers
  • Navigation avec drivers headless, aléatoire, anti-bot
  • Authentification simple simulée (formulaire, session)

Projet final, éthique & RGPD

  • Projet fil rouge : extraction complète d’un site web
  • Structuration et nettoyage des données (finalisation CSV/SQLite)
  • Bonnes pratiques légales : robots.txt, CGU, RGPD
  • Présentation et documentation du projet

Objectifs pédagogiques

  • Extraire des données structurées depuis des pages HTML avec Python
  • Naviguer sur des sites dynamiques ou paginés pour collecter de l’information
  • Utiliser `requests`, `BeautifulSoup` et `Selenium` pour automatiser la récupération de contenu
  • Structurer, stocker et exploiter les données collectées dans le respect de la réglementation

Programme détaillé

Module 1 Introduction & premiers scrapers
  • Notions essentielles du web : HTML, DOM, HTTP
  • Librairies Python : `requests`, `BeautifulSoup`
  • Scraping d’éléments simples (titres, paragraphes, liens, tableaux)
  • Structuration et stockage basique (CSV, JSON)
Module 2 Scraping structuré et multipage
  • Utilisation des sélecteurs CSS et XPath
  • Gestion de la pagination (URLs dynamiques, liens « suivant »)
  • Scraping de données tabulaires
  • Stockage dans SQLite
Module 3 Sites dynamiques et robustesse
  • Scraping de contenu dynamique avec `Selenium`
  • Gestion des délais, exceptions, cookies et headers
  • Navigation avec drivers headless, aléatoire, anti-bot
  • Authentification simple simulée (formulaire, session)
Module 4 Projet final, éthique & RGPD
  • Projet fil rouge : extraction complète d’un site web
  • Structuration et nettoyage des données (finalisation CSV/SQLite)
  • Bonnes pratiques légales : robots.txt, CGU, RGPD
  • Présentation et documentation du projet

Prérequis

  • Bases solides en Python (boucles, fonctions, dictionnaires, fichiers).
  • Notions HTML utiles mais non indispensables.

Public visé

  • Développeurs Python, analystes, chargés de veille ou professionnels de la donnée souhaitant automatiser la collecte d’informations web.

Modalités de la formation

  • ⏱ Durée : 28h
  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Intermédiaire
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • 🗓️ Délai d'accès : variable selon le mode de financement, généralement de 11 jours ouvrés à 1 mois après l'inscription. En savoir plus.
  • ♿ Accessibilité : Chaque demande émanant d'une personne en situation de handicap fait l'objet d'une étude de faisabilité et d'adaptation. Contactez notre référent handicap.
🏆
Passage de la certification obligatoire

Cette formation se conclut par le passage d'une certification officielle, indispensable à la validation de votre parcours.

Équipe pédagogique

Nos formations sont animées par des experts reconnus dans leur domaine possédant une expérience sur le terrain significative et des compétences pédagogiques reconnues.

Ressources pédagogiques

  • Support de cours PDF
  • Scripts d’exemples annotés (scraping de base, avancé, dynamique)
  • Fiches mémo (requests, BeautifulSoup, Selenium)
  • Modèle de projet complet commenté

Suivi de l'exécution et évaluation

  • Exercices pratiques à chaque session
  • Évaluation du projet final (fonctionnalité + conformité)
  • Feuille de présence
  • Questionnaire de satisfaction

Accessibilité

Nous accordons une attention particulière à l'accueil des personnes en situation de handicap. Si vous êtes concerné(e) et souhaitez suivre cette formation, nous vous invitons à nous contacter dès que possible. Ensemble, nous étudierons vos besoins spécifiques et mettrons en place les adaptations nécessaires pour garantir votre accès à la formation dans les meilleures conditions.

Fiche mise à jour le 4 mai 2026.