En 2026, le débat n’est plus “est-ce qu’on peut scraper ?”
Le débat, c’est : est-ce qu’on peut scaler le scraping + l’enrichissement sans se mettre une bombe RGPD dans le CRM.
Parce que la vérité côté growth est simple :
- tu veux plus de leads, donc tu veux plus de data,
- plus de data = plus de chances de toucher de la donnée personnelle,
- et une stack qui tourne “à l’arrache” finit toujours par exploser (base douteuse, oppositions mal gérées, import qui réinjecte du “toxic”, etc.)
Pourquoi le RGPD s’applique ?
“Donnée entreprise” ≠ “pas RGPD”
Le mythe : “On prospecte des boîtes, donc le RGPD ne nous concerne pas.”
La réalité : tu prospectes des humains dans des boîtes.
Dès que ta base contient :
- un nom / prénom,
- un poste,
- un email pro nominatif (prénom.nom@…),
- un numéro direct, un profil, etc.,
Tu traites de la donnée personnelle. Et tu peux être 100% B2B dans l’intention, le RGPD s’applique quand même sur le traitement.
Ce qui te met vraiment en risque
Le scraping, c’est juste un robinet. Le risque vient de comment tu construis le système. Les 3 patterns qui font sauter les équipes growth :
- Collecte “buffet à volonté” : Tu prends tout ce que tu peux, “on verra plus tard”. Mauvais move. En 2026, tu dois faire l’inverse : définir la finalité, l’ICP, les champs nécessaires… puis collecter uniquement ça.
- Opacité totale sur la provenance : Quand quelqu’un demande “D’où vient mon email ?”, tu ne peux pas répondre, ou tu réponds “c’est public”. Ça ne tient pas. “Public” ≠ “réutilisable sans cadre”.
- Opposition non propagée dans la stack : La personne dit stop. Tu la supprimes du CRM… puis ton enrichisseur la remet, ton outil d’outbound la resync, ou un export la réimporte. Résultat : tu recontactes quelqu’un qui s’est opposé. C’est exactement le genre de bug qui transforme un petit risque en gros problème.
Ce qui “change” en 2026 pour le RGPD
Le RGPD ne “change” pas comme un algorithme Google, mais les attentes, elles, montent. Et surtout : plus tu industrialises, plus tu dois industrialiser la conformité.
1) L’intérêt légitime : tu dois le mériter
En B2B, beaucoup s’appuient sur l’intérêt légitime. OK. Mais en 2026, “on est en B2B” n’est plus un argument. Ce que tu dois pouvoir démontrer :
- Ton intérêt est réel (prospection / développement commercial),
- Le traitement est nécessaire (tu ne collectes pas 18 champs pour envoyer 1 email),
- L’impact est maîtrisé (garanties : minimisation, info claire, opposition simple, durées, sécurité, etc.).
2) Transparence : pas une page planquée, une exécution
La transparence, ce n’est pas publier une “Privacy Policy” énorme et oublier. C’est être capable d’exécuter :
- Expliquer les catégories de sources (pas forcément chaque URL, mais le type de sources),
- Expliquer la finalité (prospection / qualification / enrichissement CRM),
- Et rendre l’opposition simple + traçable.
En 2026, la transparence devient une brique opérationnelle. Si ta stack ne peut pas la suivre, tu n’es pas “conforme”, tu es “théorique”.
3) Minimisation : le cheat code qui protège
Le move le plus intelligent n’est pas de collecter plus “discrètement”. C’est de collecter moins, mieux.
Une base solide, ce n’est pas “une base riche”. C’est une base :
- Ultra alignée sur un ICP,
- Avec quelques champs qui servent vraiment (et pas du décor),
- Et des règles de maintien (purge, refresh, exclusions).
Quelle “solution RGPD” selon ton cas d’usage ?
Avant de parler d’outils, parle de risque. Tu veux une grille simple qui décide : “OK”, “OK avec garde-fous”, ou “non/zone rouge”.
Axe 1 — La source
- Sites corporate / annuaires pro : souvent exploitable si tu restes job-related + minimisation + transparence.
- Open data / registres : généralement plus robuste, mais attention : open ≠ libre de faire n’importe quoi (et tu peux quand même identifier des personnes).
- Fournisseurs de data : c’est soit clean, soit toxique. Tout dépend de la provenance prouvable + rôle contractuel + gestion des droits.
- Plateformes avec login / réseaux sociaux : risque plus élevé (contractuel + privacy). Même si tu ignores les ToS, l’attente “raisonnable” de la personne n’est pas la même.
Axe 2 — Le type de données
- Firmographique (entreprise) : faible risque.
- Contact nominatif (personne) : RGPD plein.
- Sensible : par défaut, tu dois l’exclure (et le prévoir en filtrage).
Si ton scraping est capable de “ramasser” des infos perso non pertinentes (bios, vie privée, trucs hors pro), tu dois builder des garde-fous : parsers stricts, champs whitelistés, exclusions de pages, etc.
Axe 3 — La finalité
Prospection, enrichissement CRM, scoring, automatisation/IA… plus la finalité est large, plus tu t’exposes.
La bonne approche en 2026 : une finalité claire par pipeline. Et si tu veux plusieurs usages : séparation + gouvernance. Sinon, tu finis avec une base “fourre-tout” impossible à justifier.
Axe 4 — La base légale
Si tu relies ton système à l’intérêt légitime, pose-toi ces questions :
- Est-ce que la personne peut raisonnablement s’attendre à être contactée dans un contexte pro ?
- Est-ce que mon message est cohérent avec son rôle (job-related, pas random) ?
- Est-ce que l’opposition est simple et respectée partout ?
- Est-ce que je peux expliquer “pourquoi moi” et “pourquoi maintenant” ?
Si tu hésites, ce n’est pas forcément “illégal”. Mais c’est un workflow fragile. Et un workflow fragile, à l’échelle, finit toujours par te coûter plus cher que ce qu’il rapporte.
Le framework “privacy-by-design” : 7 briques pour scraper + enrichir sans te faire allumer
L’objectif n’est pas d’être “parfait”. L’objectif, c’est d’avoir un système défendable : clair, minimisé, traçable, et qui respecte l’opposition.
1) Cadrage
Avant de collecter, tu fixes :
- Ton ICP (qui tu cibles, pourquoi),
- Les champs strictement nécessaires (souvent : entreprise, rôle, email pro, 1–2 signaux de fit)
- Ce que tu interdis (données sensibles, perso non utile, champs “bio” inutiles).
Si tu ne peux pas justifier un champ par une action (ciblage, personnalisation, routing), tu ne le collectes pas.
2) Documentation minimale
Tu dois pouvoir sortir, en cas de besoin :
- Un registre “prospection / enrichment CRM” (même simple),
- Une LIA (intérêt légitime) : intérêt → nécessité → balance,
- Une liste des catégories de sources autorisées (pas besoin de 500 URLs, mais “types de sources”).
C’est ce qui transforme “on fait du growth” en “on a un process”.
3) Collecte propre
Ton scraping doit être conçu pour éviter de ramasser n’importe quoi :
- whitelist des champs (pas de texte libre qui capte du perso),
- exclusions (pages perso, contenus non pro),
- contrôle qualité : ce qui ne matche pas tes règles part en quarantaine.
Le meilleur scraping RGPD, c’est celui qui collecte moins, mais mieux.
4) Enrichissement
La règle RGPD simple :
- tu sais d’où viennent les données enrichies (au moins par catégorie),
- tu contrôles où ça va (CRM, outils outbound, exports),
- et tu peux supprimer / exclure partout.
Si tu ne peux pas propager une exclusion dans toute la stack, tu vas réinfecter ta base.
5) Activation
En outbound B2B, la ligne directrice :
- tu contactes des personnes parce que leur rôle est concerné,
- ton message est aligné avec une finalité pro,
- tu évites l’effet “spray & pray” (qui te met en risque + te flingue la perf).
Si ton targeting est flou, ta justification “intérêt légitime” devient floue.
6) Gestion des droits
Le point non négociable : quand quelqu’un s’oppose, il doit être :
- bloqué dans le CRM,
- bloqué dans l’outil d’outbound,
- bloqué dans les enrichisseurs/sync,
- mis en liste d’exclusion (suppression ou suppression + hash selon ta politique).
Ce n’est pas un détail : c’est souvent là que les équipes se plantent.
7) Rétention
Tu définis des règles simples :
- leads jamais activés → purge après X mois,
- leads non pertinents → suppression,
- oppositions → exclusion durable,
- refresh uniquement sur segments utiles (pas sur tout le monde).
Moins tu gardes longtemps “au cas où”, moins tu portes de risque inutile.
Check-list - 12 questions qui évitent les “listes grises”
Avant d’utiliser un enrichisseur / fournisseur data, tu veux des réponses claires à :
- Origine : quelles catégories de sources ?
- Base légale : sur quoi ils s’appuient ?
- Rôle : sous-traitant ou responsable de traitement ?
- DPA : ok / sous-traitants listés ?
- Hébergement : où (UE ?)
- Transferts hors UE : oui/non, mécanisme
- Traçabilité : logs, preuve d’origine (au moins par catégorie)
- Exactitude : comment ils valident / mettent à jour
- DSAR : comment ils gèrent opposition/effacement
- Suppression : délai réel, propagation
- Sécurité : accès, chiffrement, contrôle
- Réinjection : comment ils évitent de te “réenrichir” un opposant
Si un prestataire est flou sur 2–3 points : warning. S’il est flou sur 6 : next.
FAQ SEO (courte, utile)
Le web scraping est-il “légal” en 2026 ?
Ça dépend du système : base légale, minimisation, transparence, gestion des droits, et garanties adaptées. “C’est public” ne suffit pas.
Peut-on scraper LinkedIn ?
C’est une zone risquée, surtout parce que tu mixes privacy + contraintes contractuelles + attentes des utilisateurs. Si ton go-to-market dépend de ça, prévois des alternatives et un cadrage strict.
L’intérêt légitime suffit pour la prospection B2B ?
Souvent oui en pratique, mais tu dois pouvoir le défendre : ciblage pertinent, minimisation, info claire, opposition simple, rétention limitée.
Combien de temps garder une base de prospection ?
Le principe : pas “indéfiniment”. Tu fixes une durée cohérente avec ton cycle de vente + tu purges ce qui n’est plus utile.
Conclusion
En 2026, la meilleure “solution RGPD” pour scraping + enrichissement, c’est un workflow :
- tu collectes moins (mais mieux),
- tu sais d’où ça vient,
- tu sais où ça va,
- et tu peux couper quelqu’un définitivement partout.
C’est ça qui te permet de scaler l’outbound sans te retrouver avec une base toxique, des oppositions qui reviennent, et une machine qui casse dès que tu augmentes le volume.