Sources de donnees
SIRENE (INSEE)
Base officielle des entreprises francaises. Filtrage par codes NAF 86.90F (Activites de sante humaine non classees ailleurs) et 96.09Z (Autres services personnels).
Annuaires professionnels
Scraping de Resalib et d'autres annuaires specialises en medecines douces. Profils valides par presence d'un numero de telephone ou site web.
Google Maps (SERP)
Interrogation des resultats Google Maps pour decouvrir des praticiens absents des bases officielles. Notes et nombre d'avis integres.
Pipeline en 5 etapes
Collecte
Ingestion des bases SIRENE (INSEE), scraping d'annuaires professionnels (Resalib, Pages Jaunes), et interrogation de Google Maps via l'API SERP.
~123 000 entites NAF 86.90F + 262 000 NAF 96.09Z, 21 000 profils annuaires, ~25 000 fiches Google Maps.
Filtrage & nettoyage
Elimination des doublons evidents (SIRET identiques), des entites radiees, et des faux positifs (estheticiennes, salles de sport, etc.) par filtrage NAF + mots-cles.
Regle : tout praticien doit avoir au moins un signal actif (site web, fiche Google, ou inscription annuaire datant de moins de 3 ans).
Deduplication
Trois passes de deduplication : (1) SIRET exact, (2) SIREN + ville, (3) correspondance floue nom + ville avec seuil de similarite a 85 %.
La deduplication reduit le volume brut de ~40 %, en fusionnant les fiches provenant de sources differentes pour un meme praticien.
Classification
Attribution de la discipline (ou des disciplines) a chaque praticien par analyse du titre, de la description, du NAF secondaire, et du contenu du site web via LLM.
65 disciplines reconnues. Les praticiens multi-disciplines sont comptabilises dans chaque discipline concernee.
Enrichissement
Extraction des tarifs, formations, ecoles, metiers d'origine, certifications, modes de paiement, horaires, et score de maturite digitale a partir des sites web scrapes.
Modeles utilises : Gemini 2.0 Flash pour l'extraction structuree, algorithmes proprietaires pour le score digital (0-6).
Estimation des tarifs
Les tarifs sont extraits des sites web des praticiens par un modele de langage (LLM) qui identifie les grilles tarifaires, les fourchettes de prix et les durees de seance.
- •Seules les seances individuelles standards (45-90 min) sont retenues pour le calcul median.
- •Les tarifs de groupe, forfaits et seances a domicile sont exclus de la mediane.
- •Les praticiens affichant une fourchette (ex: 50-70 €) sont comptabilises avec min et max.
Biais identifies
Tout recensement comporte des limites. Nous listons ici les biais connus afin que les lecteurs puissent interpreter les chiffres en connaissance de cause.
Biais de selection
Seuls les praticiens disposant d'une presence en ligne (site web, fiche Google, inscription annuaire) sont recenses. Les praticiens exercant exclusivement par le bouche-a-oreille ne sont pas captures.
Biais declaratif
Les tarifs et informations de pratique proviennent des sites web des praticiens et peuvent ne pas refleter la realite actuelle (tarifs non mis a jour, etc.).
Reconversion sous-estimee
Le taux de reconversion est calcule a partir des mentions explicites sur les sites web. Les praticiens ne mentionnant pas leur parcours anterieur ne sont pas comptabilises.
Genre infere
Le genre est determine par analyse du prenom. Les prenoms epicenes ou non-binaires sont classes en "indetermine" et exclus des statistiques genrees.
Biais de survivance
Les praticiens ayant cesse leur activite sans radier leur SIRET peuvent rester comptabilises. Le filtre de 3 ans d'activite recente attenue ce biais sans l'eliminer.