Méthodologie — sources, traitements, limites

Toutes les bases de données proposées sous /pro/donnees/ reposent exclusivement sur des sources publiques officielles. Cette page documente, pour chaque jeu de données : les sources d'origine, les traitements appliqués, les garde-fous qualité, et les limites connues.

L'objectif est la transparence totale sur ce que nous faisons, ce que nous ne faisons pas, et pourquoi.

Sources d'origine

Toutes les sources sont issues de portails publics français ou européens, sous licences ouvertes (Licence Ouverte 2.0 ou équivalent).

SourceProducteurContenu utiliséMAJ
SIRENE INSEE Référentiel d'entreprises et établissements (SIREN, SIRET, NAF, catégorie d'entreprise, statut de diffusion). Quotidienne
Recherche-entreprises DINUM (data.gouv.fr) API agrégée SIRENE + RNE + flags business (Qualiopi, RGE, ESS, FINESS, etc.) + dirigeants + finances déclarées. Quotidienne
BODACC DILA Annonces légales (créations, RJ/LJ, cessions, dépôts de comptes). Quotidienne
DECP Direction des achats de l'État Marchés publics consolidés (titulaires, montants, acheteurs, dates). Quasi-quotidienne
FILOSOFI INSEE Revenus disponibles localisés à la commune (médiane, déciles, taux de pauvreté). Annuelle
URSSAF Open Data URSSAF Caisse Nationale Établissements employeurs et effectifs salariés par commune × APE (depuis 2006). Annuelle (~150 j après fin d'année)
FLORES INSEE Caractéristiques des établissements et postes salariés par commune × secteur × tranche (tous secteurs publics et privés). Annuelle
Recensement population INSEE Populations communales historiques (séries depuis 1876), structure démographique. Annuelle
FINESS Ministère de la Santé Annuaire des établissements sanitaires et médico-sociaux. Mensuelle
Alim'Confiance DGCCRF / DGAL Résultats des contrôles d'hygiène alimentaire (SIRET, note, date). Hebdomadaire
ADEME aides ADEME Bénéficiaires des aides financières (SIRET, montant, programme). Mensuelle
ANR Agence Nationale de la Recherche Projets financés (partenaires SIREN, années, programmes). Annuelle

La liste évolue à mesure que de nouveaux jeux de données pertinents sont intégrés au pipeline. Aucune source propriétaire ou commerciale n'est utilisée.

Traitements appliqués

Normalisation

Les SIREN et SIRET sont systématiquement traités comme des chaînes de caractères (jamais comme des entiers, pour préserver les zéros initiaux). Les codes INSEE communes sont stockés sur 5 caractères (incluant 2A/2B pour la Corse, 97x pour les DROM). Les codes NAF sont conservés dans les nomenclatures NAF 2008 et NAF 2025 selon disponibilité.

Géocodage

Les adresses des sièges sont géocodées au format WGS84 via la Base Adresse Nationale (data.geopf.fr) et, lorsque cela est nécessaire, complétées par projection des coordonnées Lambert-93 fournies dans SIRENE. Le taux de géocodage validé sur l'ensemble des établissements actifs avec siège est supérieur à 99 %.

Croisements et enrichissements

Les jeux de données sont croisés à la maille SIREN (entreprise) ou commune INSEE (territoire). Aucun enrichissement n'est effectué via des sources tierces commerciales. Les croisements territoriaux utilisent les données INSEE de référence : population, revenus médians (FILOSOFI), évolutions démographiques, structure de l'emploi salarié (URSSAF, FLORES).

Fréquence de mise à jour

Le pipeline de mise à jour s'exécute mensuellement. Chaque livrable inclut sa date de génération et la version des sources utilisées. Les sources à fréquence supérieure (SIRENE quotidienne, BODACC quotidien) sont rafraîchies à chaque cycle.

Garde-fous qualité

Avant livraison, chaque ligne d'un fichier passe par plusieurs vérifications :

  • SIREN actif : l'entreprise n'est ni radiée, ni cessée selon SIRENE.
  • Siège valide : un siège SIRET est rattaché à l'unité légale.
  • Statut de diffusion conforme : les SIREN en non-diffusion INSEE sont systématiquement exclus.
  • Adresse résolvable : pour les bases nécessitant un croisement territorial, l'établissement doit être géocodable à la commune.
  • Cohérence de catégorie : la classification PME / ETI / GE est issue directement de l'INSEE, sans recalcul propriétaire.
Couche dirigeants — RGPD. Les informations relatives aux dirigeants (personnes physiques nommées) sont stockées dans une table séparée et ne sont jamais jointes par défaut au fichier livré. Tout client recevant cette couche doit attester de son intérêt légitime documenté et accepter notre procédure d'opposition opt-out.

Limites connues

Plusieurs limites inhérentes aux sources ouvertes sont à connaître avant exploitation. Nous les documentons explicitement plutôt que de les masquer.

Couverture géographique

  • Les DROM (Guadeloupe, Martinique, Guyane, La Réunion, Mayotte) sont couverts dans la plupart des bases, mais avec une volumétrie plus faible et une fraîcheur parfois inférieure.
  • Mayotte n'est intégrée à FLORES qu'à partir de 2022 — les analyses territoriales antérieures excluent ce département.
  • Saint-Pierre-et-Miquelon, Wallis-et-Futuna, Polynésie française et Nouvelle-Calédonie sont en dehors du périmètre standard SIRENE.

Fraîcheur et délais de synchronisation

  • Les certifications (RGE, Qualiopi, FINESS) sont synchronisées avec un délai pouvant atteindre plusieurs semaines après leur attribution ou expiration. Une entreprise récemment certifiée peut donc ne pas encore figurer dans une livraison ; à l'inverse, une entreprise ayant perdu sa certification peut y figurer temporairement.
  • Les comptes annuels (CA, résultat net) ne sont disponibles que pour les entreprises ayant déposé publiquement leurs comptes au RNE. Une part des micro-entreprises et des SARL en option de confidentialité ne publient pas, ce qui crée des trous documentés dans le fichier.
  • Les annonces BODACC arrivent en flux quotidien mais peuvent être traitées avec un décalage de quelques jours.

Non-diffusion INSEE

Environ 7 % des unités légales en France ont opté pour la non-diffusion de leurs informations dans SIRENE Open Data (champ statutDiffusionUniteLegale). Ces SIREN sont totalement exclus de tous les livrables, par conformité réglementaire. Cela peut entraîner des écarts apparents entre nos volumétries et celles issues d'API authentifiées (Sirene v3.11) qui exposent ces SIREN non diffusibles aux administrations habilitées.

Tranches d'effectifs

Les effectifs salariés exposés dans SIRENE sont des tranches déclaratives, pas des effectifs exacts. Les effectifs réels par SIRET (issus de la DSN) ne sont pas disponibles en open data. Pour des analyses fines, nous croisons avec URSSAF (commune × APE) qui donne un agrégat plus représentatif.

Ce que nous ne faisons pas

Par cohérence avec notre positionnement, plusieurs pratiques courantes du marché des données B2B sont volontairement exclues :

  • Aucun scoring propriétaire opaque. Nous ne produisons pas de score de risque, de score de paiement ou de score d'appétence dont la méthode ne serait pas documentée. Les éventuels scores composites que nous exposons (densité, tension, attractivité) sont toujours décrits dans leur formule de construction.
  • Aucune simulation comportementale. Aucune prédiction de comportement d'achat, de décision d'investissement ou d'évolution future n'est inférée à partir des données publiques. Nous exposons des signaux mesurables, pas des hypothèses propriétaires.
  • Aucune donnée personnelle non diffusible. Aucune information protégée par la non-diffusion INSEE, aucun email ou téléphone personnel issu de fuites, aucune donnée déduite par enrichissement non consenti.
  • Aucun scraping en violation de conditions d'utilisation. LinkedIn, Pages Jaunes et toute plateforme dont les CGU interdisent le scraping sont exclues du périmètre de collecte.
  • Aucune reconstitution illicite de bases payantes. Nous n'utilisons ni Pappers, ni Altares, ni Société.com, ni autre source commerciale dont la reconstitution serait contractuellement interdite.
VillagesFrançais fournit un socle de données structurées, traçables et documentées. La valeur ajoutée se construit dans le croisement, la fraîcheur et la qualité de la documentation — pas dans des promesses analytiques invérifiables.

Mise à jour et versioning

Chaque livrable inclut, par défaut, dans son nom de fichier ou dans une colonne de métadonnées :

  • la date de génération (jour précis) ;
  • la version des sources utilisées (date du dump SIRENE, version FILOSOFI, etc.) ;
  • le périmètre exact de la requête (filtres appliqués, géographie, secteur).

Le cycle standard de mise à jour est mensuel. Une fourniture sur abonnement avec mises à jour automatiques peut être organisée à la demande, avec livraison par SFTP, S3 compatible, ou API.

Jeux de données couverts par cette méthodologie

Voir l'ensemble du catalogue /pro/

Questions méthodologiques

Pour toute question précise sur la construction d'un jeu de données, ses limites, ou pour discuter d'un cas d'usage particulier : nous contacter. Les questions méthodologiques sont traitées par l'équipe qui maintient le pipeline, sans intermédiaire commercial.