Données de santé : ce que l’on trouve vraiment dans la base Data pathologies

L’Assurance maladie vient de lancer sa nouvelle base de données de santé ouvertes dédiée aux pathologies en France. Cette base de données ouvertes (ou open data en bon français) appelée Data pathologies est entièrement accessible à tout utilisateur. Elle est très fournie mais ne contient pourtant que certaines informations. Les visiteurs ne doivent pas s’attendre à trouver toutes les données dédiées aux dépenses de l’Assurance maladie, ce n’est pas encore le cas.

Pour permettre la mise à disposition publique de toutes les données présentes sur Data pathologies, l’Assurance maladie a traité l’ensemble des données de santé pour qu’elles soient pseudonymisées et agrégées. C’est-à-dire que les données ont perdu leur caractère identifiant ou réidentifiant.

La base permet de remonter jusqu’à l’année 2015 afin de voir l’évolution des dépenses relatives aux pathologies présentées de 2015 à 2020. La plateforme propose plusieurs outils simples d’utilisation pour trier les données en utilisant de nombreux critères (âge, sexe, pathologie, région ou département etc…), mais elle met également en libre accès les jeux de données complets ainsi qu’une API pour les utilisateurs confirmés qui souhaitent réaliser leurs propres traitements. Tous les professionnels de la complémentaire santé et de la prévoyance devraient s’intéresser de très près à cette nouvelle base riche en enseignements.

D’où proviennent les données de santé ?

Toutes les informations proviennent du système national des données de santé (SNDS) qui rassemble notamment l’ensemble des données de soins de ville (provenant du Système national d’information inter-régimes de l’assurance maladie ou Sniiram) et de soins hospitaliers (provenant du Programme de médicalisation des systèmes d’information ou PMSI). Toutes les informations qui sont reprises dans la base Data pathologies concernent ainsi 66,3 millions de bénéficiaires pour l’année 2020. Au total, les dépenses présentées pour l’année 2020 atteignent 168,1 Md€.

Les données de santé sont-elles représentatives ?

Les données de santé mises en libre accès sur Data pathologies sont représentatives si l’on parle de la population (la très grande majorité des assurés français) et de la zone géographique concernée (l’ensemble de la France métropolitaine ainsi que ses département et régions d’outre-mer). Cependant, si l’on parle de l’objet des dépenses de soins proposées en libre accès, celles-ci ne concernent que les “pathologies, traitements chroniques et épisodes de soins“. Cela inclut les diagnostics, actes ou médicaments liés à des pathologies ou affections longue durée (ALD).

Certaines dépenses de santé importantes sont donc absentes de Data pathologies. On pense aux dépenses liées à l’achat de lunettes, de prothèses auditives ou aux dépenses effectuées chez le dentiste. Au regard de ce que nous propose la base actuelle, on peut espérer qu’une prochaine base ouverte de données de santé permettra de visualiser les dépenses de santé qu’on ne retrouve pas à l’heure actuelle dans Data pathologies.

Quelques exemples des possibilités offertes par Data pathologies

Le site Data pathologies propose une série de visualisations des données à partir de nombreux critères sélectionnables par l’utilisateur. Etant donné que le site est destiné au grand public et doit rester accessible, les outils proposés ont été pensés pour être plutôt simples d’utilisation sans pour autant être simplistes dans les choix offerts (même si les spécialistes préféreront recourir aux jeux de données complètes).

On peut ainsi choisir de partir d’un grand groupe de pathologies (cancer, diabète, insuffisance rénale etc…), d’un sous-groupe de pathologie (comme le cancer du poumon, le cancer de la prostate, le cancer du sein), ou même d’un sous-groupe détaillé de pathologie (et n’afficher que les données sur le cancer colorectal actif ou bien sur le cancer colorectal sous surveillance). Avec le point de départ de la pathologie, Data pathologies propose une visualisation synthétique de ce que l’on a choisie :

Exemple de visualisation synthétique des hospitalisations ponctuelles (source : Data pathologies)

Une visualisation géographique, par régions et départements, est également proposée systématiquement avec la possibilité de voir l’évolution des dépenses entre 2015 et 2020 grâce à un curseur situé sous la carte. L’utilisateur peut choisir d’afficher les données en nombre de patients pris en charge (effectif) ou en part de patients pris en charge dans la population (prévalence), en sélectionnant des tranches d’âge et un genre spécifiques. La liste des 10 comorbidités les plus fréquentes associées à la pathologie examinée est aussi fournie. Enfin, le site propose une visualisation du montant total des dépenses que la pathologie prise en compte représente ainsi que leur répartition par grand poste (hospitalisation, soins de ville, prestations en espèce). On apprend ainsi que le cancer du poumon actif a généré 2 551 M€ de dépenses de santé en 2020 dont 1 753 M€ au titre de l’hospitalisation, 720 M€ au titre des soins de ville et 78 M€ au titre des prestations en espèce (indemnités journalières, AT/MP, invalidité) :

Exemple de visualisation des dépenses remboursées au titre du cancer du poumon actif de 2015 à 2020, par poste de dépenses (source : Data pathologies)

Data pathologies nous permet aussi de partir d’un territoire (une région ou un département) au lieu d’une pathologie. Avec ce point de départ géographique, les données de santé peuvent être affichées en comparaison directe avec un autre territoire de même nature (une région ne peut être comparée qu’avec une autre région, idem pour le département). Une courbe d’évolution sur 5 ans, pour chacun des grands groupes de pathologies, est également disponible. Chaque page dédiée à un territoire propose également les visualisations suivantes : carte de France permettant de voir l’importance de chaque pathologie dans chaque territoire, répartition des dépenses par tranche d’âge et par sexe (avec la comparaison possible entre 2 territoires), part des sous-groupes de pathologies (avec la comparaison possible entre 2 territoires). En revanche, les comorbidités ne sont pas disponibles au niveau territorial.

On le comprend, cette nouvelle base de données de santé ouvertes est une source incontournable d’informations. L’Assurance maladie s’est d’ailleurs fendue d’une série de tweets introductifs afin de présenter, en plusieurs vidéos, toutes les fonctionnalités disponibles.

Ajouter aux articles favoris
Please login to bookmark Close
0 Shares:
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pourriez aussi aimer

Centres Nobel Santé : une fraude présumée à 5 M€ dans le viseur de la justice

Trois personnes liées au réseau de centres dentaires Nobel Santé, ainsi qu’un pharmacien, ont été mises en examen ce vendredi. Elles sont soupçonnées d’avoir participé à une escroquerie en bande organisée au détriment de l’Assurance maladie. Le préjudice estimé s’élève à environ 5 millions d’euros. Deux des personnes poursuivies, également fondatrices d’une société d’expertise comptable, ont été placées en détention provisoire. Elles sont considérées par le parquet comme étant à la tête du...
Lire plus

Précommandez notre dossier annuel sur les CCN à -50% !

L'édition 2025 de notre dossier "Santé, prévoyance collective et vie des CCN" sortira à la mi-juillet. Cette somme des articles Tripalio et des accords paritaires est indispensable pour préparer sereinement la rentrée de septembre. Le dossier est en précommande à -50%, soit 500 € HT, jusqu'à sa sortie, profitez-en* ! ...
CTIP
Lire plus

Le CTIP salue l’activité de ses membres en 2024 malgré une conjoncture qui reste compliquée

Le centre technique des institutions de prévoyance (CTIP) dresse le bilan d'une année 2024 qui a été compliquée pour tous les acteurs de la protection sociale complémentaire. Mais contrairement aux propos tenus lors de la conférence de presse du 1er juillet dernier, le contenu du document est bien plus posé. On y retrouve les ...
Lire plus

Génération : la consommation de soins ralentit mais certains postes explosent

Génération publie son baromètre Santé pour le 1er trimestre 2025. L’évolution globale des remboursements ralentit, et la consommation de soins semble retrouver une trajectoire plus proche de celle observée avant la pandémie. Si le rythme général s’infléchit, certaines nouvelles hausses ciblées, notamment en santé mentale, restent marquées. ...

Un arrêté renouvelle les membres du Comité éthique et scientifique en santé

Un arrêté du 3 juillet 2025, publié au Journal officiel du 6 juillet, vient renouveler une partie importante de la composition du Comité éthique et scientifique pour les recherches, les études et les évaluations dans le domaine de la santé. Le texte émane conjointement de la ministre du travail, de la santé, des solidarités et des familles, et du ministre chargé de l’enseignement supérieur et de la...