L’Assurance maladie vient de lancer sa nouvelle base de données de santé ouvertes dédiée aux pathologies en France. Cette base de données ouvertes (ou open data en bon français) appelée Data pathologies est entièrement accessible à tout utilisateur. Elle est très fournie mais ne contient pourtant que certaines informations. Les visiteurs ne doivent pas s’attendre à trouver toutes les données dédiées aux dépenses de l’Assurance maladie, ce n’est pas encore le cas.
Pour permettre la mise à disposition publique de toutes les données présentes sur Data pathologies, l’Assurance maladie a traité l’ensemble des données de santé pour qu’elles soient pseudonymisées et agrégées. C’est-à-dire que les données ont perdu leur caractère identifiant ou réidentifiant.
La base permet de remonter jusqu’à l’année 2015 afin de voir l’évolution des dépenses relatives aux pathologies présentées de 2015 à 2020. La plateforme propose plusieurs outils simples d’utilisation pour trier les données en utilisant de nombreux critères (âge, sexe, pathologie, région ou département etc…), mais elle met également en libre accès les jeux de données complets ainsi qu’une API pour les utilisateurs confirmés qui souhaitent réaliser leurs propres traitements. Tous les professionnels de la complémentaire santé et de la prévoyance devraient s’intéresser de très près à cette nouvelle base riche en enseignements.
D’où proviennent les données de santé ?
Toutes les informations proviennent du système national des données de santé (SNDS) qui rassemble notamment l’ensemble des données de soins de ville (provenant du Système national d’information inter-régimes de l’assurance maladie ou Sniiram) et de soins hospitaliers (provenant du Programme de médicalisation des systèmes d’information ou PMSI). Toutes les informations qui sont reprises dans la base Data pathologies concernent ainsi 66,3 millions de bénéficiaires pour l’année 2020. Au total, les dépenses présentées pour l’année 2020 atteignent 168,1 Md€.
Les données de santé sont-elles représentatives ?
Les données de santé mises en libre accès sur Data pathologies sont représentatives si l’on parle de la population (la très grande majorité des assurés français) et de la zone géographique concernée (l’ensemble de la France métropolitaine ainsi que ses département et régions d’outre-mer). Cependant, si l’on parle de l’objet des dépenses de soins proposées en libre accès, celles-ci ne concernent que les “pathologies, traitements chroniques et épisodes de soins“. Cela inclut les diagnostics, actes ou médicaments liés à des pathologies ou affections longue durée (ALD).
Certaines dépenses de santé importantes sont donc absentes de Data pathologies. On pense aux dépenses liées à l’achat de lunettes, de prothèses auditives ou aux dépenses effectuées chez le dentiste. Au regard de ce que nous propose la base actuelle, on peut espérer qu’une prochaine base ouverte de données de santé permettra de visualiser les dépenses de santé qu’on ne retrouve pas à l’heure actuelle dans Data pathologies.
Quelques exemples des possibilités offertes par Data pathologies
Le site Data pathologies propose une série de visualisations des données à partir de nombreux critères sélectionnables par l’utilisateur. Etant donné que le site est destiné au grand public et doit rester accessible, les outils proposés ont été pensés pour être plutôt simples d’utilisation sans pour autant être simplistes dans les choix offerts (même si les spécialistes préféreront recourir aux jeux de données complètes).
On peut ainsi choisir de partir d’un grand groupe de pathologies (cancer, diabète, insuffisance rénale etc…), d’un sous-groupe de pathologie (comme le cancer du poumon, le cancer de la prostate, le cancer du sein), ou même d’un sous-groupe détaillé de pathologie (et n’afficher que les données sur le cancer colorectal actif ou bien sur le cancer colorectal sous surveillance). Avec le point de départ de la pathologie, Data pathologies propose une visualisation synthétique de ce que l’on a choisie :
Exemple de visualisation synthétique des hospitalisations ponctuelles (source : Data pathologies)
Une visualisation géographique, par régions et départements, est également proposée systématiquement avec la possibilité de voir l’évolution des dépenses entre 2015 et 2020 grâce à un curseur situé sous la carte. L’utilisateur peut choisir d’afficher les données en nombre de patients pris en charge (effectif) ou en part de patients pris en charge dans la population (prévalence), en sélectionnant des tranches d’âge et un genre spécifiques. La liste des 10 comorbidités les plus fréquentes associées à la pathologie examinée est aussi fournie. Enfin, le site propose une visualisation du montant total des dépenses que la pathologie prise en compte représente ainsi que leur répartition par grand poste (hospitalisation, soins de ville, prestations en espèce). On apprend ainsi que le cancer du poumon actif a généré 2 551 M€ de dépenses de santé en 2020 dont 1 753 M€ au titre de l’hospitalisation, 720 M€ au titre des soins de ville et 78 M€ au titre des prestations en espèce (indemnités journalières, AT/MP, invalidité) :
Exemple de visualisation des dépenses remboursées au titre du cancer du poumon actif de 2015 à 2020, par poste de dépenses (source : Data pathologies)
Data pathologies nous permet aussi de partir d’un territoire (une région ou un département) au lieu d’une pathologie. Avec ce point de départ géographique, les données de santé peuvent être affichées en comparaison directe avec un autre territoire de même nature (une région ne peut être comparée qu’avec une autre région, idem pour le département). Une courbe d’évolution sur 5 ans, pour chacun des grands groupes de pathologies, est également disponible. Chaque page dédiée à un territoire propose également les visualisations suivantes : carte de France permettant de voir l’importance de chaque pathologie dans chaque territoire, répartition des dépenses par tranche d’âge et par sexe (avec la comparaison possible entre 2 territoires), part des sous-groupes de pathologies (avec la comparaison possible entre 2 territoires). En revanche, les comorbidités ne sont pas disponibles au niveau territorial.
On le comprend, cette nouvelle base de données de santé ouvertes est une source incontournable d’informations. L’Assurance maladie s’est d’ailleurs fendue d’une série de tweets introductifs afin de présenter, en plusieurs vidéos, toutes les fonctionnalités disponibles.
#DataPathologies | Dans la poursuite de sa stratégie d’#OpenData, l’Assurance Maladie lance aujourd’hui la plateforme « Data pathologies », un outil à disposition de tous pour visualiser les données de prises en charge d’une cinquantaine de pathologies 🔎📊
— Assurance Maladie (@Assur_Maladie) June 21, 2022