Posted in

Les systèmes d’organisation des connaissances médicales et pharmacologiques

Échantillon Généraliste des Bénéficiaires de l’Assurance Maladie

L’arrêté du 20 juin 2005 9 crée l’Échantillon Généraliste des Bénéficiaires de l’As-surance Maladie (EGB). L’EGB est un échantillon du SNIIRAM, qui résulte d’un sondage au 1/97e sur le numéro de sécurité sociale des bénéficiaires de l’Assurance Maladie. Les répartitions de l’âge, du sexe ou encore des dépenses moyennes de remboursements de soins sont proches de la population totale (Tuppin et al., 2010). De ce fait, il est qualité d’échantillon représentatif de la population française. Par la création de cet échantillon, les autorités de santé publique confirment leur volonté de réutiliser les bases de données médico-administratives pour des finalités autres que managériales et financières. L’objectif de l’EGB est en effet de permettre à des chercheurs de réaliser des études longitudinales sur les trajectoires de soins (de ville et d’hôpital) de patients bénéficiaires de l’Assurance Maladie. Il trouve ainsi par-ticulièrement des applications en pharmaco-épidémiologie (Maura et al., 2018), en épidémiologie (Roux et al., 2018b; Le Meur et al., 2015), ainsi qu’en pharmacovigi-lance (Létinier et al., 2018).

Système National des Données de Santé

En janvier 2016, la loi de modernisation des systèmes de santé 10 annonce et définit le Système National des Données de Santé (SNDS). Il rassemble des bases de données déjà existantes, séparées jusqu’alors, le SNIIRAM, le PMSI et la base de données du Centre d’épidémiologie sur les causes médicales de Décès (CépiDc), base de données recueillant les causes de décès, gérée par l’Institut National de la Santé et de la Recherche Médicale (INSERM). La Caisse Nationale de l’Assurance Maladie des Travailleurs Salariés (CNAMTS) est responsable du traitement et de la mise en place du SNIIRAM. C’est l’Institut National des Données de Santé (INDS), qui remplace l’Institut des Données de Santé (IDS) par la même loi, qui veille à la qualité des données, leur mise à disposition, ainsi qu’au respect de leur confiden-tialité. Pour favoriser l’ouverture des données de santé publique, afin que « leurs potentialités soient utilisées au mieux dans l’intérêt de la collectivité », notamment pour la recherche en santé publique, des accès permanents au SNDS sont accordés
• certains organismes publics tels que l’ANSM, l’INSERM ou encore les ARS. Des accès à des fin de recherche, étude ou évaluation dans le domaine de la santé, sou-mis à l’autorisation de la Commission Nationale de l’Informatique et des Libertés (CNIL), peuvent également mener à l’extraction de données du SNDS.

Complexités des données

Si on a pu voir que le contexte juridique récent a favorisé la réutilisation des bases de données médico-administratives pour la recherche en santé publique, les chercheurs doivent faire face à des complexités qui peuvent parfois limiter cette réutilisation.
La complexité principale est sans doute la volumétrie des données. Puisque re-cueillies à chaque remboursement d’un soin ou d’une consommation de soin, ces données sont massives. Pour donner un ordre de grandeur, chaque année, près de 2,5 milliards de boîtes de médicaments sont remboursées par l’Assurance Maladie. Ce sont autant d’enregistrements de données dans le SNIIRAM.
En plus d’être massives, ces données sont très hétérogènes, de par leurs sources de recueil notamment. Les données peuvent provenir des hôpitaux, de centres de soins de villes, de pharmacies, ou de tout autre source qui conduirait à un rembour-sement par L’assurance Maladie. Cette hétérogénéité des sources, va in fine mener une hétérogénéité de la structure des données, de l’Architecture du système d’in-formation. Il se construit en accumulant plusieurs tables de données, qui elles-même regroupent chacune un type de sources de recueil.
Le SNIIRAM, et donc l’EGB, constituent un bon exemple de système d’informa-tion à architecture complexe en étoile (figure 2.1). Plusieurs tables de données gra-vitent autour d’une table principale, celle des prestations de santé. Et pour chaque type de recueil de données (par exemple le recueil de données en pharmacie) est associé une table détaillant la prestation dans ce contexte (la table des prestations affinées en pharmacie, pour suivre cet exemple). Si certaines variables sont parta-gées par ces nombreuses tables de données (plus de 250), chaque table dispose de variables spécifiques.
Enfin, l’information médicale, que ce soit les actes ou les médicaments délivrés, sont codifiés selon des nomenclatures médicales, nationales ou internationales. Par exemple, les actes médicaux à l’hôpital sont codifiés selon la CIM-10. Cette codifi-cation systématique est parfois vue par les épidémiologistes comme une contrainte de plus, une complexité. C’est surtout le nombre de nomenclatures utilisées et leurs profondeur qui peuvent en faire une complexité.
Ces complexités peuvent mener à des limites dans la réutilisation des bases de données médico-administratives pour la recherche en santé publique.

Limites pour la réutilisation des données médico-administratives en santé publique

Volumétrie des données Disposer de données sur toute la population bénéfi-ciaire de l’Assurance Maladie est évidemment d’un grand intérêt pour la recherche en santé publique. Néanmoins, des calculs pour l’exploration ou l’analyse de telles données sont souvent compliqués à réaliser sur une population de plus de 60 millions d’individus. Certaines méthodes statistiques peuvent alors se voir restreintes à des échantillons. L’exploration peut elle aussi être impactée par cet aspect massif, avec par exemple des temps d’exécution pour de la recherche de patient et la constitution de cohortes sur des critères détaillées pouvant dépasser quelques heures.
Variabilité des données Des données déjà très diverses et hétérogènes –car dé-crivant le domaine complexe médico-administratif– et l’utilisation de plusieurs no-menclatures à vastes vocabulaires mènent à une grande variabilité des données. Il n’est pas rare, même en disposant d’échantillons de grandes tailles, d’avoir plusieurs soins ou consommations de soins dont la fréquence observée ne dépasse pas un cas. Des méthodes d’analyse statistique ou de fouille de données sur des événements si rares sont alors très limitées.
D’autres limites sont elles directement liées à la nature des données.
Nature comptable et managériale des données Les données ont été re-cueillies dans une optique de mieux gérer et financer l’Assurance Maladie et les établissements de santé. Il en résulte que ces systèmes d’information ne contiennent pas de résultats médicaux, mais uniquement ce qui est remboursé (le remboursement d’un acte médical, ou encore d’une délivrance de médicament). De même, aucune information sur les médicaments non remboursés n’est recueillie dans les bases de données médico-administratives. Ces données peuvent ainsi parfois être jugées de données pauvres, en tout cas dans le cadre de leur réutilisation en épidémiologie et pharmaco-épidémiologie, quand bien même elles couvrent l’ensemble de la popula-tion bénéficiaire de l’Assurance Maladie.
Codage des données et financement des établissements La nature comp-table et financière mène à une autre limite, liée au mode de financement des établis-sements de santé. Il est parfois souligné que les hôpitaux, motivés par le financement selon leurs activités, peuvent avoir tendance à adopter des habitudes de sur-codage des séjours (Georgescu and Hartmann, 2013). De la même façon, certains services d’hôpitaux sous-codent certains événements médicaux qui ne rentreraient pas en compte dans le calcul de leur financement. Par exemple, le code “Y95” de la CIM-10 codant une infection nosocomiale, est très rarement utilisé à l’hôpital, car n’étant pas pris en compte dans le calcul du financement des établissements, et car en plus reflétant une infection acquise à l’hôpital, pouvant être liée aux pratiques de soins (Fourquet et al., 2003). Cette limite encore une fois va à l’encontre de la qualité des données. En l’occurrence, l’étude des infections nosocomiales identifiées sur des données médico-administratives traite donc plus souvent des infections qui seraient très probablement acquises en établissement. De telles études requièrent la connais-sance d’experts du codage et des infections nosocomiales pour identifier tous les codes CIM-10 correspondant à une telle infection, et ainsi pour contourner cette limite(Grammatico-Guillon et al., 2014).
Confidentialité des données De manière générale, les disciplines de la santé publique, et notamment l’épidémiologie, sont particulièrement encadrées du fait du caractère sensible et confidentiel des données utilisées (Goldberg et al., 2008). Les données issues des systèmes d’information médico-administratifs français sont des données à caractère personnel, très sensibles et confidentielles. Néanmoins –nous l’avons vu en section 2.1.2.4– l’obtention des données du SNDS peut être facilitée pour certains établissements publics de recherche par un accès permanent au portail du SNDS. En revanche, des recherches plus expérimentales ou moins convention-nelles, nécessitant un extraction de données, doivent obtenir l’accord de la CNIL. Les procédures à suivre pour aboutir à l’obtention des données peuvent alors s’avérer assez longues dans ce cas. Elles peuvent constituer une limite à l’avancée de la re-cherche dans le cadre de la réutilisation des bases de données médico-administratives françaises à des fins de santé publique.

Les trajectoires et parcours de soins

Si la distinction entre les deux termes n’est parfois pas très claire en français, les chercheurs anglophones y voient une différence essentielle. Dans cette thèse, nous verrons les parcours de soins comme la traduction de care pathways, clinical path-ways ou encore integrated care pathways. Les parcours de soins sont ainsi des plans interdisciplinaires de santé qui définissent les étapes importantes dans l’accompa-gnement d’un patient, pour un contexte clinique et une période données (Campbell et al., 1998). On parle aussi de bonnes pratiques ou de recommandations de santé. Ces plans de recommandations ont montré que leur mise en place pouvait permettre de réduire la variabilité des pratiques de soins (Panella et al., 2003), et ainsi le coût de la prise en charge interdisciplinaire des patients grâce à une meilleure organisa-tion des soins (Deneckere et al., 2012). L’amélioration de la qualité des soins a aussi pu être démontrée (Panella et al., 2003), avec par exemple une réduction des risques de complications à l’hôpital (Rotter et al., 2010).
Si la notion de parcours de soins a été théorisée dès les années 1950 (Schrijvers et al., 2012), celle des trajectoires de soins est bien plus récente. Elle n’en ai ce-pendant sans doute pas moins utilisée, comme le montre la revue systématique de Pinaire et al. (2017b). Les trajectoires de soins sont des traces des soins reçus et états de santé d’un patient sur une période donnée. Les trajectoires de soins sont ainsi des successions d’événements de santé observées, pouvant se rattacher ou non à un ou plusieurs parcours de soins théorique. L’analyse des trajectoires de soins contribue la compréhension du contexte d’offre et de consommation des soins et produits de santé d’une population. Cette compréhension peut alors permettre d’améliorer la prise en charge des patients pour une maladie ou un état de santé donné, et donc po-tentiellement amener à de meilleurs résultats cliniques pour les patients (Adeyemi et al., 2013), ainsi qu’à une meilleure planification et gestion des ressources d’un système de santé (Jay et al., 2013). Les bases de données médico-administratives, et particulièrement en France, ont montré qu’elles pouvaient servir à construire ces traces, constituées d’événements médicaux, des prescriptions de médicaments, des actes médicaux en ville ou à l’hôpital, ou encore des diagnostics et états de santé des patients (Defossez et al., 2014; Le Meur et al., 2015).

Intégrer les données et les lier à des connaissances grâce au Web Sémantique

La réutilisation des bases de données médico-administratives pour la recherche en santé publique, consiste en grande partie à l’analyse statistique de ces données. La connaissance médicale est alors essentielle à de nombreuses étapes lors des études statistiques, pour sélectionner des patients et leurs données, pour les analyses sta-tistiques, ou pour l’interprétation des résultats. Les épidémiologistes utilisent par exemple les connaissances à leur disposition sur une maladie étudiée, pour la consti-tution d’une cohorte, pour l’étude des potentiels facteurs de risque, jusqu’à l’analyse des résultats statistiques. Des formalisations de cette connaissance ne sont elles que rarement utilisées pour automatiser ces étapes, ce qui est pourtant rendu nécessaire du fait de la volumétrie et la complexité des données médico-administratives. La codification systématique des données médico-administratives contribue pourtant à leur interopérabilité sémantique, en partageant auprès des chercheurs de santé pu-blique une même définition et un même identifiant pour chaque concept médical. L’interopérabilité sémantique des données médico-administratives rend alors pos-sible le lien entre données et formalisations de la connaissance, bien qu’il ne soit en pratique que peu réalisé.

Formation et coursTélécharger le document complet

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *