Le point sur la dé-identification et l’anonymisation des données avec Datavaloris

L’IA garante de l’anonymat des patients

Fondée par Jean-Patrice Glafkidès, la startup Datavaloris a remporté deux des challenges lancés par Sanofi dans le cadre de l’événement VivaTech 2019. L’un d’eux concernait la dé-identification des données de patients.

Jean-Patrice Glafkidès, fondateur de la startup Datavaloris

Dé-identification des données et anonymisation sont-ils synonymes ?

J-P. Glafkidès. - Basiquement, l’anonymisation consiste à supprimer d’une base de données toutes les données personnelles susceptibles de permettre l’identification d’un patient. Il ne s’agit pas seulement de retirer les noms, prénoms ou identifiant, mais aussi d’empêcher l’identification via le recoupement de différentes caractéristiques, ou le rapprochement de plusieurs bases de données distinctes. Ainsi, dans un village faiblement peuplé, être centenaire, mesurer 195 cm ou être atteint d’une pathologie rare sont des caractéristiques qui peuvent suffire à identifier quelqu’un.

Dès lors, l’anonymisation nécessite la suppression de toutes les données rendant l’identification ou la ré-identification du patient possible – ou plus exactement probable, car c’est, à plus grande échelle, une affaire de statistiques. Puisqu’il est impossible, au moment de l’anonymisation, de connaître l’usage des informations récoltées, on prend alors le risque d’appauvrir irrémédiablement les données. Voire d’introduire des biais dans les études qui en découleraient, en compromettant la découverte de corrélations pertinentes basées sur les caractéristiques disparues. La dé-identification permet de dépasser cette contradiction - préserver l’anonymat des informations de santé tout en contrôlant l’appauvrissement des données – en apportant de la granularité dans le processus d’anonymisation. 

La dé-identification permet de dépasser cette contradiction - préserver l’anonymat des informations de santé tout en contrôlant l’appauvrissement des données – en apportant de la granularité dans le processus d’anonymisation.
Jean-Patrice Glafkidès, fondateur de la startup Datavaloris

Concrètement, comment met-on cela en œuvre ?

J-P.G. - Dans le cadre de l’architecture préconisée par Datavaloris, l’entrepôt contenant les données brutes est sanctuarisé. Il s’agit d’un coffre-fort numérique, inaccessible depuis l’extérieur. Les jeux de données sont mis à disposition à travers une interface qui permet aux équipes de recherche de contrôler, via des curseurs, la finesse de la dé-identification. Ainsi, pour reprendre l’exemple cité, on pourra, selon les besoins de l’étude, masquer la taille, l’âge, les pathologies statistiquement trop rares dans la zone géographique ou l’origine géographique du patient elle-même.

Qu’apporte l’IA dans ce processus de dé-identification des données ?

J-P.G. - Étant donné la richesse des bases de données, qui intègrent désormais des données de vie réelle, maintenir proche de zéro la probabilité de retour à l’identité du patient nécessite des compétences pointues en statistiques. L’IA permet d’automatiser ce processus dé-identification « à la demande », sous la supervision des biostatisticiens de Sanofi. L’IA fournit également une aide précieuse pour l’indexation et la structuration des données.

Ce site utilise des cookies pour mesurer son audience et nous permettre d’améliorer votre expérience utilisateur. En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de ces cookies. En savoir plus.

OK