¿Qué es el data lake sanitario y cuál es su función?
Resumen del contenido
Médico urgencióloga del Hospital General Universitario de Elche. Tiene especial interés en el campo de la medicina familiar y comunitaria. Compagina su labor profesional con la investigación en la atención primaria.
¿En que consiste el data lake sanitario?
Un data lake, traducido al español de forma directa como “lago de datos”, es un almacén digital de una gran cantidad de datos que se encuentran sin categorizar ni organizar de forma concreta. Hay otros grandes sistemas de almacenamiento de datos, como los data warehouse, que categorizan la información que recogen de maneras concretas y seleccionan qué datos se van a almacenar en base a si aportan información a sus categorías específicas. En contraposición, los data lake almacenan datos de todo tipo y “en bruto”, sin procesar, y es a la hora de analizar los datos cuando estos se categorizan en base al interés determinado de quien busca dicha información.
El data lake sanitario es, por tanto, un almacén que contiene toda la información sanitaria relativa a historias clínicas y datos de todos los pacientes atendidos en España. Estos datos se clasificarían posteriormente en bases de datos pseudonimizadas y anonimizadas, actualizándose a tiempo real según los sanitarios asistenciales van generando nueva información al ir atendiendo a los pacientes. Toda esta información sería accesible a los investigadores en todo momento.
Cómo se utiliza el data lake
Un factor fundamental es que los datos que se tratarían en este data lake son extremadamente sensibles: la información de salud en general de toda la población. Si finalmente se crea este sistema de almacenamiento de datos, el propietario de la información tratada sigue siendo el propio paciente, y no cambiaría quién puede acceder a sus datos. Por este motivo, se propone la creación de dos bases de datos que “solapen” la información: una pseudonimizada y otra anonimizada.
Pseudonimizada
Con una base de datos pseudonimizada, los llamados “custodios” de la información generada, que serían los gestores y centros sanitarios coordinadores de cada área sanitaria (como ocurre en la actualidad), podrían acceder a la información e historia de cada paciente. Esto serviría para asegurar que los sanitarios asistenciales, los que atienden directamente al paciente, puedan acceder a la historia clínica de la persona a la que están asistiendo, e ir añadiendo los datos generados de cada consulta. Esto es lo que ocurre en la actualidad, con la diferencia de que todos los datos de todos los pacientes se almacenarían en un mismo sitio (el data lake), independientemente de cuál sea su área sanitaria o comunidad autónoma.
Anonimizada
Por otro lado, los investigadores tendrían acceso a la base de datos anonimizada, teniendo así la posibilidad de realizar consultas organizadas según el interés de la cuestión a analizar, pero en base a la información generada a través de la atención de todos los pacientes del país, y sin poder acceder a la identidad de los pacientes.
Qué beneficios aporta
Si se implantara un sistema como el comentado, sería esperable que la historia clínica de cualquier persona fuera accesible desde cualquier parte del país y por lo tanto que su atención en una comunidad autónoma distinta a la de origen pudiera ser registrada en su historia clínica, con ello facilitando la continuidad de su asistencia y evitando las duplicidades (o multiplicidades) de información, y ayudando a disminuir los errores que pudieran generarse de no disponer de dicha información.
Por otro lado, al poder analizar datos globales, podríamos buscar cambios de ritmo de enfermedades a nivel nacional o regional. Esto supondría facilitar la investigación clínica a nivel nacional, ayudando en la generación de nuevo conocimiento. Pero también tendría un papel muy importante a la hora de detectar picos de incidencia de ciertas enfermedades; de esta manera, podríamos detectar precozmente la aparición de epidemias como la de la covid-19, pues podríamos buscar estos casos sin esperar a que se generasen notificaciones concretas de sospecha de una enfermedad ya descrita. Por ejemplo, los investigadores podrían buscar diagnósticos recientes de cuadros respiratorios graves a nivel nacional y ver si hay un aumento importante según las cifras esperadas para el momento.
Qué inconvenientes podría tener
Uno de los principales inconvenientes o dificultades, atañe a la seguridad a la hora de almacenar los datos. Como hemos comentado, los datos que se tratan son extremadamente sensibles, incluyendo desde enfermedades físicas banales hasta enfermedades transmisibles, infecciosas y genéticas, así como dolencias psiquiátricas y psicológicas. La filtración de estos datos supondría una violación del derecho a la intimidad de las personas, que son quienes deciden si su información de salud puede o no ser conocida por terceros.
La otra gran traba para generar este sistema de información es logística, por la infraestructura necesaria para almacenar y tratar el inmenso volumen de datos existentes. Asimismo, esta infraestructura debe soportar la gran velocidad de crecimiento del número y tamaño de los datos que se generarían continuamente.
Lo que debes saber…
- El data lake sanitario es un almacén que contiene toda la información sanitaria relativa a historias clínicas y datos de todos los pacientes atendidos en España.
- Si se implantara este sistema, la atención de un paciente en una comunidad autónoma distinta a la de origen podría ser registrada en su historia clínica, facilitando la continuidad de su asistencia y evitando las duplicidades (o multiplicidades) de información, y ayudando a disminuir errores por falta de información.
- Uno de los principales inconvenientes o dificultades atañe a la seguridad a la hora de almacenar los datos. Estos son extremadamente sensibles, incluyendo desde enfermedades físicas banales hasta enfermedades transmisibles, infecciosas y genéticas, así como dolencias psiquiátricas y psicológicas.
Comentarios (0)