¿Qué es el data lake sanitario y cuál es su función?

4 Min de lectura

El data lake sanitario es un almacén que contiene toda la información sanitaria relativa a historias clínicas y datos de todos los pacientes atendidos en España.

Resumen del contenido

Dra. Ana Puche

Nº Colegiado 30311158 | Urgencióloga. Especialista en Medicina Familiar y Comunitaria de canalSALUD

¿En que consiste el data lake sanitario?

Un data lake, traducido al español de forma directa como “lago de datos”, es un almacén digital de una gran cantidad de datos que se encuentran sin categorizar ni organizar de forma concreta. Hay otros grandes sistemas de almacenamiento de datos, como los data warehouse, que categorizan la información que recogen de maneras concretas y seleccionan qué datos se van a almacenar en base a si aportan información a sus categorías específicas. En contraposición, los data lake almacenan datos de todo tipo y “en bruto”, sin procesar, y es a la hora de analizar los datos cuando estos se categorizan en base al interés determinado de quien busca dicha información.

El data lake sanitario es, por tanto, un almacén que contiene toda la información sanitaria relativa a historias clínicas y datos de todos los pacientes atendidos en España. Estos datos se clasificarían posteriormente en bases de datos pseudonimizadas y anonimizadas, actualizándose a tiempo real según los sanitarios asistenciales van generando nueva información al ir atendiendo a los pacientes. Toda esta información sería accesible a los investigadores en todo momento.

Cómo se utiliza el data lake

Un factor fundamental es que los datos que se tratarían en este data lake son extremadamente sensibles: la información de salud en general de toda la población. Si finalmente se crea este sistema de almacenamiento de datos, el propietario de la información tratada sigue siendo el propio paciente, y no cambiaría quién puede acceder a sus datos. Por este motivo, se propone la creación de dos bases de datos que “solapen” la información: una pseudonimizada y otra anonimizada.

Pseudonimizada

Con una base de datos pseudonimizada, los llamados “custodios” de la información generada, que serían los gestores y centros sanitarios coordinadores de cada área sanitaria (como ocurre en la actualidad), podrían acceder a la información e historia de cada paciente. Esto serviría para asegurar que los sanitarios asistenciales, los que atienden directamente al paciente, puedan acceder a la historia clínica de la persona a la que están asistiendo, e ir añadiendo los datos generados de cada consulta. Esto es lo que ocurre en la actualidad, con la diferencia de que todos los datos de todos los pacientes se almacenarían en un mismo sitio (el data lake), independientemente de cuál sea su área sanitaria o comunidad autónoma.

Anonimizada

Por otro lado, los investigadores tendrían acceso a la base de datos anonimizada, teniendo así la posibilidad de realizar consultas organizadas según el interés de la cuestión a analizar, pero en base a la información generada a través de la atención de todos los pacientes del país, y sin poder acceder a la identidad de los pacientes.

¿Qué es el Data Lake?: ilustración 3d de la nube del centro de datos digital data lake

Qué beneficios aporta

Si se implantara un sistema como el comentado, sería esperable que la historia clínica de cualquier persona fuera accesible desde cualquier parte del país y por lo tanto que su atención en una comunidad autónoma distinta a la de origen pudiera ser registrada en su historia clínica, con ello facilitando la continuidad de su asistencia y evitando las duplicidades (o multiplicidades) de información, y ayudando a disminuir los errores que pudieran generarse de no disponer de dicha información.

Por otro lado, al poder analizar datos globales, podríamos buscar cambios de ritmo de enfermedades a nivel nacional o regional. Esto supondría facilitar la investigación clínica a nivel nacional, ayudando en la generación de nuevo conocimiento. Pero también tendría un papel muy importante a la hora de detectar picos de incidencia de ciertas enfermedades; de esta manera, podríamos detectar precozmente la aparición de epidemias como la de la covid-19, pues podríamos buscar estos casos sin esperar a que se generasen notificaciones concretas de sospecha de una enfermedad ya descrita. Por ejemplo, los investigadores podrían buscar diagnósticos recientes de cuadros respiratorios graves a nivel nacional y ver si hay un aumento importante según las cifras esperadas para el momento.

Qué inconvenientes podría tener

Uno de los principales inconvenientes o dificultades, atañe a la seguridad a la hora de almacenar los datos. Como hemos comentado, los datos que se tratan son extremadamente sensibles, incluyendo desde enfermedades físicas banales hasta enfermedades transmisibles, infecciosas y genéticas, así como dolencias psiquiátricas y psicológicas. La filtración de estos datos supondría una violación del derecho a la intimidad de las personas, que son quienes deciden si su información de salud puede o no ser conocida por terceros.

La otra gran traba para generar este sistema de información es logística, por la infraestructura necesaria para almacenar y tratar el inmenso volumen de datos existentes. Asimismo, esta infraestructura debe soportar la gran velocidad de crecimiento del número y tamaño de los datos que se generarían continuamente.

Lo que debes saber…

El data lake sanitario es un almacén que contiene toda la información sanitaria relativa a historias clínicas y datos de todos los pacientes atendidos en España.
Si se implantara este sistema, la atención de un paciente en una comunidad autónoma distinta a la de origen podría ser registrada en su historia clínica, facilitando la continuidad de su asistencia y evitando las duplicidades (o multiplicidades) de información, y ayudando a disminuir errores por falta de información.
Uno de los principales inconvenientes o dificultades atañe a la seguridad a la hora de almacenar los datos. Estos son extremadamente sensibles, incluyendo desde enfermedades físicas banales hasta enfermedades transmisibles, infecciosas y genéticas, así como dolencias psiquiátricas y psicológicas.

Publicado por Dra. Ana Puche 25 June, 2022

Te puede interesar

Qué son las ortesis, para qué sirven y sus tipos

5 Min de lectura

Las ortesis son una herramienta útil para cierto tipo de dolencias. Existen diferentes tipos según tipología y zona del cuerpo.

Ir al artículo

Medicamentos que afectan a la conducción

3 Min de lectura

No sólo el alcohol y las drogas ilegales pueden ser capaces de causar alteraciones en el estado de los conductores de vehículos y provocar un accidente de tráfico. Existen una serie de medicamentos que, incluso bien tomados, pueden afectar a la capacidad de conducción, tanto por sus efectos terapéuticos como por posibles efectos secundarios.

Ir al artículo

Qué son los nociceptores o receptores del dolor

3 Min de lectura

El dolor es una experiencia compleja que involucra aspectos tanto sensoriales como emocionales. Cuando se experimenta dolor intervienen una serie de mecanismos fisiológicos y neuroanatómicos que permiten su percepción y procesamiento en el cerebro. Los nociceptores desempeñan un papel fundamental en este proceso, son terminaciones nerviosas libres que se encuentran en la piel y en estructuras sensibles profundas.

Ir al artículo

Tipos de vacunas frente al COVID-19

4 Min de lectura

Las vacunas frente al COVID 19 son seguras, los síntomas más comunes después de su administración suelen ser dolor de cabeza moderado, muscular y mal estar general, algo habitual en cualquier vacuna.

Ir al artículo