Principios de datos FAIR

Los datos son un activo invaluable en la era digital, impulsando la toma de decisiones y generando conocimiento en diversos campos. Sin embargo, a medida que la cantidad de datos disponibles crece exponencialmente, surge el desafío de gestionarlos de manera eficiente y significativa. Es aquí donde entran en juego los principios de datos FAIR (Findable, Accessible, Interoperable, Reusable). En este artículo exploraremos en detalle estos principios y su importancia en el mundo de la ciencia de datos. ¡Acompáñanos en este viaje de descubrimiento para comprender cómo los datos FAIR pueden revolucionar la forma en que interactuamos y aprovechamos la información en la era digital!

Publicados por primera vez en 2016, los principios FAIR proporcionan directrices para buenas prácticas de gestión de datos. Cada carta hace referencia a cuatro principios fundamentales y 15 principios rectores que prescriben cómo se puede lograr la JUSTICIA de los datos mediante la implementación técnica. Estos principios tienen como objetivo hacer que los datos sean JUSTOS:

  1. Encontrable
  2. Accesible
  3. Interoperable y
  4. Reutilizable

El término Datos Se refiere a todo tipo de artefactos digitales, como datos, códigos, software, documentos, infraestructura, etc.

Principios JUSTOS

Aunque los principios FAIR se originan en las ciencias biológicas, se pueden aplicar tanto en el ámbito académico como empresarial. Desde su publicación, la Unión Europea, las instituciones y corporaciones de investigación han extendido su apoyo a los principios FAIR. Esto abarca desde la definición de políticas para la gestión de datos hasta la implementación técnica, herramientas e infraestructuras. Algunas implementaciones de FAIR se adhieren estrictamente a las definiciones originales, mientras que otras se derivan de los principios fundamentales de FAIR.

Encontrable

Los metadatos son información estructurada sobre el material de datos recopilado. Esta información describe el material en varios niveles, por ejemplo, dónde y quién fue creado; en qué ocasiones y con qué métodos se recogieron los datos; qué significa una variable y qué valores puede tomar. Los metadatos no son lo mismo que la documentación; Lo que significa metadatos es que están estructurados de manera que sean legibles tanto para humanos como para computadoras. Encontrable significa que los datos son detectables tanto por humanos como por máquinas. Los datos pueden exponerse para interacciones significativas a través del acceso programático a través de API e interfaces técnicas, así como interfaces amigables para los humanos. El catálogo de datos (una colección de metadatos, combinados con herramientas de búsqueda y gestión de datos) puede ayudar enormemente a mejorar el descubrimiento y la capacidad de búsqueda de datos. Cuando los datos se enriquecen con metadatos para describirlos y se identifican mediante identificadores únicos y persistentes (PID), como DOI o identificadores utilizando una ontología común, tanto los humanos como las computadoras podrían encontrar y consumir datos fácilmente. Los metadatos legibles por máquina son esenciales para el descubrimiento automático de conjuntos de datos y servicios, por lo que este es un componente esencial del proceso FAIR. Los principios rectores son:

  • F1. A los (meta)datos se les asigna un identificador globalmente único y eternamente persistente.
  • F2. Los datos se describen con metadatos enriquecidos (definidos por R1 a continuación)
  • F3. Los metadatos incluyen clara y explícitamente el identificador de los datos que describen.
  • F4. Los (meta)datos se registran o indexan en un recurso con capacidad de búsqueda.

Accesible

Una vez que el usuario encuentra los datos requeridos, necesita saber cómo se puede acceder a ellos, posiblemente incluyendo autenticación y autorización. Accesible significa que los datos se conservan en un almacenamiento adecuado, de modo que puedan aprovecharse mediante procedimientos técnicos y operativos estándar. Esto no significa que los datos tengan que estar disponibles abiertamente para todos. Sin embargo, debe estar disponible información sobre el mecanismo adecuado de acceso a los datos. Por ejemplo, los datos confidenciales deben marcarse adecuadamente con la clase de sensibilidad (pública, confidencial, altamente confidencial, restringida, etc.) y el nivel de seguridad pertinentes (por ejemplo, 1 a 5, donde 1 es misión crítica y 5 es acceso público). El procedimiento de acceso también debe documentarse adecuadamente, por ejemplo, __Acceder solo con la aprobación explícita del propietario/administrador de datos_ e incluir los datos de contacto. Compartir o hacer accesible un material de datos no es lo mismo que compartir los datos libremente para que todos puedan acceder a ellos y utilizarlos. Si el material contiene datos personales confidenciales o datos de categorías especiales, por ejemplo, se debe realizar una evaluación de confidencialidad antes de que el material pueda divulgarse a alguien. Sin embargo, los metadatos no son confidenciales, por lo que incluso si no se puede acceder libremente a los datos, puede utilizarlos para demostrar que el material existe y bajo qué condiciones puede acceder a él y reutilizarlo. Idealmente, la información sobre accesibilidad a los datos también debería ser leída por máquinas a través de licencias estándar legibles por máquinas. Los principios rectores son:

  • A1. Los (meta)datos se pueden recuperar mediante su identificador utilizando un protocolo de comunicación estandarizado
  • A1.1 El protocolo es abierto, gratuito y de implementación universal
  • A1.2 El protocolo permite un procedimiento de autenticación y autorización, cuando sea necesario
  • A2. Los metadatos son accesibles, incluso cuando los datos ya no están disponibles.

Interoperable

Por lo general, los datos deben integrarse con otros datos. Además, los datos deben interoperar con aplicaciones o flujos de trabajo para su análisis, almacenamiento y procesamiento. Interoperable significa que los datos se pueden intercambiar y utilizar entre diferentes aplicaciones y sistemas, también en el futuro, por ejemplo, mediante el uso de formatos de archivo abiertos. También significa que los datos se pueden integrar con otros datos y sistemas, tanto internos como externos a una organización. Esto se puede lograr mediante el uso de estándares de metadatos, ontologías estándar, nomenclatura y vocabularios gobernados, así como vínculos significativos entre los datos (semántica) y los procesos comerciales digitales relacionados.

La principal responsabilidad de esto recae en la organización que hace que los datos sean accesibles. Pero también significa que los productores y consumidores de datos deben utilizar formas estandarizadas para ingresar información como fechas, períodos de tiempo y coordenadas geográficas, etc. Las partes interesadas en los datos deben utilizar un vocabulario ampliamente adoptado para describir categorías y codificar variables de acuerdo con un estándar aceptado. Si es posible, debe guardar los datos en un formato de archivo ampliamente utilizado que sea compatible con los sistemas operativos comunes y que pueda abrirse en varios programas, o utilizar software que pueda exportar datos en dichos formatos de archivo cuando el proyecto esté terminado. Los principios rectores son:

  • I1. Los (meta)datos utilizan un lenguaje formal, accesible, compartido y ampliamente aplicable para la representación del conocimiento.
  • I2. (Meta)datos utilizan vocabularios que siguen los principios FAIR
  • I3. Los (meta)datos incluyen referencias calificadas a otros (meta)datos

Reutilizable

El objetivo final de FAIR es optimizar la reutilización de datos. Para lograr esto, los metadatos y los datos deben estar bien descritos para que puedan replicarse y/o combinarse en diferentes entornos. Reutilizable significa que los datos están bien documentados y seleccionados y proporcionan información valiosa sobre el contexto de la creación de datos. Los datos deben ajustarse a los estándares comunitarios e incluir términos y condiciones claros sobre cómo se puede acceder a ellos y reutilizarlos, preferiblemente mediante la aplicación de licencias estándar legibles por máquina. Esto permite a otros evaluar y validar la idoneidad del propósito (Utilidad) y el uso (Garantía) de los datos recopilados.

Dicha información también garantiza la reproducibilidad de los datos o para diseñar nuevos proyectos basados ​​en los resultados originales. En otras palabras, la reutilización de datos fomenta la colaboración y evita la duplicación de datos (silos de datos). Las condiciones adicionales para la reutilización son que los datos se describan con metadatos suficientes y relevantes, que tanto los humanos como las computadoras puedan leer los metadatos y que haya información clara sobre, por ejemplo, el propósito de los datos recopilados, el contexto para la recopilación de datos. así como qué equipos y software se utilizaron para la recolección y análisis de datos. También debe especificar claramente las condiciones sobre cómo se pueden utilizar los datos. Los principios rectores son:

  • R1. Los (meta)datos se describen detalladamente con una pluralidad de atributos precisos y relevantes.
  • R1.1. Los (meta)datos se publican con una licencia de uso de datos clara y accesible
  • R1.2. Los (meta)datos están asociados con una procedencia detallada
  • R1.3. Los (meta)datos cumplen con los estándares comunitarios relevantes para el dominio

Los principios FAIR se aplican tanto a los datos como a los metadatos. La implementación de los principios FAIR conducirá a la creación de un ecosistema de datos (Internet de datos y servicios FAIR) que responda a las condiciones cambiantes del mercado y se adapte automáticamente a nuevos escenarios emergentes en torno a estándares de datos, interfaces de intercambio, protocolos, mecanismos de identificación, disponibilidad, etc. .

Los principios FAIR no son reglas ni estándares. Los principios FAIR no deben confundirse con reglas o estándares que se pueden utilizar para evaluar herramientas, datos, políticas, etc. Esto pronto haría que los principios quedaran obsoletos e inaplicables en múltiples disciplinas. La adopción de los principios FAIR será a menudo una adaptación gradual de las rutinas de trabajo, pero también podría ser un gran salto en el que se reemplaza un tipo de infraestructura por otro. Corresponderá a las diferentes áreas de investigación y comunidades de investigación hacer que los principios FAIR funcionen en sus respectivos contextos.

Prácticas JUSTAS

La aplicación de los principios FAIR depende de disciplinas y estructuras industriales específicas. Sin embargo, existen diferentes actividades que las organizaciones deben considerar al desarrollar procesos y flujos de trabajo comerciales para que los datos empresariales cumplan con FAIR. Por ejemplo, documentar datos utilizando un glosario de datos de toda la empresa en un catálogo de datos, elegir formatos de archivo apropiados, agregar metadatos, aprovisionar y controlar el acceso a los datos a los consumidores (usuarios) de datos, otorgar licencias de datos (monetización de datos) o agregar un identificador persistente (monetización de datos). clasificación) ayudará a mejorar el cumplimiento FAIR.

La documentación agrega un contexto rico a sus datos y hace que los datos sean más fáciles de entender y reutilizar en el futuro. Los formatos de archivo determinan cómo se pueden utilizar los datos. Es importante decidir qué formatos de archivo utilizar para la recopilación de datos, el procesamiento de datos, el archivo de datos y el archivo a largo plazo. Es importante tener en cuenta los formatos de archivo cuando se desea combinar conjuntos de datos o hacer que los datos sean legibles por máquinas. Los metadatos son datos sobre datos. Los datos de investigación necesitan metadatos para que sean localizables, accesibles, interoperables y reutilizables, tanto por humanos como por máquinas. El acceso a los datos significa que usted determina para quién pone sus datos a disposición, cómo proporciona acceso y bajo qué condiciones. Para que sus datos sean accesibles y fáciles de encontrar, debe proporcionar a sus datos y metadatos un identificador persistente (PID). Un PID es una referencia duradera a un recurso digital y proporciona la información necesaria para identificar, verificar y localizar de manera confiable los datos de su investigación. Una licencia de datos es un acuerdo legal entre el creador de los datos y el usuario de los datos que especifica qué pueden hacer los usuarios con los datos, como la Política de uso aceptable (AUP). Es una de las formas más efectivas de comunicar permisos a posibles usuarios de datos.

Comunidad

Aunque lo iniciaron una comunidad que opera en las ciencias de la vida, los principios FAIR han sido adoptados rápidamente por editores, financiadores y sociedades y programas de infraestructura pandisciplinarios. Muchos grupos y organizaciones están trabajando para definir directrices y herramientas que ayuden a los investigadores y otras partes interesadas (como bibliotecarios, financiadores, editores y formadores) a hacer que los datos sean más JUSTOS. Si está interesado en participar en estas comunidades, existen dos iniciativas globales que actúan como organizaciones coordinadoras y puntos de referencia para muchos esfuerzos de disciplinas específicas: GOFAIR y el Alianza de datos de investigación (RDA).

  • Bajo GOFAIR, hay muchos Redes de implementación (IN) comprometidos con la implementación de los principios FAIR
  • En el marco de la RDA, existen varios grupos que abordan diferentes aspectos relevantes para el ciclo de vida del RDM. Entre estos, Grupo de trabajo del modelo de madurez de datos FAIR está revisando los esfuerzos existentes, basándose en ellos para definir un conjunto estándar de criterios de evaluación comunes para la evaluación de la JUSTICIA

Este grupo de trabajo reúne a partes interesadas de diferentes disciplinas científicas y de investigación, la industria y el sector público, que están activas y/o interesadas en los principios de datos FAIR y, en particular, en los criterios y metodologías de evaluación para evaluar su nivel de adopción e implementación en la vida real.

Think Insights (25 de septiembre de 2023) Principios de datos FAIR. Obtenido de https://thinkinsights.net/data/fair-data/.
«Principios de datos FAIR.» Think Insights – 25 de septiembre de 2023, https://thinkinsights.net/data/fair-data/
Piensa en Insights 23 de junio de 2022 Principios de datos FAIR.visto el 25 de septiembre de 2023,<https://thinkinsights.net/data/fair-data/>
Piensa en ideas – Principios de datos FAIR. [Internet]. [Accessed September 25, 2023]. Disponible de: https://thinkinsights.net/data/fair-data/
«Principios de datos FAIR.» Think Insights – Consultado el 25 de septiembre de 2023. https://thinkinsights.net/data/fair-data/
«Principios de datos FAIR.» Piensa en ideas [Online]. Disponible: https://thinkinsights.net/data/fair-data/. [Accessed: September 25, 2023]
Error 403 The request cannot be completed because you have exceeded your quota. : quotaExceeded




Preguntas frecuentes sobre principios de datos FAIR

Principios de datos FAIR

Los principios de datos FAIR (Findable, Accessible, Interoperable, Reusable) se han vuelto fundamentales en el ámbito de la gestión de datos. Estos principios buscan garantizar que los datos sean fácilmente localizables, accesibles, interoperables y reutilizables tanto para humanos como para máquinas, promoviendo así la transparencia, la colaboración y la innovación en la investigación científica y más allá.

¿Qué significan los principios de datos FAIR?

Los principios de datos FAIR se desglosan de la siguiente manera:

  1. Findable (Encontrables): Los datos deben ser fáciles de encontrar tanto por humanos como por máquinas. Para ello, es necesario asignar identificadores únicos persistentes a los conjuntos de datos y utilizar metadatos descriptivos.
  2. Accessible (Accesibles): Los datos deben ser accesibles de forma clara y gratuita para cualquier persona interesada. Esto implica que los datos deben tener acceso abierto sin restricciones técnicas o legales significativas.
  3. Interoperable (Interoperables): Los datos deben ser estructurados de manera tal que puedan ser integrados y combinables con otros conjuntos de datos. Además, deben seguir estándares y vocabularios comunes para facilitar su interpretación y reutilización.
  4. Reusable (Reutilizables): Los datos deben estar bien documentados, lo que implica proporcionar metadatos claros y legibles tanto para humanos como para máquinas. Esto permitirá que los datos sean fácilmente comprensibles y utilizados de manera ética, legal y equitativa.

¿Cómo se pueden implementar los principios de datos FAIR?

Para implementar los principios de datos FAIR, se pueden seguir los siguientes pasos:

  1. Crear identificadores únicos: Asigne identificadores persistentes y únicos a cada conjunto de datos para facilitar su localización.
  2. Utilizar metadatos descriptivos: Proporcione información detallada sobre cada conjunto de datos, como su origen, su formato y su contenido.
  3. Utilizar estándares y vocabularios comunes: Adhiera a estándares y vocabularios reconocidos para asegurar la interoperabilidad y la integración con otros datos.
  4. Facilitar el acceso abierto: Elimine barreras técnicas y legales para permitir que cualquier persona pueda acceder a los datos de forma gratuita.
  5. Documentar correctamente los datos: Proporcione metadatos claros y legibles que permitan a los usuarios comprender y evaluar los datos de manera adecuada.

Implemetar estos principios no solo beneficia a los científicos y académicos, sino que también impulsa la colaboración, la transparencia y la innovación en diferentes áreas, incluyendo la ciencia de datos y la investigación científica en general.

Para obtener más información sobre los principios de datos FAIR, se recomienda visitar los siguientes enlaces:


Deja un comentario