31 de enero de 2024

Novedades en el depósito de datos de investigación

Escrito por Andrés Santiago
Servicio de Apoyo a la Docencia
Biblioteca UNED

Palabras clave: datos, datasets, depósito, repositorios, legislacion, FAIR

---

En el contexto de la ciencia abierta, los datos de investigación cobran un papel protagonista en el proceso de comunicación científica, puesto que son imprescindibles para asegurar la reutilización y la reproducibilidad de los resultados de investigación. En esta entrada respondemos a preguntas relevantes como ¿cuál es el mandato de depósito de datos según la legislación vigente en España?, ¿qué son los datos FAIR?, o ¿dónde y cómo realizar el depósito de mis datos? 

Desde la Declaración de Budapest en 2002, con el nacimiento del movimiento del Acceso Abierto, primero, y de la Ciencia Abierta después, cada vez más voces remarcan la necesidad de una ciencia más abierta, más justa y más transparente.  

La Estrategia Nacional de Ciencia Abierta (ENCA), aprobada en Consejo de Ministros en 2023, defiende que la ciencia abierta “contribuye a aumentar la transparencia y fomentan la participación, la cooperación, la rendición de cuentas, la capacidad de reutilización del trabajo investigador, el impacto y la reproducibilidad de resultados.” 

En este contexto, los datos de investigación cobran un papel protagonista en el proceso de comunicación científica, puesto que son imprescindibles para asegurar la reutilización y la reproducibilidad de los resultados de investigación. Por este motivo, en los últimos años se han producido una serie de cambios legislativos que obligan al depósito de datos de investigación en repositorios de acceso abierto.

¿Cuál es el mandato de depósito de datos según la legislación vigente? 

Desde el año 2011, y tras la aprobación de la Ley 14/2011, de 1 de junio, de la Ciencia, la Tecnología y la Innovación, el personal investigador cuya actividad investigadora esté financiada mayoritariamente con fondos públicos, deberá depositar una copia de sus publicaciones científicas en un repositorio institucional. 

En la modificación de la ley del año 2022, se incluye un nuevo artículo dedicado a la ciencia abierta (artículo 37), que añade una serie de requisitos que el personal investigador deberá tener en cuenta para las publicaciones posteriores al año 2022: 

  1. El mandato de depósito se amplía a los datos de investigación asociados a publicaciones, por lo que el personal investigador deberá depositar los datos utilizados para su investigación en un repositorio de datos, de manera que puedan ser localizados y reutilizados.
  2. El depósito en el repositorio ha de realizarse de manera simultánea a la publicación, sin perjuicio de posibles restricciones de acceso en el caso de datos sensibles o personales. Es decir, aunque el acceso a los datos esté restringido por una causa justificada, los metadatos que identifican el conjunto de datos, la autoría, etc. deberán ser públicos y localizables en el repositorio.

La Ley Orgánica 2/2023, de 22 de marzo, del Sistema Universitario (LOSU), posterior a la modificación mencionada, se alinea con este mandato y, además, en el artículo 12, define datos como “aquellas fuentes primarias necesarias para validar los resultados de las investigaciones”, una definición amplia que incluye datos tales como conjuntos de datos tabulares, respuestas a entrevistas o encuestas, imágenes, grabaciones o transcripciones y, en definitiva, todas las tipologías de datos recolectados o analizados durante el proceso de investigación.  

La LOSU, además, explicita que “los datos depositados deberán seguir los principios FAIR (datos fáciles de encontrar, accesibles, interoperables y reutilizables) y, siempre que sea posible, difundirse en acceso abierto.

Fuente de la imagen: Pexels

¿Qué son los datos FAIR y cómo asegurar su cumplimiento? 

Los principios FAIR son una serie de principios que aseguran que los datos de investigación que depositamos en el repositorio son fáciles de encontrar, accesibles, interoperables y reutilizables, es decir, los principios FAIR aseguran que las investigaciones sean replicables y que los datos recolectados para una investigación puedan usarse también en otros proyectos. 

Algunas de las medidas que habrán de tomarse para que nuestros datos sean FAIR son las siguientes: 

  • Fáciles de encontrar:
    • El conjunto de datos tiene un identificador persistente, como DOI o handle.
    • El conjunto de datos tiene los metadatos necesarios para su localización y uso.
  • Accesibles:
    • El conjunto de datos está depositado en un repositorio de datos.
    • El conjunto de datos está lo más abierto posible.
    • Los metadatos del conjunto de datos tienen una licencia CC-0.
  • Interoperables:
    • El conjunto de datos sigue estándares y normas.
    • El conjunto de datos usa formatos abiertos.
  • Reutilizables:
    • El conjunto de datos está bien documentado, con archivos readme, diccionarios de datos, etc.
    • El conjunto de datos tiene una licencia clara, como las licencias Creative Commons.

Es importante recordar que el cumplimiento de los principios FAIR es compatible con el acceso restringido a ciertos datos de investigación, siguiendo la máxima de la Comisión Europea “tan abiertos como sea posible, tan cerrados como sea necesario”. En estos casos, la descripción de los datos (los metadatos) han de ser públicos y localizables en un repositorio. De esta manera, y a modo de ejemplo, una persona o institución interesada podría solicitar el acceso individual a los datos. 

Si tienes dudas de si un conjunto de datos cumple los principios FAIR, existen herramientas como FAIR-Checker que evalúan de manera automática si un conjunto de datos es FAIR al insertar su DOI.

¿Cómo preparar los datos para el depósito? 

Antes de realizar el depósito de los datos, es conveniente organizar el conjunto de datos para favorecer su reutilización. Algunas de las recomendaciones de la biblioteca de la UNED son: 

  • La versión de los datos depositada ha de ser la versión final, es decir, los datos han de haber sido refinados y limpiados, y, si fuera necesario, anonimizados o pseudonimizados.
  • El conjunto de datos debe estar bien documentado, acompañado de cualquier archivo que sea necesario para la interpretación o reutilización de los datos, incluyendo guías de entrevistas o encuestas, cuadernos de código, archivos readme.txt, diccionarios de datos,
  • Los nombres de los archivos deben ser claros y la organización lógica. Si es necesario, puede incluirse una lista de archivos en el archivo readme.txt.
  • Se deben utilizar formatos abiertos no propietarios como CSV para datos tabulares, PDF para documentos, PNG para imágenes, etc.
  • En el caso de los datos tabulares, los datos han de estar organizados en formatos listos para su tratamiento computacional (tidy data).
  • Si existen publicaciones relacionadas con el conjunto de datos, deben incluirse en los metadatos y en el archivo readme.txt.

¿Dónde y cómo realizar el depósito de mis datos? 

Para asegurar que los datos sean localizados y reutilizados por colegas de nuestras áreas, es recomendable depositar nuestros datos en repositorios temáticos y especializados, muy comunes en las ciencias experimentales y no tanto en ciencias sociales y humanidades.  

Elegir un repositorio de datos adecuado puede ser una tarea difícil ante la inmensa cantidad de repositorios temáticos disponibles. Una buena manera de localizar repositorios adecuados es el registro re3data, que asegura la calidad de los repositorios indizados, incluyendo medidas de interoperabilidad semántica y técnica necesarias para el cumplimiento de los principios FAIR. 

En cualquier caso, la biblioteca de la UNED recomienda el depósito en e-cienciaDatos, el repositorio de datos del Consorcio Madroño, que puede realizarse de manera exclusiva o de manera paralela al depósito en un repositorio especializado. 

El depósito en e-cienciaDatos es una buena manera de asegurar el cumplimiento de los principios FAIR, ya que, al tratarse de un depósito delegado, el personal de las bibliotecas del Consorcio Madroño se asegurará de la calidad en la descripción de los datos y le asignará de manera inmediata un DOI.  

Además, el repositorio e-cienciaDatos cuenta con el sello de calidad CoreTrustSeal y es recolectado por agregadores internacionales como OpenAIRE Explore

Si tienes preguntas sobre el depósito en e-CienciaDatos, puedes ponerte en contacto con el personal del repositorio de la biblioteca de la UNED en repositoriobiblioteca@adm.uned.es

Cómo citar esta entrada:

Santiago, Andrés (2023). Novedades en el depósito de datos de investigación. Aula Magna 2.0 [Blog]. https://cuedespyd.hypotheses.org/14509

---

Tomado de Aula Magna 2.0 con permiso de sus editores