Recientemente, publiqué la descripción técnica de Esquema de Metadatos Ontológico (OIMS en inglés) en la revista Frontiers in Sustainable Food Systems, como parte de un número especial sobre “Herramientas ágiles de investigación orientadas a los datos para apoyar la transformación de los sistemas agrícolas de los pequeños agricultores”.
El CGIAR y el Centro Internacional de Mejoramiento de Maíz y Trigo (CIMMYT) se dedican a proporcionar productos de información de datos de investigación (RDIP en inglés) en acceso abierto, siguiendo los estándares de datos “encontrables, accesibles, interoperables y reutilizables” (FAIR en inglés). Las organizaciones dedicadas a los datos abiertos han hecho enormes progresos para que los datos sean localizables y accesibles. Un ejemplo claro es un repositorio de acceso libre y gratuito de estudios de investigación desarrollado por científicos del CIMMYT. El artículo 4.1.c.i. de la política de datos del CGIAR establece que “los activos de datos relevantes (por ejemplo, conjuntos de datos) y los metadatos serán interoperables y aptos para su reutilización”.
Esto es más fácil de decir que de hacer. Existen normas bien establecidas para los metadatos descriptivos, como el Dublin Core y la norma derivada que se utiliza ampliamente en el CGIAR, llamada acertadamente CGcore, utilizada en el repositorio de datos de investigación Dataverse del CIMMYT. Sin embargo, estas normas no existen en muchos ámbitos para describir el contenido real de los conjuntos de datos.
En el mejor de los casos, se desarrollan diccionarios de datos idiosincrásicos para conjuntos de datos, proyectos y a veces incluso programas específicos. Los diccionarios de datos idiosincrásicos ayudan a que los datos sean interoperables pero, en muchos casos, requieren un gran preprocesamiento antes de que los científicos puedan realmente reutilizar los datos. Disponer de una norma para los diccionarios de datos sería un gran avance, pero no es probable que se produzca pronto.
Lo siguiente mejor es estandarizar la forma de describir los diccionarios de datos. Así lo ha reconocido la comunidad de prácticas sobre datos socioeconómicos de la Plataforma CGIAR para Macrodatos en Agricultura. En los últimos años, los esfuerzos liderados por el CIMMYT han puesto remedio a esa falta de norma, dando lugar al esquema de metadatos (OIMS), flexible, extensible, legible por la máquina, inteligible para el ser humano y agnóstico para la ontología.
El artículo publicado en la revista Frontiers in Sustainable Food Systems describe un esquema de metadatos ligero, flexible y extensible. Está diseñado para describir de forma sucinta los datos recolectados para la investigación agrícola internacional para el desarrollo, facilitando la interoperabilidad. El esquema también pretende facilitar el almacenamiento, la recuperación y la vinculación de diferentes conjuntos de datos almacenados en un lago de datos.
Los datos de la investigación agrícola salen a la luz
El documento analiza la necesidad de este tipo de esquema. Normalmente, los datos de la investigación agrícola se presentan en diferentes formatos y proceden de distintas fuentes. Por ejemplo, podemos tener encuestas estructuradas, encuestas semiestructuradas, registros de teléfonos móviles y datos por satélite. En el caso de los datos socioeconómicos, pueden ser especialmente “desordenados”. Para facilitar la interoperabilidad, tenemos que encontrar métodos para describir estos conjuntos de datos, que sean legibles por la máquina o procesables.
Ha habido otros intentos de ofrecer una forma estandarizada de hacer interoperables los datos. Los enfoques anteriores han sido exhaustivos pero engorrosos. Esa podría ser la razón por la que normalmente sólo se utilizan en proyectos a gran escala. El OIMS proporciona un marco que puede ser utilizado por todos los gestores de datos y científicos para mejorar la interoperabilidad de los datos de investigación y garantizar que los datos puedan ser reutilizados con mucha más facilidad.
El documento ofrece una descripción detallada del OIMS, incluyendo: el esquema de metadatos, que describe el diccionario de datos; y los metadatos autodescriptivos, que describen los campos de los metadatos. A continuación, el documento demuestra la utilidad de este esquema utilizando un pequeño segmento de una encuesta de hogares.
Este documento presenta un enfoque coherente a nivel interno para proporcionar metadatos a los archivos de datos cuando no existen normas. Es flexible y ampliable, por lo que no quedará obsoleto antes de su aplicación a escala. El enfoque se basa en el concepto de los lagos de datos, donde los datos se almacenan tal cual. Para que los lagos de datos no se conviertan en pantanos, los metadatos son indispensables. El enfoque del esquema de metadatos del OIMS puede ayudar a normalizar la descripción de los metadatos y, por tanto, puede considerarse el arte de pesca para extraer datos del lago de datos.
Como parte del trabajo en curso iniciado por la comunidad de práctica sobre datos socioeconómicos de la Plataforma CGIAR para Macrodatos en Agricultura, se prevé la implementación del enfoque del esquema de metadatos del OIMS en conjuntos de datos que puedan crear indicadores destacados en el enfoque 100Q con vínculos a la naciente ontología socioeconómica SEOnt. Esto proporcionará a los conjuntos de datos una mayor interoperabilidad.
Con más y más conjuntos de datos que utilicen el enfoque OIMS en un futuro próximo, será posible convertir lo que actualmente es un pantano de datos socioeconómicos en un lago de datos. Esto proporcionará información oportuna y procesable para apoyar la transformación de los sistemas agroalimentarios, ayudando a los pequeños agricultores a ganarse la vida dentro de los límites planetarios.
La puesta en práctica del OIMS requiere que los gestores de datos y los científicos que los recogen se comprometan activamente a proporcionar los metadatos pertinentes. Como ya se ha mencionado, algunos de los metadatos pueden obtenerse de las soluciones de software que ya utilizan los científicos. Al tratarse de metadatos estructurados, pueden ser extraídos por máquinas. A menudo es necesario que los científicos los curen, sobre todo cuando la solución de software no proporciona la información clave que el científico tiene a mano pero que no está documentada de forma legible por la máquina.
Lea el artículo completo aquí.