machine learning

Donde residen los datos: Data Lake

Posted on Actualizado enn

datalake

Un nuevo concepto. La verdad es que todavía no lo había escuchado. Sí que había oído hablar de lo que significa….

Un Data lake, según José Blanco (Big data & Business Intelligence Expert) es un repositorio donde se almacenan todos los datos de la compañía, estructurados y sin estructurar, sin ningún tipo de preprocesamiento (raw data) y sin ningún tipo de esquema, para ser analizados posteriormente.

Parece ser que el término fué acuñado por James Dixon, CTO de Pentaho, en contraposición al concepto de Data Mart que es un repositorio menor de atributos relevantes extraídos y analizados desde los datos en bruto (raw data).

Argumentó que los DM tienen algunos problemas inherentes para los que los Data Lakes son la solución óptima. Suelen ser problemas relativos a los silos de información, es decir, que realmente, los data marts dan una visión sesgada y parcial de la información porque debe contener información estructurada y homogénea. Así, la mejor solución es tener toda la información, sea del tipo que sea, en bruto, para su análisis en un repositorio basado en Hadoop.

Así, la idea de un Data Lake, es tener en un solo repositorio TODA la información de la institución, que va desde los datos en bruto  (que implica copia exacta de los datos del sistema fuente), a los datos transformados, que se utilizan para diversas tareas, incluyendo informes, visualización, análisis y machine learning.

Un data lake incluye datos estructurados de bases de datos relacionales (filas y columnas), semi-estructurados (CSV, logs, XML, JSON), datos no estructurados (emails, documentos, PDFs) e incluso datos binarios (imágenes, audio, vídeo), creando así un repositorio centralizado de datos que contiene cualquier tipo de dato.

He leído una comparativa respecto a los DWH que me ha gustado:

“If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.”

Así pues, el datamart tiene formato, hemos trabajado (cocinado) los datos y da unos resultados que queremos obtener, así como una visión parcial o más bien temática sobre el ámbito que queremos analizar. El data lake no, en el data lake está todo, y podemos usar y crear las relaciones necesarias según nuestras necesidades. Yo veo el Data Lake como un repositorio más orientado a las máquinas, es decir, contienen la información necesaria para que un máquina pueda procesar la información, sobre todo orientado a técnicas de machine learning, deep learning, IA, etc… Pero obviamente, los resultados que se pueden obtener son claramente más potentes.

¿Podemos decir que se dejarán de usar los DWH? Yo personalmente creo que el concepto de DWH y un Data Lake no son lo mismo y que han sido ideados para diferentes propósitos, aunque es inevitable compararlos, de hecho, creo que podría decirse que los Data Marts podrían estar incluidos o ser una parte del Data Lake, ¿no?. Sí que diré que, por mi experiencia con las Universidades, los DWH no han tenido el resultado esperado. Hace unos años, se realizaron grandes inversiones para el desarrollo de grandes DWH corporativos, pero el resultado es que son sistemas muy grandes, difíciles de mantener y no son ágiles de usar y no se ha generalizado su uso, en general, dentro de la institución (esos son los comentarios que he oído a sus usuarios o usuarios potenciales de las universidades). Así que creo que un Data Lake, en un periodo no muy largo de tiempo, podría llegar a sustituir el uso del DWH como lo conocemos ahora, o bien, podría consolidarse como una herramienta con muchos más resultados de los que han podido ofrecer los grandes DWH corporativos.

Me ha gustado esta comparativa entre un DWH y un Data Lake:

La conclusión es clara, ¿no?.

 

Ver artículo completo de José Blanco, sobre Data Lake:

https://www.linkedin.com/pulse/que-es-un-data-lake-big-y-bi-jose-blanco

Otras referencias usadas:

http://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html

https://en.wikipedia.org/wiki/Data_lake

 

¿Qué pasa con los datos de investigación?

Posted on Actualizado enn

grafo

 

Parece que últimamente solo se habla de los datos de investigación ¿qué pasa con los datos de investigación? por mi experiencia, intentaré resumir un poco donde estamos y cómo ha ido evolucionando, a mi modo de ver…

Inicialmente, la mayor preocupación de las instituciones era tener un repositorio que recogiera toda la información de la institución relativa a la investigación. Lo que parece una cosa obvia y trivial, no se cumplía en muchos casos y muchas universidades y centros de investigación no tenían (ni tienen actualmente) centralizada toda la producción científica que se realiza en su institución. Muchos investigadores publican directamente solo en revistas de prestigio o bien tienen otras actividades recogidas en webs propias o de departamentos, no permitiendo que la institución tenga una visión global de la investigación que se realiza. Esto es realmente una desventaja para la institución, porque conlleva que muchos de los indicadores de producción científica estén por debajo de lo que realmente podrían estar y no se refleja ni en rankings ni en diferentes fuentes de información y comparativas entre universidades que tan de moda se están poniendo.

Si la universidad ofrece un Portal con información sobre la investigación que se desarrolla en la misma, podría perder, por ejemplo, oportunidades de financiación y de visibilidad en los medios.

Así pues, como primer paso es imprescindible tener un sistema de gestión de la investigación que proporcione un repositorio centralizado con la producción científica de la universidad o la institución, garantizando la calidad de los datos que allí se registran, importando el máximo de información de fuentes externas ya validadas como las principales bases de datos comerciales. Con este primer paso, como me han dicho alguna vez desde una universidad: “ahora ya tenemos los datos ordenados”. Así, la mayoría de las universidades disponen de lo que llamamos un CRIS (Current Research Information System). Este sistema, a su vez, debe disponer de herramientas de análisis de datos, que den respuesta a objetivos tan importantes como:

  • La toma de decisiones
  • La financiación
  • el enrollment (atracción de talento)
  • optimización de procesos
  • indicadores de productividad

Con la aparición del movimiento OpenAccess, podríamos decir que la cosa “se complica”, aunque no mucho. Las universidades rápidamente han definido sus repositorios institucionales OpenAccess, donde recogen toda la producción científica que se realiza con fondos públicos, como marca la Ley de la Ciencia. La mayoría de ellos, utilizando el software DSpace. A nivel europeo también “se han puesto las pilas” rápidamente con ello, por la misma normativa a nivel europeo para los proyectos H2020. Así, el siguiente paso natural ha sido el enlace entre el sistema CRIS y el Repositorio institucional, que permita acceder a toda la información, tanto de la referencia de la producción científica, como de la publicación en formato digital, si existe.

Ahora hay que añadir a todo ello el OpenData, donde se promueve que los investigadores publiquen en abierto los resultados de sus investigaciones (los datos de los experimentos, etc..), datos parciales, datasets, en el formato que sea. Para ello, ya están empezando a proliferar las plataformas para la publicación de estos datos.

Todo ello, ha creado un universo de información relativa a la investigación diseminada en multitud de webs, bases de datos, repositorios, plataformas, redes, etc… que hace casi imposible permitir su acceso y análisis y la pérdida de potencial que toda esta información puede aportar al mundo de la investigación.

Es por ello que también se están empezando a desarrollar herramientas que permitan realizar como un mapa conceptual del universo de la investigación en que todo esté relacionado y permita de alguna forma “navegar” entre tanta información, así como proponer resultados y llegar a información que de otra forma sería casi imposible. Para ello, conceptos como el Machine Learning e incluso la AI (inteligencia artificial) deben ayudar a realizar estos mapas conceptuales que permitan este acceso a la información de la investigación. Y eso es en lo que los tecnólogos estamos embarcados y creo que es un reto importante y a la vez emocionante.