Analytics

Donde residen los datos: Data Lake

Posted on Actualizado enn

datalake

Un nuevo concepto. La verdad es que todavía no lo había escuchado. Sí que había oído hablar de lo que significa….

Un Data lake, según José Blanco (Big data & Business Intelligence Expert) es un repositorio donde se almacenan todos los datos de la compañía, estructurados y sin estructurar, sin ningún tipo de preprocesamiento (raw data) y sin ningún tipo de esquema, para ser analizados posteriormente.

Parece ser que el término fué acuñado por James Dixon, CTO de Pentaho, en contraposición al concepto de Data Mart que es un repositorio menor de atributos relevantes extraídos y analizados desde los datos en bruto (raw data).

Argumentó que los DM tienen algunos problemas inherentes para los que los Data Lakes son la solución óptima. Suelen ser problemas relativos a los silos de información, es decir, que realmente, los data marts dan una visión sesgada y parcial de la información porque debe contener información estructurada y homogénea. Así, la mejor solución es tener toda la información, sea del tipo que sea, en bruto, para su análisis en un repositorio basado en Hadoop.

Así, la idea de un Data Lake, es tener en un solo repositorio TODA la información de la institución, que va desde los datos en bruto  (que implica copia exacta de los datos del sistema fuente), a los datos transformados, que se utilizan para diversas tareas, incluyendo informes, visualización, análisis y machine learning.

Un data lake incluye datos estructurados de bases de datos relacionales (filas y columnas), semi-estructurados (CSV, logs, XML, JSON), datos no estructurados (emails, documentos, PDFs) e incluso datos binarios (imágenes, audio, vídeo), creando así un repositorio centralizado de datos que contiene cualquier tipo de dato.

He leído una comparativa respecto a los DWH que me ha gustado:

“If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.”

Así pues, el datamart tiene formato, hemos trabajado (cocinado) los datos y da unos resultados que queremos obtener, así como una visión parcial o más bien temática sobre el ámbito que queremos analizar. El data lake no, en el data lake está todo, y podemos usar y crear las relaciones necesarias según nuestras necesidades. Yo veo el Data Lake como un repositorio más orientado a las máquinas, es decir, contienen la información necesaria para que un máquina pueda procesar la información, sobre todo orientado a técnicas de machine learning, deep learning, IA, etc… Pero obviamente, los resultados que se pueden obtener son claramente más potentes.

¿Podemos decir que se dejarán de usar los DWH? Yo personalmente creo que el concepto de DWH y un Data Lake no son lo mismo y que han sido ideados para diferentes propósitos, aunque es inevitable compararlos, de hecho, creo que podría decirse que los Data Marts podrían estar incluidos o ser una parte del Data Lake, ¿no?. Sí que diré que, por mi experiencia con las Universidades, los DWH no han tenido el resultado esperado. Hace unos años, se realizaron grandes inversiones para el desarrollo de grandes DWH corporativos, pero el resultado es que son sistemas muy grandes, difíciles de mantener y no son ágiles de usar y no se ha generalizado su uso, en general, dentro de la institución (esos son los comentarios que he oído a sus usuarios o usuarios potenciales de las universidades). Así que creo que un Data Lake, en un periodo no muy largo de tiempo, podría llegar a sustituir el uso del DWH como lo conocemos ahora, o bien, podría consolidarse como una herramienta con muchos más resultados de los que han podido ofrecer los grandes DWH corporativos.

Me ha gustado esta comparativa entre un DWH y un Data Lake:

La conclusión es clara, ¿no?.

 

Ver artículo completo de José Blanco, sobre Data Lake:

https://www.linkedin.com/pulse/que-es-un-data-lake-big-y-bi-jose-blanco

Otras referencias usadas:

http://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html

https://en.wikipedia.org/wiki/Data_lake

 

Anuncios

Retos en BigData en la Universidad y la Investigación

Posted on

El pasado 2 de diciembre, tuve la oportunidad de asistir al encuentro de los Servicios informáticos de universidades Catalanas, organizado por el CSUC (Consorcio de Servicios Universitarios de Cataluña) que se celebró en la Universitat Autónoma de Barcelona, y que en su 15a edición, centró su atención en el BigData y cómo aplicar este nuevo paradigma en la universidad y en la investigación.

Se presentaron casos e iniciativas relacionados con BigData, como por ejemplo, BCNAnalytics, una iniciativa de una plataforma abierta para la recogida de datos geolocalizados generados por diferentes ámbitos relacionados con la ciudad de Barcelona y ponerlos en formato abierto (OpenData) para ser usados por quien esté interesado en ellos.

También se presentaron interesantes iniciativas respecto a datos de investigación, que seguramente es donde más podríamos hablar de algo similar a BigData en entornos universitarios. En este caso, sería de todo el movimiento que se está impulsando para que los datos de investigación se publiquen en modo abierto (OpenData). Se vieron interesantes iniciativas realizadas por grupos de investigación de algunas universidades que permiten compartir estos datos de investigación donde, lo que para un investigador sería “ruido” para su investigación, como se suele llamar, para otros investigadores podría ser información interesante para la suya. Todo ello podría llevar a la reutilización de información y, por lo tanto, a mejoras en la eficiencia de algunas investigaciones. Concretamente, un grupo de investigación de la URV presentó una interesante plataforma ioChem para compartir datos de investigaciones sobre química computacional (sobretodo respecto a simulación de moléculas y materiales). Desde otro grupo de UAB se presentaron otras iniciativas respecto a ciencias de la vida. Todo ello son iniciativas muy interesantes pero que no tienen todavía soporte institucional de su universidad, que permitiría avanzar más en estas iniciativas.

El resto ya fueron presentaciones de casos de BigData relacionados con la empresa privada (Telvent, Oracle realizaron presentaciones de casos BigData), dado que es allí donde realmente se está desarrollando actualmente BigData.

Otro tema interesante que surgió y que puede considerarse muy cercano a lo que podría ser BigData en ámbitos académicos, es el concepto de Learning Analytics, donde se “estudia” el comportamiento de los estudiantes para poder conocerlos mejor y poder realizar recomendaciones. UOC presentó un caso de Learning Analytics propiciado por su modelo on-line de universidad.

Mi opinión es que en la universidad no existe un volumen de datos ni un modelo que, actualmente, nos permita hablar de BigData, como tal. Lo que más se acerca es todo el movimiento de OpenData de datos de investigación que he mencionado y que promueve que los investigadores publiquen sus datos de investigación. También todo lo relacionado con Learning Analytics, aunque en ambos casos, a mí me parecen más un modelo de analítica de datos que de BigData.
Aún así, no hay que perder de vista toda la información que se puede obtener de los alumnos a través de redes sociales y otros entornos y que pueda permitir, en un futuro, realizar actuaciones de BigData en estos ámbitos.

Enlace al programa de la jornada: http://www.csuc.cat/es/retos-en-big-data-en-la-universidad-y-la-investigacion