IA

Donde residen los datos: Data Lake

Posted on Actualizado enn

datalake

Un nuevo concepto. La verdad es que todavía no lo había escuchado. Sí que había oído hablar de lo que significa….

Un Data lake, según José Blanco (Big data & Business Intelligence Expert) es un repositorio donde se almacenan todos los datos de la compañía, estructurados y sin estructurar, sin ningún tipo de preprocesamiento (raw data) y sin ningún tipo de esquema, para ser analizados posteriormente.

Parece ser que el término fué acuñado por James Dixon, CTO de Pentaho, en contraposición al concepto de Data Mart que es un repositorio menor de atributos relevantes extraídos y analizados desde los datos en bruto (raw data).

Argumentó que los DM tienen algunos problemas inherentes para los que los Data Lakes son la solución óptima. Suelen ser problemas relativos a los silos de información, es decir, que realmente, los data marts dan una visión sesgada y parcial de la información porque debe contener información estructurada y homogénea. Así, la mejor solución es tener toda la información, sea del tipo que sea, en bruto, para su análisis en un repositorio basado en Hadoop.

Así, la idea de un Data Lake, es tener en un solo repositorio TODA la información de la institución, que va desde los datos en bruto  (que implica copia exacta de los datos del sistema fuente), a los datos transformados, que se utilizan para diversas tareas, incluyendo informes, visualización, análisis y machine learning.

Un data lake incluye datos estructurados de bases de datos relacionales (filas y columnas), semi-estructurados (CSV, logs, XML, JSON), datos no estructurados (emails, documentos, PDFs) e incluso datos binarios (imágenes, audio, vídeo), creando así un repositorio centralizado de datos que contiene cualquier tipo de dato.

He leído una comparativa respecto a los DWH que me ha gustado:

“If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.”

Así pues, el datamart tiene formato, hemos trabajado (cocinado) los datos y da unos resultados que queremos obtener, así como una visión parcial o más bien temática sobre el ámbito que queremos analizar. El data lake no, en el data lake está todo, y podemos usar y crear las relaciones necesarias según nuestras necesidades. Yo veo el Data Lake como un repositorio más orientado a las máquinas, es decir, contienen la información necesaria para que un máquina pueda procesar la información, sobre todo orientado a técnicas de machine learning, deep learning, IA, etc… Pero obviamente, los resultados que se pueden obtener son claramente más potentes.

¿Podemos decir que se dejarán de usar los DWH? Yo personalmente creo que el concepto de DWH y un Data Lake no son lo mismo y que han sido ideados para diferentes propósitos, aunque es inevitable compararlos, de hecho, creo que podría decirse que los Data Marts podrían estar incluidos o ser una parte del Data Lake, ¿no?. Sí que diré que, por mi experiencia con las Universidades, los DWH no han tenido el resultado esperado. Hace unos años, se realizaron grandes inversiones para el desarrollo de grandes DWH corporativos, pero el resultado es que son sistemas muy grandes, difíciles de mantener y no son ágiles de usar y no se ha generalizado su uso, en general, dentro de la institución (esos son los comentarios que he oído a sus usuarios o usuarios potenciales de las universidades). Así que creo que un Data Lake, en un periodo no muy largo de tiempo, podría llegar a sustituir el uso del DWH como lo conocemos ahora, o bien, podría consolidarse como una herramienta con muchos más resultados de los que han podido ofrecer los grandes DWH corporativos.

Me ha gustado esta comparativa entre un DWH y un Data Lake:

La conclusión es clara, ¿no?.

 

Ver artículo completo de José Blanco, sobre Data Lake:

https://www.linkedin.com/pulse/que-es-un-data-lake-big-y-bi-jose-blanco

Otras referencias usadas:

http://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html

https://en.wikipedia.org/wiki/Data_lake