BigData

Donde residen los datos: Data Lake

Posted on Actualizado enn

datalake

Un nuevo concepto. La verdad es que todavía no lo había escuchado. Sí que había oído hablar de lo que significa….

Un Data lake, según José Blanco (Big data & Business Intelligence Expert) es un repositorio donde se almacenan todos los datos de la compañía, estructurados y sin estructurar, sin ningún tipo de preprocesamiento (raw data) y sin ningún tipo de esquema, para ser analizados posteriormente.

Parece ser que el término fué acuñado por James Dixon, CTO de Pentaho, en contraposición al concepto de Data Mart que es un repositorio menor de atributos relevantes extraídos y analizados desde los datos en bruto (raw data).

Argumentó que los DM tienen algunos problemas inherentes para los que los Data Lakes son la solución óptima. Suelen ser problemas relativos a los silos de información, es decir, que realmente, los data marts dan una visión sesgada y parcial de la información porque debe contener información estructurada y homogénea. Así, la mejor solución es tener toda la información, sea del tipo que sea, en bruto, para su análisis en un repositorio basado en Hadoop.

Así, la idea de un Data Lake, es tener en un solo repositorio TODA la información de la institución, que va desde los datos en bruto  (que implica copia exacta de los datos del sistema fuente), a los datos transformados, que se utilizan para diversas tareas, incluyendo informes, visualización, análisis y machine learning.

Un data lake incluye datos estructurados de bases de datos relacionales (filas y columnas), semi-estructurados (CSV, logs, XML, JSON), datos no estructurados (emails, documentos, PDFs) e incluso datos binarios (imágenes, audio, vídeo), creando así un repositorio centralizado de datos que contiene cualquier tipo de dato.

He leído una comparativa respecto a los DWH que me ha gustado:

“If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.”

Así pues, el datamart tiene formato, hemos trabajado (cocinado) los datos y da unos resultados que queremos obtener, así como una visión parcial o más bien temática sobre el ámbito que queremos analizar. El data lake no, en el data lake está todo, y podemos usar y crear las relaciones necesarias según nuestras necesidades. Yo veo el Data Lake como un repositorio más orientado a las máquinas, es decir, contienen la información necesaria para que un máquina pueda procesar la información, sobre todo orientado a técnicas de machine learning, deep learning, IA, etc… Pero obviamente, los resultados que se pueden obtener son claramente más potentes.

¿Podemos decir que se dejarán de usar los DWH? Yo personalmente creo que el concepto de DWH y un Data Lake no son lo mismo y que han sido ideados para diferentes propósitos, aunque es inevitable compararlos, de hecho, creo que podría decirse que los Data Marts podrían estar incluidos o ser una parte del Data Lake, ¿no?. Sí que diré que, por mi experiencia con las Universidades, los DWH no han tenido el resultado esperado. Hace unos años, se realizaron grandes inversiones para el desarrollo de grandes DWH corporativos, pero el resultado es que son sistemas muy grandes, difíciles de mantener y no son ágiles de usar y no se ha generalizado su uso, en general, dentro de la institución (esos son los comentarios que he oído a sus usuarios o usuarios potenciales de las universidades). Así que creo que un Data Lake, en un periodo no muy largo de tiempo, podría llegar a sustituir el uso del DWH como lo conocemos ahora, o bien, podría consolidarse como una herramienta con muchos más resultados de los que han podido ofrecer los grandes DWH corporativos.

Me ha gustado esta comparativa entre un DWH y un Data Lake:

La conclusión es clara, ¿no?.

 

Ver artículo completo de José Blanco, sobre Data Lake:

https://www.linkedin.com/pulse/que-es-un-data-lake-big-y-bi-jose-blanco

Otras referencias usadas:

http://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html

https://en.wikipedia.org/wiki/Data_lake

 

Anuncios

Retos en BigData en la Universidad y la Investigación

Posted on

El pasado 2 de diciembre, tuve la oportunidad de asistir al encuentro de los Servicios informáticos de universidades Catalanas, organizado por el CSUC (Consorcio de Servicios Universitarios de Cataluña) que se celebró en la Universitat Autónoma de Barcelona, y que en su 15a edición, centró su atención en el BigData y cómo aplicar este nuevo paradigma en la universidad y en la investigación.

Se presentaron casos e iniciativas relacionados con BigData, como por ejemplo, BCNAnalytics, una iniciativa de una plataforma abierta para la recogida de datos geolocalizados generados por diferentes ámbitos relacionados con la ciudad de Barcelona y ponerlos en formato abierto (OpenData) para ser usados por quien esté interesado en ellos.

También se presentaron interesantes iniciativas respecto a datos de investigación, que seguramente es donde más podríamos hablar de algo similar a BigData en entornos universitarios. En este caso, sería de todo el movimiento que se está impulsando para que los datos de investigación se publiquen en modo abierto (OpenData). Se vieron interesantes iniciativas realizadas por grupos de investigación de algunas universidades que permiten compartir estos datos de investigación donde, lo que para un investigador sería “ruido” para su investigación, como se suele llamar, para otros investigadores podría ser información interesante para la suya. Todo ello podría llevar a la reutilización de información y, por lo tanto, a mejoras en la eficiencia de algunas investigaciones. Concretamente, un grupo de investigación de la URV presentó una interesante plataforma ioChem para compartir datos de investigaciones sobre química computacional (sobretodo respecto a simulación de moléculas y materiales). Desde otro grupo de UAB se presentaron otras iniciativas respecto a ciencias de la vida. Todo ello son iniciativas muy interesantes pero que no tienen todavía soporte institucional de su universidad, que permitiría avanzar más en estas iniciativas.

El resto ya fueron presentaciones de casos de BigData relacionados con la empresa privada (Telvent, Oracle realizaron presentaciones de casos BigData), dado que es allí donde realmente se está desarrollando actualmente BigData.

Otro tema interesante que surgió y que puede considerarse muy cercano a lo que podría ser BigData en ámbitos académicos, es el concepto de Learning Analytics, donde se “estudia” el comportamiento de los estudiantes para poder conocerlos mejor y poder realizar recomendaciones. UOC presentó un caso de Learning Analytics propiciado por su modelo on-line de universidad.

Mi opinión es que en la universidad no existe un volumen de datos ni un modelo que, actualmente, nos permita hablar de BigData, como tal. Lo que más se acerca es todo el movimiento de OpenData de datos de investigación que he mencionado y que promueve que los investigadores publiquen sus datos de investigación. También todo lo relacionado con Learning Analytics, aunque en ambos casos, a mí me parecen más un modelo de analítica de datos que de BigData.
Aún así, no hay que perder de vista toda la información que se puede obtener de los alumnos a través de redes sociales y otros entornos y que pueda permitir, en un futuro, realizar actuaciones de BigData en estos ámbitos.

Enlace al programa de la jornada: http://www.csuc.cat/es/retos-en-big-data-en-la-universidad-y-la-investigacion

La era de los datos. El yo digital

Posted on Actualizado enn

He leído bastantes artículos y noticias sobre la preocupación de las personas acerca de sus datos en Internet. Es lógica esta preocupación dada la cantidad de información que día tras día estamos publicando en Internet, a veces casi sin darnos cuenta, sobre nosotros mismos. No se para de hablar de acceso a los datos (caso de Obama en EEUU), BigData, OpenData, de transparencia. Al final, todo se resume en lo mismo, datos, datos y más datos almacenados en una gran nube…. Como ya he comentado en alguna ocasión, hemos pasado de la era de la introducción de datos (con herramientas cada vez más eficientes y más sofisticadas) a la era del tratamiento de los datos. Debemos también tener cada vez más y mejores herramientas, porque los datos por sí solos, no nos aportan información. Movernos en un océano de datos, no nos aportará demasiada información.

Recordemos la famosa pirámide del conocimiento, donde queda patente que los datos por si solos no sirven de nada. Entonces, ¿qué vamos a hacer con tantos datos? Pues tienen que surgir iniciativas y productos cada vez más sofisticados para el tratamiento de datos que nos permitan escalar en esta pirámide del conocimiento (BigData, data mining, data visualizing…).
Quiero aportar dos cifras que creo que hablan por sí solas:

           El 2% de las necesidades energéticas mundiales son producidas por Internet.
          Producimos más datos en dos días que el producido en toda la historia hasta el año 2003
¿Contundente verdad? A mi modo de ver existen dos formas de producir datos:
          Presencia en redes sociales (Twitter, LinkedIn, Facebook, Instagram,…)
          Métricas personales (Foursquare, Square, sistemas de geolocalización automáticos, sistema de métricas constantes sobre la actividad de una persona, etc…)
La presencia en las redes sociales, se puede enfocar más al ámbito profesional, es decir, para mejora en la profesión o presencia en la profesión, por ejemplo, estoy muy de acuerdo en un  articulo  de Xavier Lasauca (@XavierLasauca), publicado en el ISGlobal (Institut de Salut Global Barcelona) donde recalca la importancia que nuestros investigadores tengan presencia en las redes. Creo que es una buena oportunidad, dada la precaria situación a la que nos lleva la falta de inversión en ciencia, para que los artículos y publicaciones tengan mayor repercusión. Cuando leo a nuestros investigadores divulgando la ciencia, su ciencia, me alegro y me doy cuenta de la buena investigación que hay en España y esto es positivo.
Por otro lado, tenemos nuestros datos personales, es decir, toda aquella información que generamos, datos y más datos nuestros y personales que generamos (si queremos). Hoy en día, se están creando multitud de gadgets (relojes, gafas, geolocalizadores…) y apps para smartphones y tablets, que permiten mantener nuestra información personal medida y actualizada constantemente y subida a la red, de forma automática.
Al final, todo ello nos lleva a pensar que, poco a poco, estamos generando nuestro propio YO digital, es decir, esa persona que somos en Internet, tanto a nivel profesional, como a nivel personal, ¿nos tiene que dar miedo? A mí, personalmente, no me da miedo, dado que entiendo que debo ser yo quien controle la información que, en un momento dado, quiero que circule sobre mí ¿los límites? Están por ver, aunque efectivamente, deben existir…