BigData

¿Existe fe ciega en los #algoritmos que usan #BigData? #data

Posted on

¿Existe una fe ciega en los algoritmos de datos? Vaya por delante que ahora pienso que si. Después de ver la Ted talk de Cathy O’Neil: “The era of blind faith in big data must end”, que me hizo reflexionar bastante.

Creo que hemos entrado en una vorágine de definir algoritmos que usan BigData, los usamos para todo, confiamos en sus resultados, creo que un poco a la ligera a veces.  Algunos afirman que incluso ¡podrán predecir el futuro! carai. Tengo  que reconocer, que yo, como tecnóloga que soy, me he dejado llevar por esta especie de euforia sobre los datos, pero esta charla de Cathy me ha puesto un poco los pies en  el suelo.

La verdad es que son muy emocionantes los resultados que podemos obtener con los datos, pero es cierto que pueden ser un arma (y muy poderosa) de doble filo.

Debemos manejar los datos, ¡pero no que los datos nos manejen a nosotros o que éstos puedan decidir sobre nuestro futuro!, porque entonces, claro que pueden predecir el futuro, porque el futuro lo guiarán sus resultados.

¿Qué define el éxito de un algoritmo? pues eso, una fórmula secreta que al final un humano ha diseñado, cierto que puede evolucionar, pero evolucionan sobre un patrón, sobre lo que ha sucedido en el pasado, automatizan el status quo, y los patrones, ya sabemos, cambian, lo que ha sido válido en el pasado o es  válido actualmente, puede dejar de serlo, no podemos confiar  ciegamente en el algoritmo porque… ¿y si falla?, puede crear una gran injusticia incluso a nivel social y no hablamos ya solamente de un algoritmo mal diseñado, los datos de los que se nutre pueden estar mal, estar sesgados o no ser de fuentes confiables. Y no hablemos ya  si es un algoritmo para el ámbito de la salud, ¿podría un algoritmo que funcione mal o estar mal diseñado llegar a matar a una persona? bueno, no nos pongamos tan catastrofistas, pero si debe ser un toque de alerta y en eso estoy de acuerdo con Cathy.

El ejemplo que pone en el vídeo, de una cadena de Fox News que buscó empleados exitosos basándose en su historia de ascensos, donde el directivo no era que digamos muy proclive a promocionar mujeres. Entonces, si evaluamos el éxito de un  empleado en, por ejemplo, su número de ascensos, el algoritmo así diseñado excluiría a las mujeres, ¿se creó un algoritmo sexista? bueno, el algoritmo solamente tenía un mal diseño porque la definición de éxito era errónea.

Puede ser que un algoritmo esté mal diseñado durante mucho tiempo y que nadie se dé cuenta. Me hizo mucha gracia (o no) este chiste que encontré por la red:

chiste_data

Da un poco de escalofrío, en según que ámbito estemos hablando, ¿no?…

Así los datos utilizados pueden ser sesgados, por ejemplo, si nos fijamos en  la  eterna discusión sobre los rankings universitarios ¿qué la información está sesgada? por supuesto, pero si lo sabemos y lo asumimos, no es tan grave. Así, no hemos de ver los rankings como verdades absolutas, sino como una guía, una recomendación, una herramienta más que podemos utilizar para la toma de decisiones, dentro de una valoración o evaluación más amplia.

Pero no todo son malas noticias. Los algoritmos de datos realmente han llegado para quedarse, lo que hay que decidir es el uso que hacemos de  ellos. Nunca deberían ser prejuicios que inyectamos a los algoritmos basados en prácticas pasadas, tenemos que revisarlos, interrogarlos y mejorarlos (y esta mejora  debe ser continua y dirigida) y sus resultados no se deben tomar al pie de la letra, sino que deben ser interpretados y evaluados y  nunca deberían ser un  indicador único para la toma de decisiones.

No obstante, nos pueden facilitar, y mucho, la vida,  nos ayudan a “digerir” este universo de datos en el que estamos inmersos,   pueden limpiar, depurar y ordenar la información para dárnosla más trabajada. Más allá de eso, la verdad es que da un poco de miedo. 🙂

 

Anuncios

Donde residen los datos: Data Lake

Posted on Actualizado enn

datalake

Un nuevo concepto. La verdad es que todavía no lo había escuchado. Sí que había oído hablar de lo que significa….

Un Data lake, según José Blanco (Big data & Business Intelligence Expert) es un repositorio donde se almacenan todos los datos de la compañía, estructurados y sin estructurar, sin ningún tipo de preprocesamiento (raw data) y sin ningún tipo de esquema, para ser analizados posteriormente.

Parece ser que el término fué acuñado por James Dixon, CTO de Pentaho, en contraposición al concepto de Data Mart que es un repositorio menor de atributos relevantes extraídos y analizados desde los datos en bruto (raw data).

Argumentó que los DM tienen algunos problemas inherentes para los que los Data Lakes son la solución óptima. Suelen ser problemas relativos a los silos de información, es decir, que realmente, los data marts dan una visión sesgada y parcial de la información porque debe contener información estructurada y homogénea. Así, la mejor solución es tener toda la información, sea del tipo que sea, en bruto, para su análisis en un repositorio basado en Hadoop.

Así, la idea de un Data Lake, es tener en un solo repositorio TODA la información de la institución, que va desde los datos en bruto  (que implica copia exacta de los datos del sistema fuente), a los datos transformados, que se utilizan para diversas tareas, incluyendo informes, visualización, análisis y machine learning.

Un data lake incluye datos estructurados de bases de datos relacionales (filas y columnas), semi-estructurados (CSV, logs, XML, JSON), datos no estructurados (emails, documentos, PDFs) e incluso datos binarios (imágenes, audio, vídeo), creando así un repositorio centralizado de datos que contiene cualquier tipo de dato.

He leído una comparativa respecto a los DWH que me ha gustado:

“If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.”

Así pues, el datamart tiene formato, hemos trabajado (cocinado) los datos y da unos resultados que queremos obtener, así como una visión parcial o más bien temática sobre el ámbito que queremos analizar. El data lake no, en el data lake está todo, y podemos usar y crear las relaciones necesarias según nuestras necesidades. Yo veo el Data Lake como un repositorio más orientado a las máquinas, es decir, contienen la información necesaria para que un máquina pueda procesar la información, sobre todo orientado a técnicas de machine learning, deep learning, IA, etc… Pero obviamente, los resultados que se pueden obtener son claramente más potentes.

¿Podemos decir que se dejarán de usar los DWH? Yo personalmente creo que el concepto de DWH y un Data Lake no son lo mismo y que han sido ideados para diferentes propósitos, aunque es inevitable compararlos, de hecho, creo que podría decirse que los Data Marts podrían estar incluidos o ser una parte del Data Lake, ¿no?. Sí que diré que, por mi experiencia con las Universidades, los DWH no han tenido el resultado esperado. Hace unos años, se realizaron grandes inversiones para el desarrollo de grandes DWH corporativos, pero el resultado es que son sistemas muy grandes, difíciles de mantener y no son ágiles de usar y no se ha generalizado su uso, en general, dentro de la institución (esos son los comentarios que he oído a sus usuarios o usuarios potenciales de las universidades). Así que creo que un Data Lake, en un periodo no muy largo de tiempo, podría llegar a sustituir el uso del DWH como lo conocemos ahora, o bien, podría consolidarse como una herramienta con muchos más resultados de los que han podido ofrecer los grandes DWH corporativos.

Me ha gustado esta comparativa entre un DWH y un Data Lake:

La conclusión es clara, ¿no?.

 

Ver artículo completo de José Blanco, sobre Data Lake:

https://www.linkedin.com/pulse/que-es-un-data-lake-big-y-bi-jose-blanco

Otras referencias usadas:

http://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html

https://en.wikipedia.org/wiki/Data_lake

 

Retos en BigData en la Universidad y la Investigación

Posted on

El pasado 2 de diciembre, tuve la oportunidad de asistir al encuentro de los Servicios informáticos de universidades Catalanas, organizado por el CSUC (Consorcio de Servicios Universitarios de Cataluña) que se celebró en la Universitat Autónoma de Barcelona, y que en su 15a edición, centró su atención en el BigData y cómo aplicar este nuevo paradigma en la universidad y en la investigación.

Se presentaron casos e iniciativas relacionados con BigData, como por ejemplo, BCNAnalytics, una iniciativa de una plataforma abierta para la recogida de datos geolocalizados generados por diferentes ámbitos relacionados con la ciudad de Barcelona y ponerlos en formato abierto (OpenData) para ser usados por quien esté interesado en ellos.

También se presentaron interesantes iniciativas respecto a datos de investigación, que seguramente es donde más podríamos hablar de algo similar a BigData en entornos universitarios. En este caso, sería de todo el movimiento que se está impulsando para que los datos de investigación se publiquen en modo abierto (OpenData). Se vieron interesantes iniciativas realizadas por grupos de investigación de algunas universidades que permiten compartir estos datos de investigación donde, lo que para un investigador sería “ruido” para su investigación, como se suele llamar, para otros investigadores podría ser información interesante para la suya. Todo ello podría llevar a la reutilización de información y, por lo tanto, a mejoras en la eficiencia de algunas investigaciones. Concretamente, un grupo de investigación de la URV presentó una interesante plataforma ioChem para compartir datos de investigaciones sobre química computacional (sobretodo respecto a simulación de moléculas y materiales). Desde otro grupo de UAB se presentaron otras iniciativas respecto a ciencias de la vida. Todo ello son iniciativas muy interesantes pero que no tienen todavía soporte institucional de su universidad, que permitiría avanzar más en estas iniciativas.

El resto ya fueron presentaciones de casos de BigData relacionados con la empresa privada (Telvent, Oracle realizaron presentaciones de casos BigData), dado que es allí donde realmente se está desarrollando actualmente BigData.

Otro tema interesante que surgió y que puede considerarse muy cercano a lo que podría ser BigData en ámbitos académicos, es el concepto de Learning Analytics, donde se “estudia” el comportamiento de los estudiantes para poder conocerlos mejor y poder realizar recomendaciones. UOC presentó un caso de Learning Analytics propiciado por su modelo on-line de universidad.

Mi opinión es que en la universidad no existe un volumen de datos ni un modelo que, actualmente, nos permita hablar de BigData, como tal. Lo que más se acerca es todo el movimiento de OpenData de datos de investigación que he mencionado y que promueve que los investigadores publiquen sus datos de investigación. También todo lo relacionado con Learning Analytics, aunque en ambos casos, a mí me parecen más un modelo de analítica de datos que de BigData.
Aún así, no hay que perder de vista toda la información que se puede obtener de los alumnos a través de redes sociales y otros entornos y que pueda permitir, en un futuro, realizar actuaciones de BigData en estos ámbitos.

Enlace al programa de la jornada: http://www.csuc.cat/es/retos-en-big-data-en-la-universidad-y-la-investigacion

La era de los datos. El yo digital

Posted on Actualizado enn

He leído bastantes artículos y noticias sobre la preocupación de las personas acerca de sus datos en Internet. Es lógica esta preocupación dada la cantidad de información que día tras día estamos publicando en Internet, a veces casi sin darnos cuenta, sobre nosotros mismos. No se para de hablar de acceso a los datos (caso de Obama en EEUU), BigData, OpenData, de transparencia. Al final, todo se resume en lo mismo, datos, datos y más datos almacenados en una gran nube…. Como ya he comentado en alguna ocasión, hemos pasado de la era de la introducción de datos (con herramientas cada vez más eficientes y más sofisticadas) a la era del tratamiento de los datos. Debemos también tener cada vez más y mejores herramientas, porque los datos por sí solos, no nos aportan información. Movernos en un océano de datos, no nos aportará demasiada información.

Recordemos la famosa pirámide del conocimiento, donde queda patente que los datos por si solos no sirven de nada. Entonces, ¿qué vamos a hacer con tantos datos? Pues tienen que surgir iniciativas y productos cada vez más sofisticados para el tratamiento de datos que nos permitan escalar en esta pirámide del conocimiento (BigData, data mining, data visualizing…).
Quiero aportar dos cifras que creo que hablan por sí solas:

           El 2% de las necesidades energéticas mundiales son producidas por Internet.
          Producimos más datos en dos días que el producido en toda la historia hasta el año 2003
¿Contundente verdad? A mi modo de ver existen dos formas de producir datos:
          Presencia en redes sociales (Twitter, LinkedIn, Facebook, Instagram,…)
          Métricas personales (Foursquare, Square, sistemas de geolocalización automáticos, sistema de métricas constantes sobre la actividad de una persona, etc…)
La presencia en las redes sociales, se puede enfocar más al ámbito profesional, es decir, para mejora en la profesión o presencia en la profesión, por ejemplo, estoy muy de acuerdo en un  articulo  de Xavier Lasauca (@XavierLasauca), publicado en el ISGlobal (Institut de Salut Global Barcelona) donde recalca la importancia que nuestros investigadores tengan presencia en las redes. Creo que es una buena oportunidad, dada la precaria situación a la que nos lleva la falta de inversión en ciencia, para que los artículos y publicaciones tengan mayor repercusión. Cuando leo a nuestros investigadores divulgando la ciencia, su ciencia, me alegro y me doy cuenta de la buena investigación que hay en España y esto es positivo.
Por otro lado, tenemos nuestros datos personales, es decir, toda aquella información que generamos, datos y más datos nuestros y personales que generamos (si queremos). Hoy en día, se están creando multitud de gadgets (relojes, gafas, geolocalizadores…) y apps para smartphones y tablets, que permiten mantener nuestra información personal medida y actualizada constantemente y subida a la red, de forma automática.
Al final, todo ello nos lleva a pensar que, poco a poco, estamos generando nuestro propio YO digital, es decir, esa persona que somos en Internet, tanto a nivel profesional, como a nivel personal, ¿nos tiene que dar miedo? A mí, personalmente, no me da miedo, dado que entiendo que debo ser yo quien controle la información que, en un momento dado, quiero que circule sobre mí ¿los límites? Están por ver, aunque efectivamente, deben existir…