La primera evidencia que se tiene de que la humanidad alcanzó un desarrollo importante en su estilo de vida, gracias al uso de datos, fue hace 7000 años en Mesopotamia. Toda su economía, sustentada en el intercambio de productos agrícolas, mejoró considerablemente debido a los datos climáticos que fueron recolectando durante años.
El padre de la epidemiología John Snow, no me refiero al hijo bastardo de Eddar Stark en Game of Thrones, basándose en el registro de las defunciones por cólera ocurridas en Londres entre 1848-49, pudo relacionar la incidencia de casos al consumo de aguas contaminadas.
Los cambios ambientales producidos por el clima o el número de defunciones en un lugar, son datos estructurados simples, fáciles de recolectar y analizar. El Big data aunque puede contener este tipo de datos, no se queda allí, por algo el “BIG” en Big data.
Te preguntarás entonces ¿Qué es el Big data?, una definición elegante y sencilla es la que nos ofrece el Dr. En física Kirk Borne, quien la define como “Todo aquello que sea cuantificable y rastreable”. Desde datos climáticos y demográficos, hasta el comportamiento de consumo de la población actual entorno a algún mercado o los patrones de preferencia hacia cualquier tópico, que muestras al usar las redes sociales, puede considerarse como Big data.
En el Big data, cuando el Dr. Borne se refiere a Todo, quiere decir que es todo aspecto de la vida, el trabajo, del consumo, el entretenimiento y el juego, que ofrezca información acerca de la gente y su entorno. Cualquier aspecto, por más insignificante que sea, si cumple con ciertas características, lo puedes considerar como parte del Big data. Quizá a alguien podría interesarle por ejemplo, las horas en las que te acuestas todos los días.
Cualquier dato, mientras sea cuantificable o medible, podría ser útil. Estos pueden ser:
Otro aspecto importante a considerar para que unos datos sean considerados como Big Data, es que estos sean rastreables. Si tengo la capacidad de registrar la variabilidad de alguna cantidad medible, a lo largo del tiempo, puedo obtener patrones y tendencias. Estos me permitirían realizar alguna predicción que me ayude a mejorar algún aspecto de mi vida y mi entorno.
El Big data, como cualquier otro tipo de dato, carece de importancia y significado por sí solo. Para que ella arroje toda la información intrínseca que contiene y te sea útil, debes pasarla por una serie de procesos conocidos por algunos como el “Pipe line del Big data”.
El “Pipe Line” consta de una serie de pasos, que aunque no se rigen por un orden específico ni tampoco necesariamente debes cumplirlos todos, resulta en una buena guía para estudiar tus datos. La diferencia entre un Pipe Line y otro, se debe básicamente, a que generalmente la Big data proviene de fuentes distintas y además de que poseen características diferentes. Esto sin contar con que cada analista tiene su propio estilo.
Por otra parte, el Pipe Line del Big data no va en una sola dirección, es decir, sus procesos pueden ser iterativos. Muchas veces realizas un proceso que de alguna manera te cambia o actualiza la información que has obtenido hasta ahora y debes por lo tanto “retroceder” y repetir algún paso y continuar.
Las fuentes de donde puedes extraer Big data son innumerables, sin embargo te muestro aquí las tres principales:
Debido a que los datos de un análisis de Big Data los tomas de distintas fuentes, poseen por ende diferente velocidad, formatos y tamaños. Por lo tanto, necesitas transformarlos de tal modo que puedan ser almacenados en un mismo repositorio o en su defecto, contar con uno que sea capaz de guardar, leer y modificar toda esa clase de datos. Algo bastante parecido al proceso que realiza tu cuerpo cuando comes.
Este proceso consiste básicamente en desglosar y obtener toda la información que cada dato posee. Por ejemplo, si cargas una foto proveniente de Instagram como parte de tus datos, la información útil no es solamente la imagen como tal, sino el usuario que la subió, la fecha en la que fue subida en la red social e incluso, quizá, los comentarios que se hicieron sobre ella.
Los huevos que compras en el supermercado vienen en contenedores especiales, para que no se rompan, no sería muy práctico colocarlos en un empaque como en el que viene por ejemplo el cereal.
La naturaleza de cada dato es diferente y por consiguiente, la manera de manipularlos y analizarlos también lo es. Contar con sistemas de almacenamiento hechos a medida para cada tipo de dato, me ofrece una gran ventaja, brindándote velocidad y flexibilidad en cuanto a su manipulación.
El procesamiento del Big data es la etapa más tediosa y demandante de tiempo de todas, pero es clave en la obtención de resultados confiables y útiles. En esta etapa realizarías a los datos, uno o varios ciclos de limpieza, filtrado, validación y clasificación. Existen especialistas que se dedican únicamente a esta parte de Pipe Line.
En este proceso, dependiendo de la naturaleza de los datos y el problema a resolver, aplicarías uno de dos tipos de algoritmos. Ya sea que apliques algoritmos de clasificación y regresión (aprendizaje supervisado) o de Clustering y asociación (aprendizaje no supervisado), para obtener un modelo que arroje resultados o insights, que ayuden con la resolución de tu problema.
En esta etapa muestras tus insights, usando gráficos que ayuden a mostrar de forma clara y concisa, tus resultados al resto del equipo de trabajo.
Finalmente conviertes, junto a tu equipo de trabajo, los insights en acciones, evaluando el impacto de estas acciones en la solución del problema inicial.
Desde el inicio de los tiempos, la humanidad ha sabido aprovechar los datos recolectados para resolver sus problemas y mejorar su calidad de vida como individuos y como sociedad. En este mundo de la globalización e interconectividad, generamos terabytes de datos a cada segundo. Ellos reflejan el comportamiento de casi que cada aspecto de nuestras vidas. Ahora, gracias a los equipos de tecnología avanzada que poseemos, somos capaces de recolectarlos, procesarlos y obtener resultados que ayuden a mejorar cada uno de esos aspectos.