los números de Instagram que importan
¿Cuáles son los números de Instagram que más me tienen que importar?
julio 24, 2020
ReFi Venezuela
ReFi Venezuela y su primer Bootcamp
julio 21, 2023
Todos

Big data ¿Para qué puedo usarlo?

Big Data

image from rawpixel

La primera evidencia que se tiene de que la humanidad alcanzó un desarrollo importante en su estilo de vida, gracias al uso de datos, fue hace 7000 años en Mesopotamia. Toda su economía, sustentada en el intercambio de productos agrícolas, mejoró considerablemente debido a los datos climáticos que fueron recolectando durante años.

El padre de la epidemiología John Snow, no me refiero al hijo bastardo de Eddar Stark en Game of Thrones, basándose en el registro de las defunciones por cólera ocurridas en Londres entre 1848-49, pudo relacionar la incidencia de casos al consumo de aguas contaminadas.

¿Qué es el Big data?

Los cambios ambientales producidos por el clima o el número de defunciones en un lugar, son datos estructurados simples, fáciles de recolectar y analizar. El Big data aunque puede contener este tipo de datos, no se queda allí, por algo el “BIG” en Big data.

Te preguntarás entonces ¿Qué es el Big data?, una definición elegante y sencilla es la que nos ofrece el Dr. En física Kirk Borne, quien la define como “Todo aquello que sea cuantificable y rastreable”. Desde datos climáticos y demográficos, hasta el comportamiento de consumo de la población actual entorno a algún mercado o los patrones de preferencia hacia cualquier tópico, que muestras al usar las redes sociales, puede considerarse como Big data.

¿Qué es el Todo?

En el Big data, cuando el Dr. Borne se refiere a Todo, quiere decir que es todo aspecto de la vida, el trabajo, del consumo, el entretenimiento y el juego, que ofrezca información acerca de la gente y su entorno. Cualquier aspecto, por más insignificante que sea, si cumple con ciertas características, lo puedes considerar como parte del Big data. Quizá a alguien podría interesarle por ejemplo, las horas en las que te acuestas todos los días.

¿Cómo reconozco lo que es Cuantificable?

Cualquier dato, mientras sea cuantificable o medible, podría ser útil. Estos pueden ser:

  • Estructurados: como por ejemplo tu estado financiero mensual o las horas del día en las que las personas de tu comunidad usan con mayor frecuencia un determinado tipo de transporte, podría considerarse como Big data. Este tipo de información la puedes tomar fácilmente y agregarla a tablas de bases de datos.
  • No estructurados: todos los archivos, sean de texto, música o video, que compartes en tus redes sociales, se podrían tomar como parte de un estudio de Big data. Incluso hasta los comentarios que haces en las publicaciones de alguna cuenta de Instagram, Facebook o Twitter que sigues. Este tipo de datos por el contrario necesitan ser modificados de cierta manera para que puedan ser utilizados. El 80% de los datos generados en el mundo son de este tipo.

¿Qué significa que sea Rastreable?

Otro aspecto importante a considerar para que unos datos sean considerados como Big Data, es que estos sean rastreables. Si tengo la capacidad de registrar la variabilidad de alguna cantidad medible, a lo largo del tiempo, puedo obtener patrones y tendencias. Estos me permitirían realizar alguna predicción que me ayude a mejorar algún aspecto de mi vida y mi entorno.

Pipeline del Big data

El Big data, como cualquier otro tipo de dato, carece de importancia y significado por sí solo. Para que ella arroje toda la información intrínseca que contiene y te sea útil, debes pasarla por una serie de procesos conocidos por algunos como el “Pipe line del Big data”.

El “Pipe Line” consta de una serie de pasos, que aunque no se rigen por un orden específico ni tampoco necesariamente debes cumplirlos todos, resulta en una buena guía para estudiar tus datos. La diferencia entre un Pipe Line y otro, se debe básicamente, a que generalmente la Big data proviene de fuentes distintas y además de que poseen características diferentes. Esto sin contar con que cada analista tiene su propio estilo.

Por otra parte, el Pipe Line del Big data no va en una sola dirección, es decir, sus procesos pueden ser iterativos. Muchas veces realizas un proceso que de alguna manera te cambia o actualiza la información que has obtenido hasta ahora y debes por lo tanto “retroceder” y repetir algún paso y continuar.

Procesos del Pipe Line del Big data

Fuente de datos

Las fuentes de donde puedes extraer Big data son innumerables, sin embargo te muestro aquí  las tres principales:

  • Social data: todos los Likes, Tweets, comentarios, videos vistos o cargados, y toda clase de información que subes y compartes en redes sociales. Así como información que puede ser extraída de la web, como cuando te registras con tus datos en una página.
  • Machine data: es toda aquella información generada por equipos industriales, sensores e incluso websites. Dispositivos médicos, cámaras de vigilancia, sensores satelitales, jugos web, entre otros.
  • Transactional data: se refiere a todas las transacciones que haces de forma online u offline. Como las facturas, órdenes de pago, registros de almacenamiento, recibos de entrega.

Data Ingestion

Debido a que los datos de un análisis de Big Data los tomas de distintas fuentes, poseen por ende diferente velocidad, formatos y tamaños. Por lo tanto, necesitas transformarlos de tal modo que puedan ser almacenados en un mismo repositorio o en su defecto, contar con uno que sea capaz de guardar, leer y modificar toda esa clase de datos. Algo bastante parecido al proceso que realiza tu cuerpo cuando comes.

Data collector

Este proceso consiste básicamente en desglosar y obtener toda la información que cada dato posee. Por ejemplo, si cargas una foto proveniente de Instagram como parte de tus datos, la información útil no es solamente la imagen como tal, sino el usuario que la subió, la fecha en la que fue subida en la red social e incluso, quizá, los comentarios que se hicieron sobre ella.

Almacenamiento

Los huevos que compras en el supermercado vienen en contenedores especiales, para que no se rompan, no sería muy práctico colocarlos en un empaque como en el que viene por ejemplo el cereal.

La naturaleza de cada dato es diferente y por consiguiente, la manera de manipularlos y analizarlos también lo es. Contar con sistemas de almacenamiento hechos a medida para cada tipo de dato, me ofrece una gran ventaja, brindándote velocidad y flexibilidad en cuanto a su manipulación.

Procesamiento

El procesamiento del Big data es la etapa más tediosa y demandante de tiempo de todas, pero es clave en la obtención de resultados confiables y útiles. En esta etapa realizarías a los datos, uno o varios ciclos de limpieza, filtrado, validación y clasificación.  Existen especialistas que se dedican únicamente a esta parte de Pipe Line.

Análisis y modelado

En este proceso, dependiendo de la naturaleza de los datos y el problema a resolver, aplicarías uno de dos tipos de algoritmos. Ya sea que apliques algoritmos de clasificación y regresión (aprendizaje supervisado) o de Clustering y asociación (aprendizaje no supervisado), para obtener un modelo que arroje resultados o insights, que ayuden con la resolución de tu problema.

Visualización

En esta etapa muestras tus insights, usando gráficos que ayuden a mostrar de forma clara y concisa, tus resultados al resto del equipo de trabajo.

Acción

Finalmente conviertes, junto a tu equipo de trabajo, los insights en acciones, evaluando el impacto de estas acciones en la solución del problema inicial.

Desde el inicio de los tiempos, la humanidad ha sabido aprovechar los datos recolectados para resolver sus problemas y mejorar su calidad de vida como individuos y como sociedad. En este mundo de la globalización e interconectividad, generamos terabytes de datos a cada segundo. Ellos reflejan el comportamiento de casi que cada aspecto de nuestras vidas. Ahora, gracias a los equipos de tecnología avanzada que poseemos, somos capaces de recolectarlos, procesarlos y obtener resultados que ayuden a mejorar cada uno de esos aspectos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Chat
1
Comunícate con nosotros
Hola, ¡Escríbenos y pauta una cita!
Estás a un paso de formar parte de nuestra comunidad