Big Data es un término que sirve para describir grandes volúmenes de datos de diferentes procedencias, y tales que su captura, gestión, procesamiento o análisis son complejas o difíciles de conseguir mediante las tecnologías y herramientas convencionales. El concepto de Big Data no solo se refiere al volumen de datos en bruto, aunque este suele partir de los 30-40 TB hasta varios Petabytes. Para entender la complejidad del Big Data nos debemos fijar en otras variables como su procedencia, su condición de datos no estructurados —en un gran porcentaje—, la velocidad de adquisición, el grado de veracidad de los datos o el valor de negocio que contienen.
Las 6 uves del Big Data
Estas variables se conocen como las uves del Big Data, y su número varía dependiendo de la fuente que consultemos, aunque suelen ser 5 o 6. Aquí describiremos seis:
- Volumen: básicamente, la cantidad de datos que se pueden recoger procedentes de cientos o miles de fuentes, como sensores, dispositivos móviles, cámaras de vídeo, web logs, …
- Variedad: los datos pueden ser estructurados, semiestructurados —como software, hojas de cálculo o informes— o no estructurados —como, por ejemplo, documentos, vídeos o archivos de audio—.
- Velocidad: los datos de muchas fuentes son generados a grandes velocidades, lo que hace que su captura pueda ser complicada. En general, existe también una variedad en la velocidad de adquisición dependiendo de la fuente de los datos.
- Veracidad: se refiere al problema de determinar el grado de confiabilidad que podemos tener sobre los datos.
- Valor: se refiere al valor de negocio que tienen esos datos para nosotros —es decir, hasta que punto nos interesa, o no, cada flujo de datos—.
- Variabilidad: en este caso no se refiere a la variedad de fuentes, sino a la cantidad de formas diferentes en que se pueden analizar, procesar y utilizar los datos.
Como vemos, la complejidad es claramente diferente a la de los datos convencionales e implica, además, la dificultad añadida de cómo se han de procesar y analizar los datos para extraerles el valor que, en el fondo, interesa extraer. Hoy, lo crítico en Big Data no es capturar y almacenar los datos, sino precisamente sacar ese valor que podemos aprovechar para la toma de decisiones estratégicas, o para mejorar nuestros productos y servicios.
El Big Data tiene una gran importancia para las empresas porque proporciona respuestas a preguntas que nunca fueron planteadas. Es decir, mediante el análisis de los datos se puede responder a cuestiones que, sin haber sido planteadas, estaban ya sobre la mesa e indican a las empresas nuevas direcciones hacia las que evolucionar, o puntos de referencia novedosos.
El aprovechamiento de los datos lleva a las empresas a encontrar tendencias, identificar nuevas oportunidades de negocio, optimizar las operaciones o eliminar las partes problemáticas de su estructura.
Así se consigue valor del Big Data:
- Reducción de costes, gracias a las tecnologías de datos y las tecnologías de datos y el análisis basado en la Nube.
- Una mejor toma de decisiones, y más rápida. Gracias a la analítica in-memory combinada con la capacidad de analizar nuevas fuentes de datos, la toma de decisiones es casi en tiempo real.
- Nuevos productos y servicios. Al poder medir las necesidades de los clientes y su satisfacción, es posible ofrecer el producto o servicio perfecto, en el momento adecuado.
Los retos y desafíos del Big Data
Los retos y desafíos más comunes en Big Data incluyen el conocimiento inadecuado sobre las tecnologías involucradas, los problemas de privacidad de los datos y la falta de capacidades analíticas dentro de las organizaciones. Muchas empresas también se enfrentan al problema de la falta de habilidades para lidiar con las tecnologías de Big Data. En realidad, no hay tanta gente capacitada para trabajar con Big Data como podría parecer, lo que se convierte en un problema aún mayor.
El problema de lidiar con un volumen enorme de datos
Este es uno de los principales retos para las empresas que adoptan Big Data. A pesar de que se sabe que Big Data implica un elevado volumen de datos, normalmente se supera la capacidad de almacenamiento y procesamiento. El reto no es tanto la disponibilidad, sino la gestión de los datos. Y todo apunta a que el volumen de datos disponible no dejará de crecer a corto plazo.
Junto con el aumento de los datos no estructurados, también ha habido un aumento en la cantidad de formatos de datos: vídeo, audio, datos procedentes de las redes sociales, datos de dispositivos inteligentes, etcétera. Para conseguir el correcto tratamiento de estos datos se necesita una combinación de bases de datos relacionales junto con bases de datos NoSQL.
Algunos ejemplos de sistemas para manejar Big Data pueden ser MongoDB, o sistemas distribuidos como Hadoop.
El tratamiento de los datos en tiempo real es algo muy complejo
Cuando hablamos de tratamiento de datos en tiempo real estamos refiriéndonos también a la gran cantidad de datos que se actualizan cada segundo. El ejemplo más sencillo es el de una empresa minorista que desea analizar el comportamiento de sus clientes. En esos casos, los datos en tiempo real acerca de las compras que realizan son de gran valor para tomar decisiones instantáneas como podrían ser ofrecerles un cupón de descuento o presentarles una promoción interesante.
Sin embargo, ese tratamiento es complejo y se necesitan herramientas que aseguren la adquisición de datos a la suficiente velocidad y, sobre todo, elegir los que cumplen mejor con la «V» de veracidad. En este apartado hablamos de la necesidad de las empresas de prepararse para tratar con estos datos en tiempo real con herramientas como motores ETL, de visualización, motores de computación y otras.
La seguridad de los datos
Este es un punto importante y un reto de envergadura. Gran parte de los datos involucrados en Big Data son datos sensibles, sobre todo de clientes, que debe ser protegidos. Es necesario implementar políticas de seguridad estrictas y acordes con el RGPD, entre otras cosas.
La propia naturaleza de los datos, provenientes de múltiples fuentes como hemos dicho ya, multiplica los problemas potenciales relacionados con la seguridad. Es posible que no sepamos a tiempo qué canal de datos está comprometido y, por tanto, qué datos están en peligro o son susceptibles de robo o usos malintencionados.