Cuando analizamos un conjunto de datos que representa, por ejemplo al número de niños que se mueren de neumonitis, es posible tener una idea básica de las características que cumplían esos pequeños sólo mirando los datos. Cuando analizamos una cantidad más grande de información, podemos usar Mainframes u otras computadoras para analizar esa data y obtener las características más relevantes. Sin embargo, nuestros datos no suelen ser grandes y no podemos realizar predicciones con la precisión necesaria como para poder tomar una decisión fiable.
¿Qué ocurre si analizamos a los niños que viven y a los que se mueren de neumonitis sobre los datos obtenidos para todo un país? No queda más que resignarse y entender que el procesamiento de consultas sencillas de ese tipo pueden tardar horas y hasta un par de días, y el descubrimiento de sus características relevantes puede tardar fácilmente meses o años. ¿La tecnología actual puede soportar enormes volúmenes de datos?
Big Data
Big Data se puede definir como el almacenamiento de una gran cantidad de datos y tener la capacidad de procesarlos rápidamente. El procesamiento sobre los datos puede usar técnicas de Machine Learning y así obtener las mejores características según el propósito de las búsquedas. Es importante notar que no hay límites sobre las formas que hay para encontrar la información relevante, pero el tiempo de procesamiento no ha sido el esperado. Cuando hablamos de Big Data, la cantidad de datos a analizar es brutalmente enorme y el tiempo del análisis disminuye a minutos usando principalmente técnicas de distribución de procesamiento.
El analista
Al momento de tocar los datos, el analista es quién hace la magia. Ellos tienen un conjunto de métodos estadísticos para obtener lo que necesitan, pero el descubrimiento toma tiempo y a medida que aumenta la cantidad de datos a usar, ese tiempo crece exponencialmente. Las técnicas a aplicar dependen de la calidad de la información obtenida, de su tipo y de su propósito. Muchas veces se trata de realizar pruebas y cometer muchos errores antes de llegar a buenos resultados.
En muchos casos, los analistas deben estar familiarizados con algún lenguaje de programación y saber realizar consultas a la base de datos, por ejemplo SQL. Así que nos encontramos con una gran limitación sobre quién puede acceder y analizar los datos debido a los requisitos que deben cumplir.
¿Qué podemos hacer cuando cada análisis de prueba toma horas y no hay límites sobre la cantidad de errores a cometer antes de llegar a un resultado aceptable? Sin duda, los analistas pueden volverse viejos antes de llegar a resultados satisfactorios, necesitan de la ayuda de alguien más.
En muchos casos, los analistas deben estar familiarizados con algún lenguaje de programación y saber realizar consultas a la base de datos, por ejemplo SQL. Así que nos encontramos con una gran limitación sobre quién puede acceder y analizar los datos debido a los requisitos que deben cumplir.
¿Qué podemos hacer cuando cada análisis de prueba toma horas y no hay límites sobre la cantidad de errores a cometer antes de llegar a un resultado aceptable? Sin duda, los analistas pueden volverse viejos antes de llegar a resultados satisfactorios, necesitan de la ayuda de alguien más.
El desarrollador
El analista se apoya de desarrolladores con conocimientos Big Data. Éstos solucionan un gran problema de los analistas o usuarios de grandes volúmenes de datos, disminuyendo tareas computarizadas que tomaban horas o días, llegando a sólo unos cuantos minutos usando la magia de la distribución de los procesamientos en muchas computadoras.
Entre las características de un desarrollador de Big Data, nos podemos encontrar con personas que deben ser unos apasionados con las tecnologías porque ese mundo se encuentra en constante evolución, usar las mejores tecnologías y técnicas son fundamentales para estar en la cima de la industria.
Por otro lado, la comunidad de desarrolladores está constantemente entregando nuevas actualizaciones o productos (Apache Hadoop, Hive, Spark, etc.) que van a resolver problemas actuales y es frecuente que se enfrenten a problemas donde no hay una solución lista para usar, ellos están recorriendo un camino que no tiene tantos años y tienen mucho por descubrir y desarrollar todavía.
Beneficios
Entre los beneficios que nos trajo el uso de tecnologías Big Data, nos encontramos con las siguientes:
- Los procesos que antes tomaban horas o días, ahora pueden llegar a unos cuantos minutos. Por ende, los usuarios, analistas, o cualquier persona que necesite resultados sobre una gran base de datos, harán mejor uso de su tiempo.
- Los resultados sobre una gran cantidad de datos es más precisa y se puede llegar a mejores conclusiones. Incluso, es más fácil saber su comportamiento futuro.
- Las empresas privadas y estatales pueden tomar mejores decisiones sobre la industria en las que se encuentran o pueden enfocarse en las personas que realmente necesitan y quieren un producto. Cualquier organización que necesite encontrarse en la vanguardia debe aplicar este tipo de técnicas para encontrarse pasos adelantada.
- Los gobiernos pueden distribuir mejor sus ingresos, impactando y mejorando la calidad de vida de su población.
Lo que viene
Mas allá de hablar del futuro del Big Data, ya vemos que las más grandes compañías hacen uso de sus capacidades y rápidamente se están uniendo otras que encuentran imprescindible utilizar esos conocimientos.
Rápidamente han ido apareciendo nuevas tecnologías para diversos tipo de datos, arquitecturas que hacen el procesamiento más rápido o que sea más fácil de utilizar. Papers con técnicas de minería de datos y actualizaciones que hacen más fácil las implementaciones de esas técnicas.
La velocidad del procesamiento depende mucho de la infraestructura y la cantidad de computadores donde se distribuyen los procesamiento de datos, pero todavía nos hace falta encontrar nuevas técnicas de análisis con algoritmos que exploten el potencial que tiene el Big Data.