big dataEn la actualidad, cualquier corporación genera una gran cantidad de datos a través de los productos y servicios que ofrece a sus clientes. Analizarlos de forma adecuada proporciona información muy útil que permite optimizar y mejorar, e incluso generar nuevos productos y servicios. En definitiva, un buen análisis de los datos puede aportar ventajas competitivas a una corporación.

El problema surge cuando los datos crecen de forma exponencial, como ocurre en la actualidad en las empresas tecnológicas, donde cualquier producto o servicio permite medir una cantidad enorme de parámetros, lo que genera una gran cantidad de datos constantemente.

Además, habitualmente esos datos proceden de fuentes heterogéneas, con estructuras diferentes o incluso sin estructurar, y se generan a gran velocidad. Cuando esto ocurre, las tecnologías de procesamiento, almacenamiento y visualización de datos convencionales dejan de ser válidas, ya sea por limitaciones en la capacidad o en el tiempo de procesado. O quizá también por limitaciones en el volumen de almacenamiento de datos.

En este contexto entran en juego las tecnologías Big Data, un conjunto de tecnologías que proporcionan herramientas de procesamiento y almacenamiento de datos, específicamente diseñadas para solventar las particularidades que presentan este tipo de entornos.

Tecnologías de procesamiento Big Data

Las tecnologías Big Data resuelven los problemas de procesado de forma diferente, aplicando técnicas como el MapReduce son capaces de fraccionar el procesado de un set de datos y distribuirlo en un clúster de máquinas.

Los clústeres pueden tener tamaños muy grandes, algunas corporaciones tienen clústeres de más de mil máquinas, con lo cual, tienen disponibles varios miles de microprocesadores para realizar tareas de procesado de datos.

Estas tecnologías, combinadas con las plataformas ofrecidas por los proveedores de servicios en la nube, permiten adaptar el tamaño del clúster en tiempo real, en función de las necesidades puntuales de procesamiento. De este modo es posible adaptar los sistemas a flujos de datos variables, lo que permite aumentar el tamaño del clúster para absorber picos de datos elevados en momentos puntuales, y disminuirlo cuando las necesidades de procesado disminuyan. La flexibilidad es enorme y permite optimizar los costes de uso de estas tecnologías haciéndolas accesibles a cualquier corporación.

Algunas de las tecnologías de procesado de datos más utilizadas en la actualidad son Hadoop MapReduce, Apache Spark o Apache Lynx.

Tecnologías de almacenamiento Big Data

Para este tipo de entornos de datos masivos no son válidas las bases de datos relacionales tradicionales. Por eso se crearon las bases de datos NoSQL (not only SQL). En realidad existen muchos tipos diferentes, cada uno orientado a resolver un escenario específico de forma óptima. Los más habituales son:

• Bases de datos columnares.
• Bases de datos key-value.
• Bases de datos documentales.

Algunas de las tecnologías de bases de datos Big Data más utilizadas en la actualidad son Apache Cassandra, Hbase, Amazon DynamoDB o Google BigTable.

En Teldat utilizamos tecnologías Big Data para la prestación de ciertos servicios que ofrecemos a nuestros clientes.


Sobre el autor

Juan José Luna
Juan José Luna
trabaja en el Departamento de Tecnologías de la Información de Teldat y es Ingeniero Técnico de Telecomunicación por la Universidad Politécnica de Madrid y Máster en Big Data por la Universidad Camilo José Cela.

Comparte este post


Nuestras Soluciones Relevantes