Los retos Big Data

Retos big data

Comparado con los conjuntos de datos tradicionales, el Big Data generalmente incluye datos no estructurados que necesitan mayor análisis en tiempo real. Big Data nos trae nuevas oportunidades para descubrir nuevos valores, nos ayuda a entender con mayor profundidad ciertos aspectos, y nos trae nuevos retos, como por ejemplo, cómo organizar y gestionar tales datos.


Nacimiento de la Era Big Data

A lo largo de los últimos veinte años, los datos han crecido de forma vertiginosa.

Según un informe de IDC (International Data Corporation), en el año 2011 el volumen de datos creado en el mundo era de 1.8 Zettabytes desde su inicio hasta el año 2003 (un Zettabyte, ZB, es 10^21 B, es decir, 1 billón de GB), y actualmente tardamos dos días en generar tal cantidad de datos. En 2013 se producían 4.4 ZB de datos en el mundo, y en 2020 llegaremos a los 44 ZB. Se espera que la cifra alcance el total de 180 ZB en 2025.

Para hacernos una idea de estas cifras, con un Zettabyte se podría almacenar el equivalente al contenido de 17.200 millones de iPhones de 64GB, o una película HD de 1 Zettabyte tendría una duración de 36 millones de años.

De esta cantidad de datos, el 10% provendrá de información producida por las máquinas, el llamado Internet de las Cosas (Internet of Things, IoT).

Estas cifras tan asombrosas provienen en gran parte de los dispositivos que están generando datos constantemente.

Aproximadamente hoy en día existen 11 billones de dispositivos conectados a Internet.

Se espera que la cifra se triplique a 30 billones en 2020 y se vuelva casi a triplicar a 80 millones 5 años más tarde. La compañía Google procesa datos de centenares de Petabytes (1PB equivale a 10^15 B) por mes, y Facebook genera más de 10 PB al mes. Baidu, una compañía China, procesa datos de decenas de PB y Taobao, compañía subsidiaria de Alibaba, genera datos de decenas de Terabytes (1TB=10^12 B). Y otro ejemplo es YouTube, donde se suben 72 horas de videos por minuto.

Retos Big Data Zettabytes

El auge del Cloud Computing y el Internet de las Cosas acelera este crecimiento del volumen de datos.

Por un lado, las tecnologías de Cloud Computing proporcionan sitios y canales de datos, y por otro lado, en el paradigma del Internet de las Cosas, los sensores están embebidos en todo tipo de dispositivos que se encuentran en cualquier  lugar del mundo, recogiendo y transmitiendo datos que serán almacenados y procesados en la nube.

Todos estos datos, tanto en su cantidad como en su modo de relacionarse, sobrepasarán las capacidades de las arquitecturas e infraestructuras de Tecnologías de la Información y las Comunicaciones (TIC) de cualquier compañía existente. Además, sus requerimientos en tiempo real incrementarán el compromiso de la capacidad de computación disponible.

Definición y características de Big Data

Big Data es un concepto abstracto.

En general, Big Data hace referencia a un conjunto de datos que no pueden ser adquiridos, procesados o gestionados por métodos y herramientas tradicionales en un tiempo razonable.

Hoy en día, aunque todos están de acuerdo con su importancia, investigadores, analistas de datos y técnicos, todavía se proponen diferentes definiciones.

Apache Hadoop en 2010 definió Big Data como “conjunto de datos que no pueden ser capturados, manejados y procesados por computadoras convencionales en un tiempo aceptable”.

Sobre esta base, la consultora McKinsey declaró Big Data como “la próxima frontera para la innovación, competencia y productividad”.

Por otro lado, IBM y algunos departamentos de Microsoft emplean el modelo de las 3 V: Volumen, Velocidad y Variedad.

IDC, uno de los líderes en Big Data, lo declara como “Nueva generación de tecnologías y arquitecturas diseñadas para extraer valor económico de grandes volúmenes de datos, permitiendo la captura, descubrimiento y análisis a alta velocidad”. Con esto, se puede añadir el modelo de las 4 V, ampliamente reconocida: Volumen, Variedad, Velocidad y Valor.

En definitiva, todas estas definiciones resaltan las dos características claves de Big Data.

Por un lado, que los volúmenes de datos son cambiantes, donde pueden crecer en el tiempo o con avances tecnológicos, y pueden ser diferentes entre sí en diferentes aplicaciones; y por otro lado, la imposibilidad de manejarlos con las herramientas tradicionales.

Durante los últimos años, prácticamente todas las grandes compañías tienen sus proyectos de Big Data, como por ejemplo IBM, Oracle, EMC, Amazon, Google, Microsoft, Facebook, etc.

En 2008, la prestigiosa revista Nature publicó un número especial sobre Big Data.

En 2011, la revista Science hizo lo mismo.

En marzo de 2012, la administración de Obama anunció una inversión de 200 millones de dólares para el lanzamiento de la Iniciativa por el Desarrollo e Investigación en Big Data.

Ese mismo año, Naciones Unidas emitió un informe sobre cómo los gobiernos empleaban Big Data para servir y proteger a su población.

Los retos Big Data

A la vez que el volumen de datos crece vertiginosamente, aparecen nuevos retos que demandan soluciones rápidas en adquisición de datos, almacenamiento, gestión y análisis.

Los sistemas gestores de bases de datos relacionales no son válidos para manejar el volumen y la heterogeneidad de los datos masivos. Además, estos sistemas suponen hardware cada vez más y más caro.

Para abordar esta problemática, la comunidad investigadora ha propuesto algunas soluciones desde diferentes perspectivas.

Algunas de estas soluciones, como señalamos en el artículo qué es el big data, residen en Cloud Computing, sistemas de ficheros distribuidos, NoSQL.

Se han desarrollado numerosas aplicaciones de Big Data basadas en estas tecnologías innovadoras.

Además, diferentes trabajos discuten sobre los obstáculos a superar en el desarrollo de aplicaciones de Big Data. Algunos de los retos más importantes a afrontar son:

  • Representación eficiente de los datos. Muchos conjuntos de datos tienen ciertos niveles de heterogeneidad en el tipo, estructura, semántica, organización, granularidad y accesibilidad. La representación de datos tiene como objetivo hacer los datos más entendibles para el análisis computacional y la interpretación del usuario. Una representación de los datos inapropiada reducirá el valor del dato original y puede obstruir el análisis efectivo.
  • Reducción de redundancia y compresión de datos. En general, hay un alto nivel de redundancia en los datos. Conseguir su reducción es útil para reducir costes indirectos del sistema completo. Por ejemplo, la mayoría de datos generados por redes de sensores son altamente redundantes, que podrían filtrarse y comprimirse varios órdenes de magnitud.
  • Gestión del ciclo de vida de los datos. Uno de los grandes retos a los que nos enfrentamos es que los sistemas de almacenamiento avanzan de manera mucho más lenta que el crecimiento de los datos, y los actuales sistemas no pueden soportar tal volumen. Por tanto, un principio importante es decidir qué datos se van a almacenar y cuáles se van a descartar.
  • Mecanismos de análisis de datos. El análisis debe poder procesar conjuntos  de datos heterogéneos dentro de un tiempo limitado. Se debe encontrar un compromiso entre los sistemas de gestión de bases de datos relacionales y no-relacionales.
  • Confidencialidad de los datos. La mayoría de proveedores o propietarios de servicios de Big data no puede mantener y almacenar de forma efectiva un volumen enorme de datos debido a su capacidad limitada, y deben por tanto confiar en otros profesionales para analizar los datos, lo que aumenta los riesgos de seguridad potenciales en datos sensibles.
  • Escalabilidad: los sistemas de análisis de Big Data deben dar soporte en el presente pero también en el futuro. Los algoritmos de análisis deben ser capaces de procesar conjuntos de datos en continuo crecimiento tanto en volumen como en complejidad.

Estos son algunos de los retos aún abiertos en el campo del Big Data, pero no espero que esta lista sea ni mucho menos exhaustiva.

Para finalizar este post, una vez hemos visto el estado tanto actual como futuro del Big Data, los retos que aún se encuentran abiertos que se deben afrontar, podemos concluir que el Big Data es un campo con un gran interés en el que son necesarias personas curiosas y con inquietudes para poder conseguir extraer el mejor provecho posible de tal cantidad de datos.

¿Eres tú una de ellas?

Botón Curso Big Data

AGUSTÍN CAMINERO


AUTOR

Agustín Caminero es profesor en el Dpto. de Sistemas de Comunicación y Control y miembro del Big Data Lab de la UNED. Sus intereses investigadores se centran en Learning Analytics, Big Data, cloud computing y sistemas paralelos distribuidos. Entre sus aficiones destaca dormir cuando sus hij@s le dejan.

Email: accaminero@scc.uned.es

Twitter: @accaminero / @bigdatalabuned

Webs: http://goo.gl/lGxl3Xhttp://bigdatalab.scc.uned.es


FUENTES Y REFERENCIAS

Chen, M, et al. Big Data, Related Technologies, Challenges and Future Prospect. 2014. Springer.

http://www.nature.com/news/specials/bigdata/index.html?cookies=accepted#editorial

http://www.sciencemag.org/site/special/data/

https://whatsthebigdata.com/2016/03/07/amount-of-data-created-annually-to-reach-180-zettabytes-in-2025/

http://www.webopedia.com/quick_ref/just-how-much-data-is-out-there.html

http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm

http://www.idc.com/

0 Comentarios

Contesta

Inicia Sesión con tu Usuario y Contraseña

¿Olvidó sus datos?