¿Qué es el Big Data y por qué es el futuro?

Qué es el Big Data

Hoy en día, la inmensa mayoría de la población, desde los niños hasta las personas de edad avanzada, hacemos uso de Internet de una forma o de otra.

Casi todos tenemos un teléfono inteligente ( “smartphone”), un ordenador o una “tablet”, nos comunicamos con nuestros conocidos utilizando aplicaciones como Whatsapp o Telegram, hablamos a través de Skype o Hangout, publicamos información en redes sociales como Facebook o Twitter y buscamos información utilizando buscadores de Internet como Google o Bing.

Se ha convertido en algo habitual reservar unas vacaciones o comprar productos por Internet, utilizando algunas de las innumerables webs existentes para estos fines.

No solo eso.

Las diversas compañías de luz, agua, gas, telefonía, bancos … mantienen registros de nuestras actividades y consumos.

Incluso en un tema tan importante como es la salud, generamos cantidades enormes de datos (nuestros expedientes médicos, resultados de pruebas, medicamentos prescritos, …).

Es más, probablemente, dentro de unos años tendremos hogares domotizados en los que podremos configurar la nevera para que nos avise si falta algo o que haga la compra automáticamente por Internet, donde podremos abrir la puerta o encender o apagar luces o calefacción incluso aunque no estemos en casa, o realizar cualquier otra tarea que a día de hoy ni siquiera se nos ocurre.

Por no hablar del sector de la automoción… ¡ya hasta hay coches se aparcan solos!

¿Qué es el Big Data?

Como vemos, en nuestra vida diaria actual y también en el futuro estamos generando datos incluso aunque no seamos conscientes de ello.

¿Conocemos a alguien que no realice al menos algunas de las acciones que menciono arriba?

Viendo esto, podemos hacernos una idea de la cantidad de datos que cada uno de nosotros generamos cada día, cada hora, cada minuto…

Es una cantidad de datos totalmente enorme, no solamente gigabytes o terabytes, sino incluso órdenes de magnitud todavía mayores que esos. En estos casos estamos hablando de datos masivos.

En una palabra, estos datos son “big”.

Son “Big data”.

Si a día de hoy ya son big, lo mejor es que irán a más en el futuro.

Pero todos estos datos … ¿para qué sirven?,  o mejor dicho, ¿cómo se pueden utilizar?

Una situación totalmente común de nuestra vida normal puede ser la siguiente:

Un día cualquiera salimos a hacer la compra, vamos a nuestra frutería de toda la vida y le comentamos al dependiente que nuestro hijo viene a pasar el fin de semana con nosotros. Entonces, el dependiente, que nos conoce de toda la vida, nos recomienda las chirimoyas, ya que sabe que a nuestro hijo le encantan y hoy están ricas y a buen precio.

Parece sencillo imaginar que una situación similar se pueda dar cuando realizamos compras por Internet, y que los datos de las compras que hemos realizado se utilicen para que la web donde hemos comprado nos recomiende nuevos productos que puedan ser de nuestro interés, igual que en el ejemplo de la frutería.

Pero… ¿es posible hacer esto manualmente para cada persona que realiza una compra?

Evidentemente todos estos datos, de todos los clientes de dicha web, son de un tamaño que hace inviable que una o más personas puedan revisarlos y producir tales recomendaciones (¿podría nuestro tendero darnos recomendaciones personalizadas si tuviera cien millones de clientes?).

En otras palabras, ¿es posible para un ser humano leer manualmente los registros de un servidor de Internet y extraer conclusiones interesantes?

Es aquí donde entran las tecnologías de Big Data.

Estas tecnologías nos permiten en primer lugar importar cantidades masivas de datos provenientes de diversas fuentes, tales como bases de datos relacionales, redes sociales o registros de servidores de Internet.

Para esto podremos utilizar entre otras herramientas Flume o Sqoop, que inyectan estos datos en un cluster HDFS o en una base de datos NoSQL (como por ejemplo Cassandra o Mongo).

Estos datos se encontrarán alojados posiblemente en unas infraestructuras basadas en Cloud Computing.

Tras eso, tendremos que limpiar los datos para eliminar datos erróneos, duplicados o incompletos y tal vez normalizarlos para continuar con su estudio.

También tendremos que realizar un análisis exploratorio de los datos (Exploratory Data Analysis, EDA) para entender su naturaleza y familiarizarnos con ellos.

Para estas tareas, la utilización de MapReduce es de gran interés, y para ello podemos implementar trabajos MapReduce por ejemplo en Java o Python sobre Hadoop, pero también si nos sentimos más cómodos podemos desarrollar scripts de Pig o Hive, o tal vez utilizar Scala o Python sobre Spark, entre otras opciones.

Una vez nuestros datos se encuentran listos para su análisis, podemos utilizar librerías de análisis estadístico, como por ejemplo MLlib sobre Spark, o Mahout sobre Hadoop, o tal vez aprovechar la potencia del lenguaje estadístico R sobre Spark o Hadoop, entre otras opciones.

Una vez hayamos concluido nuestros análisis, podremos visualizar los resultados de forma gráfica para un mejor entendimiento, utilizando herramientas como por ejemplo Tableau.

UTILIZACIÓN DEL BIG DATA

Gracias a la utilización de estas tecnologías, de las que he mencionado tan sólo algunas de las más conocidas y ampliamente utilizadas, es posible analizar datos masivos y extraer conclusiones interesantes, como por ejemplo recomendaciones sobre productos que pueden ser de nuestro interés basándonos en las compras que hemos realizado o en los productos que hemos visto, de manera similar a como nuestro tendero lleva años haciendo.

De esta forma, las empresas de comercio por Internet pueden mejorar la experiencia de sus clientes, e intentar que vuelvan a comprar.

Este ejemplo es tan sólo uno de los innumerables casos que existen sobre el uso de tecnologías de Big Data.

Otros ejemplos de áreas donde el Big Data es de interés son el análisis de redes sociales, donde se pueden analizar los mensajes que los usuarios publican para identificar elementos de interés.

Analizando las redes sociales podemos detectar temas, personas o eventos que le interesen a la gente (para de esta forma decidir por ejemplo a qué personas contratar para realizar una campaña publicitaria, o en qué eventos colocar publicidad).

Las redes sociales son un espejo de la sociedad, de forma que analizándolas podemos descubrir estados de tensión o peligro social, por ejemplo se pueden detectar casos de bullying analizando los mensajes públicos existentes en las redes…

Una de las áreas que más se beneficia de las tecnologías de Big Data es la medicina. El hecho de poder analizar millones de registros de pruebas médicas permite a los investigadores descubrir patrones que pueden ser de utilidad a la hora de desarrollar nuevas terapias y medicamentos.

BIG DATA Y EMPLEO

Se podría dedicar páginas y páginas a enumerar áreas en las que las tecnologías de Big Data son de utilidad, pero para finalizar este post me gustaría incluir también información sobre el trabajo en el mundo del Big Data.

Por si fueran pocas las áreas en las que estas tecnologías son de utilidad, si buscamos en Google “Big Data salary” vemos que dependiendo de las empresas los salarios varían entre 62.000 dólares (55.376 euros) y 132.000 dólares (117.897 euros) al año.

En España, en 2015 se ha producido un fuerte auge para los perfiles Business Intelligence y Big Data donde el rango salarial ha aumentado a los 39.700 euros brutos anuales este año.

Por otro lado, tal y como indica el portal TicBeat, las vacantes para perfiles Big Data en 2015  aumentaron un 92% (de 1.797 a 3.447).

Teniendo en cuenta todo lo que comento, tanto la cantidad de datos existentes actualmente como los que se van a generar en el futuro, y sobre todo también por las demandas de empleo en este campo, podemos concluir que el Big Data es un área de trabajo con un gran presente y con grandes perspectivas de futuro.

Ahora que ya sabes qué es el Big Data, estás en el momento perfecto para profundizar en el conocimiento de sus tecnologías.

¿Quieres saber más sobre Big Data?

Botón Curso Big Data

 

AGUSTÍN CAMINERO


AUTOR

Agustín Caminero es profesor en el Dpto. de Sistemas de Comunicación y Control y miembro del Big Data Lab de la UNED. Sus intereses investigadores se centran en Learning Analytics, Big Data, cloud computing y sistemas paralelos distribuidos. Entre sus aficiones destaca dormir cuando sus hij@s le dejan.

Email: accaminero@scc.uned.es

Twitter: @accaminero / @bigdatalabuned

 

0 Comentarios

Contesta

Inicia Sesión con tu Usuario y Contraseña

¿Olvidó sus datos?