Básicamente se podría definir como el conjunto de datos informáticos que se generan por nuestro uso, desarrollo e interacción con/y/por la red, además de los producidos a consecuencia de otras aplicaciones que puntualmente tienen contacto con la red.
La mayoría de ellos y los más relevantes son aquellos que se crean como consecuencia de nuestras búsquedas y nuestras interacciones con otros usuarios (o marcas, empresas, etc…) en las redes sociales.
También se producen en la interacción de medidores o sensores y los que provienen de seguridad y de los Servicios de Inteligencia.
Aunque normalmente utilizamos el término como un solo elemento, no es una entidad concreta y determinada, ya que es el conjunto de conjuntos de datos masivos.
Su identidad es virtual, ya que se codifican en código binario (los famosos ceros y unos: el idioma de los ordenadores) y se almacenan en Bases de Datos.
Su naturaleza puede ser: texto, imagen, video, audio y fusión de cualquiera de estos…
Nuestra vida, cada vez más, depende del uso y la actividad en la red, lo que provoca que el volumen y magnitud de los datos sea enorme y un crecimiento cada vez mayor que tiende a infinito. Por este motivo otros nombres con los que se conoce son: Macrodatos, Datos Masivos, Datos a gran Escala, etc…
“En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos.”
“Se estima que el mundo almacenó unos 5 zettabytes en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer 4500 pilas de libros que lleguen hasta el sol.”
“La capacidad tecnológica per cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años 1980. Se estima que en 2012 cada día fueron creados cerca de 2.5 trillones de bytes de datos.”
Se obtienen a través de cookies de navegadores, formularios, Mapas de Calor, registros, de las propias actividades en portales, tiendas online y redes sociales.
Todos estos datos se recogen y se almacenan en Bases de Datos (NoSQL, CouchDB, MongoDB, Hadoop, etc…) muy potentes y se estudian con herramientas destinadas para ello.
Como hemos destacado antes, el gran volumen que tienen dificulta su manejo (recolección, almacenamiento, búsqueda, compartición, análisis, visualización, etc…) esto se denomina: Límite Superior de Procesamiento.
Hasta hace poco esto suponía un problema, porque las aplicaciones informáticas tradicionales no eran capaces de tratar y procesar en un tiempo competente tal volumen de datos.
El siguiente paso a recogerlos y previo a almacenarlos es procesarlos mediante plataformas como Pentaho.
Los podemos analizar según nuestra intención:
El resultado de estos estudios y análisis se muestra gracias a aplicaciones como Mondrian que nos muestra los resultados con sencillas estadísticas en forma de gráficos y esclarecedoras Infografías.
Los estudios de estos datos sufren una gran controversia ya que plantean problemas éticos y morales en cuanto a nuestra intimidad y privacidad, pero también sirven a la sociedad y a la investigación.
El análisis del Big Data se puede utilizar en diversas materias que pueden ir desde la publicidad, hasta el estudio de epidemias, pasando por el espionaje, y el control de la población o como arma contra la delincuencia y el crimen organizado…
Como todo en este mundo, tiene un uso beneficioso y otro perjudicial, todo depende de nuestro propósito y nuestras intenciones, de las manos que lo manejen, del conocimiento de la herramienta…
Un claro ejemplo son las empresas que estudian la información que publicamos sobre nuestras apetencias, aficiones y gustos y de los que nos rodean, para ofrecernos productos o servicios.
En el sector de los Servicios de Inteligencia, recientemente nos han demostrado su eficiencia al ayudar a resolver algunos casos y detener a los responsables. El problema se presenta en este sector al no poder desarrollar patrones repetitivos y definir conductas o actos delictivos antes que se produzcan (¿Te suena a algo? Has visto la película: Minority Report?).
También las empresas de Recursos Humanos y de Outsourcing, aprovechando la actividad de los usuarios de Redes Sociales que publican sus actividades y las de sus conocidos, utilizan esta información para cruzar los datos de los candidatos a un trabajo.
Oracle con su herramienta: Taleo Social Sourcing permite a las empresas o departamentos de Recursos Humanos contrastar información de los posibles candidatos en Facebook, Twitter y LinkedIn. A la vez, pueden cruzar datos para crear una lista de posibles candidatos acorde al perfil buscado generando una oferta laboral afín a un público más concreto.
En People Analytics te preparamos y formamos para ello si quieres saber más pincha aquí.
Además, si quieres ver claros ejemplos sobre la utilidad del Big data en el mundo de los Recursos Humanos y los equipos de trabajo, lee este interesante artículo de Diego Conde.