Una excursión a la historia y las estadísticas
La frase «big data» apareció en 2008 de la mano de Clifford Lynch. En un número especial de la revista Nature, el experto llamó al crecimiento explosivo de los flujos de información: big data. En él, tomó cualquier arreglo de datos heterogéneos de más de 150 GB por día.
A partir de los cálculos estadísticos de las agencias analíticas en 2005, el mundo operaba con 4-5 exabytes de información (4-5 mil millones de gigabytes), después de 5 años el volumen de big data aumentó a 0,19 zettabytes (1 ZB = 1024 EB). En 2012, las cifras aumentaron a 1,8 ZB, y en 2015, a 7 ZB. Los expertos predicen que para 2020, los sistemas de big data operarán entre 42 y 45 zettabytes de información.
Hasta 2011, las tecnologías de big data se consideraban solo como análisis científico y no tenían una solución práctica. Sin embargo, la cantidad de datos creció exponencialmente y el problema de las enormes cantidades de información heterogénea y no estructurada se volvió relevante a principios de 2012. El aumento del interés por los macrodatos es claramente visible en Google Trends.
Los mastodontes de negocios digitales – Microsoft, IBM, Oracle, EMC y otros – se han unido al desarrollo de la nueva dirección. Desde 2014, el big data se ha estudiado en las universidades y se ha implementado en ciencias aplicadas: ingeniería, física, sociología.
¿Qué es Big Data?
Big data es una tecnología de procesamiento de información que supera los cientos de terabytes y está creciendo exponencialmente con el tiempo.
Dichos datos son tan grandes y complejos que ninguna de las herramientas tradicionales de administración de datos puede almacenarlos o procesarlos de manera eficiente. Una persona no puede analizar este volumen. Para ello, se han desarrollado algoritmos especiales que, tras analizar big data, le dan a una persona resultados comprensibles.
Big Data incluye petabytes (1024 terabytes) o exabytes (1024 petabytes) de información que componen miles de millones o billones de registros de millones de personas, todos de diferentes fuentes (Internet, ventas, centro de contacto, redes sociales, dispositivos móviles). Por regla general, la información está mal estructurada y, a menudo, está incompleta y no está disponible.
Qué empresas están haciendo big data
Los operadores móviles y los motores de búsqueda fueron los primeros en trabajar con big data o con «big data». Los motores de búsqueda recibían cada vez más consultas y el texto era más pesado que los números. Se necesita más tiempo para trabajar con un párrafo de texto que con una transacción financiera. El usuario espera que el motor de búsqueda procese la solicitud en una fracción de segundo; es inaceptable que funcione incluso durante medio minuto. Por lo tanto, los motores de búsqueda fueron los primeros en comenzar a trabajar con la paralelización al trabajar con datos.
Un poco más tarde, se unieron varias organizaciones financieras y minoristas. Sus transacciones en sí mismas no son tan grandes, pero el big data aparece debido al hecho de que hay muchas transacciones.
La cantidad de datos está creciendo en general para todos. Por ejemplo, los bancos tenían muchos datos antes, pero no siempre requerían principios operativos, como ocurre con los grandes. Luego, los bancos comenzaron a trabajar más con los datos de los clientes. Comenzaron a proponer depósitos, préstamos, tarifas diferentes y empezaron a analizar las transacciones más de cerca. Esto ya requería formas rápidas de trabajar.
Ahora los bancos quieren analizar no solo información interna, sino también información de terceros. Quieren recibir macrodatos del mismo comercio minorista, quieren saber en qué gasta el dinero una persona. A partir de esta información, intentan realizar ofertas comerciales.
Ahora toda la información está vinculada. El comercio minorista, los bancos, los operadores de telecomunicaciones e incluso los motores de búsqueda ahora están interesados en los datos de los demás.
¿Qué debería ser un especialista en big data?
Dado que los datos se encuentran en un grupo de servidores, se utiliza una infraestructura más compleja para procesarlos. Esto pone mucho estrés en la persona que trabaja con él: el sistema debe ser muy confiable.
Hacer que un solo servidor sea confiable es fácil. Pero cuando hay varios de ellos, la probabilidad de una caída aumenta en proporción al número, y también crece la responsabilidad del ingeniero de datos que trabaja con estos datos.
El analista de big data debe comprender que siempre puede recibir datos incompletos o incluso incorrectos. Escribió el programa, confió en sus resultados y luego descubrió que debido a la caída de un servidor de cada mil, parte de los datos se desactivaron y todas las conclusiones eran incorrectas.
Tome la búsqueda de texto, por ejemplo. Digamos que todas las palabras están ordenadas alfabéticamente en varios servidores (para decirlo de manera muy simple y condicional). Y luego uno de ellos se apagó, todas las palabras con la letra «K» desaparecieron. La búsqueda dejó de dar la palabra «Cine». Entonces desaparecen todas las noticias y el analista llega a la falsa conclusión de que la gente ya no está interesada en los cines.
Por lo tanto, un científico de big data debe conocer los principios del trabajo desde los niveles más bajos (servidores, ecosistemas, programadores de tareas) hasta los programas de nivel superior: bibliotecas de aprendizaje automático, análisis estadístico y más. Debe comprender los principios del hardware, los equipos informáticos y todo lo que se configura sobre él.
Por lo demás, debe saberlo todo igual que cuando trabaja con datos pequeños. Necesita matemáticas, necesita poder programar y estar especialmente familiarizado con los algoritmos de computación distribuida, para poder aplicarlos a los principios habituales de trabajar con datos y aprendizaje automático.
Qué herramientas y tecnologías de big data se utilizan
Dado que los datos se almacenan en un clúster, se necesita una infraestructura especial para trabajar con ellos. El ecosistema más popular es Hadoop. Se pueden ejecutar muchos sistemas diferentes en él: bibliotecas especiales, programadores, herramientas de aprendizaje automático y mucho más. Pero antes que nada, este sistema es necesario para analizar grandes cantidades de datos a través de la computación distribuida.
Por ejemplo, buscamos el tweet más popular en mil servidores. En un servidor, simplemente haríamos una mesa y eso es todo. Aquí podemos arrastrar todos los datos a nosotros mismos y volver a calcular. Pero esto no es correcto, porque durante mucho tiempo.
Por lo tanto, existe Hadoop con paradigmas Map Reduce y Spark framework. En lugar de extraer datos para sí mismos, envían secciones de programa a estos datos. El trabajo se desarrolla en paralelo, en mil hilos. Luego se obtiene una muestra de miles de servidores, sobre la base de los cuales puede seleccionar el tweet más popular.
Map Reduce es un paradigma más antiguo, Spark es más nuevo. Con su ayuda, obtienen datos de clústeres y crean modelos de aprendizaje automático en ellos.
Mercado de Big Data en Rusia
El mundo entero, incluida Rusia, utiliza la tecnología Big Data en el sector bancario, los servicios de comunicaciones y el comercio minorista. Los expertos creen que en el futuro, la tecnología será utilizada por la industria del transporte, las industrias de petróleo y gas y de alimentos, así como la energía.
Los analistas de IDC han reconocido a Rusia como el mercado regional más grande para BDA. Se estima que los ingresos se acercarán a los 1.400 millones de dólares este año y representarán el 40% de las inversiones totales en big data y aplicaciones de inteligencia empresarial.
¿Qué profesiones existen en el campo del big data?
Las dos profesiones principales son analistas e ingenieros de datos.
El analista trabaja principalmente con información. Le interesan los datos tabulares, se dedica a los modelos. Sus responsabilidades incluyen agregar, limpiar, aumentar y visualizar datos. Es decir, el analista de big data es el vínculo entre la información en bruto y el negocio.
El analista tiene dos líneas principales de trabajo. Primero, puede transformar la información recibida, sacar conclusiones y presentarla de forma comprensible.
En segundo lugar, los analistas desarrollan aplicaciones que funcionarán y producirán resultados automáticamente. Por ejemplo, haga un pronóstico para el mercado de valores todos los días.
El ingeniero de fechas es una especialidad de nivel inferior. Esta es la persona que debe garantizar el almacenamiento, procesamiento y entrega de la información al analista. Pero donde hay suministro y limpieza, sus responsabilidades pueden superponerse.
El ingeniero de Bigdata hace todo el trabajo duro. Si los sistemas fallan o uno de los servidores desaparece del clúster, se conecta. Este es un trabajo muy exigente y estresante. El sistema puede apagarse los fines de semana y fuera del horario de atención, y el ingeniero debe actuar de inmediato.
Estas son dos profesiones principales, pero también hay otras. Aparecen cuando se agregan algoritmos de computación paralela a tareas relacionadas con la inteligencia artificial. Por ejemplo, un ingeniero de PNL. Se trata de un programador que se ocupa del procesamiento del lenguaje natural, especialmente en los casos en los que es necesario no solo encontrar palabras, sino captar el significado del texto. Estos ingenieros escriben programas para chat bots y sistemas de diálogo, asistentes de voz y centros de llamadas automatizados.
Hay situaciones en las que necesitas clasificar miles de millones de imágenes, hacer moderación, filtrar cosas innecesarias y encontrar otras similares. Estas profesiones se superponen más con la visión por computadora.
¿Cuánto tiempo dura el entrenamiento?
Llevamos un año y medio entrenando. Están divididos en seis cuartos. Algunos se enfocan en programación, otros en trabajar con bases de datos y otros en matemáticas.
A diferencia de, por ejemplo, la facultad de IA, aquí hay menos matemáticas. No hay un énfasis tan fuerte en el cálculo y el álgebra lineal. Se necesita más conocimiento de los algoritmos de computación distribuida que los principios del cálculo.
Pero un año y medio es suficiente para un trabajo real con procesamiento de big data solo si una persona tiene experiencia trabajando con datos ordinarios y en general en TI. Se anima al resto de alumnos después de graduarse de la facultad a trabajar con datos pequeños y medianos. Solo después de esto se puede permitir que un especialista trabaje con grandes. Después del entrenamiento, vale la pena trabajar como científico de datos para aplicar el aprendizaje automático en diferentes cantidades de datos.
Cuando una persona consigue un trabajo en una gran empresa, incluso si tuviera experiencia, la mayoría de las veces no será admitido a grandes cantidades de datos de inmediato, porque el costo del error es mucho mayor allí. Es posible que los errores en los algoritmos no se detecten de inmediato y esto provocará grandes pérdidas.
¿Cómo funciona la tecnología Big-Data?
Los usuarios de la red social Facebook cargan fotos, videos y realizan acciones todos los días por cientos de terabytes. No importa cuántas personas participen en el desarrollo, no podrán hacer frente al flujo constante de información. Para desarrollar aún más el servicio y hacer que los sitios sean más cómodos, para implementar recomendaciones de contenido inteligente, mostrar anuncios relevantes para el usuario, cientos de miles de terabytes pasan a través del algoritmo y reciben información estructurada y comprensible.
Comparando una gran cantidad de información, se encuentran relaciones en ella. Estas relaciones con cierta probabilidad pueden predecir el futuro. La inteligencia artificial ayuda a encontrar y analizar a una persona.
La red neuronal escanea miles de fotos, videos, comentarios, esos cientos de terabytes de big data y da el resultado: cuántos clientes satisfechos abandonan la tienda, si habrá un atasco en las próximas horas, qué discusiones son populares. en la red social, y mucho más.
Métodos para trabajar con big data:
- Aprendizaje automático
- Análisis de los sentimientos
- Análisis de redes sociales
- Asociación de reglas de aprendizaje
- Análisis del árbol de clasificación
- Algoritmos genéticos
- Análisis de regresión
Técnicas de análisis y procesamiento

Los principales métodos para analizar grandes cantidades de información incluyen los siguientes:
- Análisis profundo, clasificación de datos. Estas técnicas provienen de tecnologías para trabajar con información estructurada convencional en arreglos pequeños. Sin embargo, el nuevo entorno utiliza algoritmos matemáticos avanzados basados en avances en el campo digital.
- Crowdsourcing. En el corazón de esta tecnología se encuentra la capacidad de recibir y procesar flujos de miles de millones de bytes de múltiples fuentes. El número finito de «proveedores» no está limitado por nada. ¿Es solo el poder del sistema?
- Prueba dividida. Se seleccionan varios elementos de la matriz, que se comparan entre sí alternativamente «antes» y «después» del cambio. Las pruebas AB ayudan a determinar qué factores tienen el mayor impacto en los artículos. Por ejemplo, utilizando pruebas divididas, puede llevar a cabo una gran cantidad de iteraciones acercándose gradualmente a un resultado confiable.
- Pronóstico. Los analistas intentan establecer ciertos parámetros al sistema de antemano y luego verifican el comportamiento del objeto en función de la llegada de grandes cantidades de información.
- Aprendizaje automático. La inteligencia artificial en el futuro es capaz de absorber y procesar grandes cantidades de datos no sistemáticos, usándolos posteriormente para el autoestudio.
- Análisis de la actividad de la red. Las técnicas de big data se utilizan para investigar redes sociales, relaciones entre titulares de cuentas, grupos y comunidades. En base a esto, las audiencias objetivo se crean por intereses, geolocalización, edad y otras métricas.
Minería de datos: cómo se recopilan y procesan los macrodatos
La carga de macrodatos en una base de datos relacional tradicional para su análisis requiere mucho tiempo y dinero. Por esta razón, han aparecido enfoques especiales para recopilar y analizar información. Para recibir y luego extraer información, la combinan y la colocan en un «lago de datos». A partir de ahí, los programas de inteligencia artificial, utilizando algoritmos complejos, buscan patrones repetidos.
El almacenamiento y procesamiento se realiza con las siguientes herramientas:
- Apache HADOOP es un sistema de procesamiento de datos orientado a lotes. El sistema almacena y rastrea información en múltiples máquinas y escala a varios miles de servidores.
- HPPC es una plataforma de código abierto desarrollada por LexisNexis Risk Solutions. HPPC se conoce como la supercomputadora de análisis de datos (DAS), que admite el procesamiento de datos por lotes y en tiempo real. El sistema utiliza supercomputadoras y clústeres de computadoras convencionales.
- Tormenta: procesa información en tiempo real. Utiliza la licencia pública Eclipse de código abierto.
¿Para qué se usa esto?
Cuanto más sepamos sobre un objeto o fenómeno específico, con mayor precisión comprendemos la esencia y podemos predecir el futuro. Al capturar y procesar flujos de datos de sensores, Internet y operaciones transaccionales, las empresas pueden predecir con bastante precisión la demanda de productos y los servicios de emergencia pueden prevenir desastres provocados por el hombre. A continuación, se muestran algunos ejemplos fuera de los negocios y el marketing de cómo se utilizan las tecnologías de big data:
- Cuidado de la salud. Más conocimiento sobre enfermedades, más opciones de tratamiento, más información sobre medicamentos: todo esto nos permite combatir enfermedades que se consideraban incurables hace 40-50 años.
- Prevención de desastres naturales y provocados por el hombre. El pronóstico más preciso en esta área salva miles de vidas. La tarea de las máquinas inteligentes es recopilar y procesar una variedad de lecturas de sensores y, en base a ellas, ayudar a las personas a determinar la fecha y el lugar de un posible cataclismo.
- Las fuerzas del orden. Los macrodatos se utilizan para predecir los picos de la delincuencia en diferentes países y tomar medidas disuasorias cuando la situación lo requiera.
Big data en los negocios y el marketing
Las estrategias de desarrollo empresarial, las actividades de marketing, la publicidad se basan en el análisis y el trabajo con los datos disponibles. Los arreglos grandes permiten «recolectar» grandes cantidades de datos y, en consecuencia, ajustar la dirección de desarrollo de una marca, producto o servicio con la mayor precisión posible.
Por ejemplo, la subasta de RTB en publicidad contextual funciona con big data, lo que le permite anunciar ofertas comerciales de manera efectiva a un público objetivo específico, y no a todos.
Cuáles son los beneficios comerciales:
- Creación de proyectos de alta demanda entre usuarios y compradores.
- Estudio y análisis de los requerimientos del cliente con el servicio existente de la empresa. Sobre la base del cálculo, se corrige el trabajo del personal de servicio.
- Revelar la fidelidad e insatisfacción de la base de clientes mediante el análisis de información variada de blogs, redes sociales y otras fuentes.
- Atraer y retener al público objetivo mediante un trabajo analítico con gran cantidad de información.
Las tecnologías se utilizan para predecir la popularidad de los productos, por ejemplo, utilizando el servicio Google Trends y Yandex. Wordstat (para Rusia y la CEI).
Los métodos de big data son utilizados por todas las grandes empresas (IBM, Google, Facebook y corporaciones financieras) VISA, Master Card, así como ministerios de todo el mundo. Por ejemplo, en Alemania se redujo la emisión de prestaciones por desempleo, calculando que algunos ciudadanos las reciben sin motivo. Así logramos devolver al presupuesto unos 15 mil millones de euros.
El reciente escándalo de Facebook debido a la filtración de datos de los usuarios sugiere que los volúmenes de información no estructurada están creciendo e incluso los mastodontes de la era digital no siempre pueden garantizar su completa privacidad.
Por ejemplo, Master Card utiliza big data para evitar transacciones fraudulentas con cuentas de clientes. Por lo tanto, es posible ahorrar más de 3.000 millones de dólares estadounidenses en robos al año.
En el campo del juego, el big data permite analizar el comportamiento de los jugadores, identificar las preferencias de una audiencia activa y, en base a esto, predecir el nivel de interés en el juego.
Hoy en día, las empresas saben más sobre sus clientes de lo que sabemos sobre nosotros mismos, por lo que las campañas publicitarias de Coca-Cola y otras corporaciones son un éxito rotundo.
Problemas con Big Data
Big Date nos brinda perspectivas y oportunidades sin precedentes, pero también plantea problemas y preguntas que deben abordarse:
- Confidencialidad de los datos: el Big-Data que generamos hoy contiene mucha información sobre nuestra vida personal, cuya confidencialidad tenemos todo el derecho. Cada vez más, se nos pide que encontremos un equilibrio entre la cantidad de datos personales que divulgamos y la conveniencia que ofrecen las aplicaciones y servicios de Big Date.
- Protección de datos: incluso si decidimos que estamos contentos con el hecho de que alguien tenga nuestros datos para un propósito específico, ¿podemos confiarles la seguridad de nuestros datos?
- Discriminación de datos: cuando se conozca toda la información, ¿será aceptable discriminar a las personas en función de los datos de sus vidas personales? Ya usamos puntajes de crédito para decidir quién puede pedir dinero prestado, y el seguro también depende en gran medida de los datos. Debemos esperar ser analizados y evaluados con mayor detalle, pero se debe tener cuidado para garantizar que esto no complique la vida de quienes tienen menos recursos y acceso limitado a la información.
Estas tareas son una parte importante de las Big Dates y deben ser abordadas por organizaciones que deseen utilizar dichos datos. No hacerlo puede hacer que la empresa sea vulnerable, no solo en términos de reputación, sino también desde el punto de vista legal y financiero.
Increíble ascenso de Big Date
Todo comenzó con una explosión en la cantidad de datos que hemos creado desde el comienzo de la era digital. Esto se debe en gran parte al desarrollo de las computadoras, Internet y tecnologías capaces de «arrebatar» datos del mundo que nos rodea. Los datos por sí solos no son una invención nueva. Incluso antes de la era de las computadoras y las bases de datos, usábamos registros de transacciones en papel, registros de clientes y archivos de archivo, que son datos. Las computadoras, especialmente las hojas de cálculo y las bases de datos, nos han facilitado el almacenamiento y la organización de datos a gran escala. De repente, la información estuvo disponible con un solo clic del mouse.
Sin embargo, hemos recorrido un largo camino desde las tablas y bases de datos originales. Hoy, cada dos días, creamos tantos datos como recibimos desde el principio hasta el año 2000. Así es, cada dos días. Y la cantidad de datos que creamos sigue creciendo rápidamente; para 2020, la cantidad de información digital disponible aumentará de aproximadamente 5 zettabytes a 20 zettabytes.
Hoy en día, casi todas las acciones que realizamos dejan su huella. Generamos datos cada vez que nos conectamos, cuando transferimos nuestros teléfonos inteligentes equipados con un módulo de búsqueda, cuando hablamos con nuestros amigos a través de redes sociales o chats, etc. Además, la cantidad de datos generados por máquinas también está creciendo rápidamente. Los datos se generan y distribuyen cuando nuestros dispositivos domésticos inteligentes se comunican entre sí o con sus servidores domésticos. Los equipos industriales en fábricas y fábricas están cada vez más equipados con sensores que acumulan y transmiten datos.
El término «Big-Data» se refiere a la recopilación de todos estos datos y nuestra capacidad para usarlos en nuestro beneficio en una amplia gama de áreas, incluidas las empresas.
Perspectivas de usar Big Date
Blockchain y Big Data son dos tecnologías complementarias y en evolución. Desde 2016, blockchain ha sido ampliamente discutido en los medios. Es una tecnología de base de datos distribuida criptográficamente segura para almacenar y transmitir información. La protección de la información privada y confidencial es un problema de big data urgente y futuro que blockchain puede resolver.
Casi todas las industrias han comenzado a invertir en análisis de Big Data, pero algunas están invirtiendo más que otras. Según IDC, se gasta más en banca, fabricación discreta, fabricación de procesos y servicios profesionales. Según la investigación de Wikibon, los ingresos por ventas de programas y servicios en el mercado global en 2018 ascendieron a $ 42 mil millones, y en 2027 superarán la marca de $ 100 mil millones.
Neimeth estima que blockchain representará hasta el 20% del mercado total de big data para 2030, generando hasta $ 100 mil millones en ingresos anuales. Esto supera los márgenes combinados de PayPal, Visa y Mastercard.
El análisis de Big Data será importante para rastrear transacciones y permitirá a las empresas de blockchain descubrir esquemas ocultos y descubrir con quién interactúan en blockchain.
Resumen
Hemos aprendido qué es big data? Observamos cómo funciona esta tecnología, para qué matrices de información se utilizan. Nos familiarizamos con los principios y métodos de trabajo con big data.
Recomendamos leer El rostro humano de Big Data de Rick Smolan y Jennifer Erwitt, e Introducción a la minería de datos de Michael Steinbach, Vipin Kumar y Pang-Ning Tan.
Fuentes utilizadas y enlaces útiles sobre el tema: https://www.calltouch.ru/glossary/big-data/ https://Mining-CryptoCurrency.ru/big-data/ https://geekbrains.ru/posts/gu_big_data_faculty https: //clubshuttle.ru/tehnologiya-big-data-prostymi-slovami

