O que é Big Date? Resposta simples para todos. Big Data – grande responsabilidade, grande estresse e dinheiro
Uma excursão pela história e estatísticas
A frase “big data” apareceu em 2008 com a mão leve de Clifford Lynch. Em uma edição especial da revista Nature, o especialista chamou o crescimento explosivo dos fluxos de informação – big data. Nele, ele pegou qualquer matriz de dados heterogêneos com mais de 150 GB por dia.
Pelos cálculos estatísticos das agências analíticas em 2005, o mundo operava com 4 a 5 exabytes de informação (4 a 5 bilhões de gigabytes), após 5 anos o volume de big data aumentou para 0,19 zetabytes (1 ZB = 1024 EB). Em 2012, os números aumentaram para 1,8 ZB, e em 2015 – para 7 ZB. Os especialistas prevêem que, em 2020, os sistemas de big data irão operar de 42 a 45 zetabytes de informações.
Até 2011, as tecnologias de big data eram consideradas apenas como análises científicas e não tinham solução prática. No entanto, a quantidade de dados cresceu exponencialmente, e o problema de grandes quantidades de informações não estruturadas e heterogêneas tornou-se relevante no início de 2012. O aumento do interesse em big data é claramente visível no Google Trends.
Mastodontes de negócios digitais – Microsoft, IBM, Oracle, EMC e outros – se juntaram ao desenvolvimento da nova direção. Desde 2014, big data é estudado em universidades, implementado em ciências aplicadas – engenharia, física, sociologia.
O que é Big Data?
Big data é uma tecnologia de processamento de informações que ultrapassa centenas de terabytes e está crescendo exponencialmente com o tempo.
Esses dados são tão grandes e complexos que nenhuma das ferramentas tradicionais de gerenciamento de dados pode armazená-los ou processá-los com eficiência. Uma pessoa não consegue analisar este volume. Para isso, foram desenvolvidos algoritmos especiais que, após a análise de big data, fornecem resultados compreensíveis a uma pessoa.
Big Data inclui petabytes (1.024 terabytes) ou exabytes (1.024 petabytes) de informações que compõem bilhões ou trilhões de registros por milhões de pessoas, todas de diferentes fontes (Internet, vendas, contact center, mídia social, dispositivos móveis). Como regra, as informações são mal estruturadas e, muitas vezes, incompletas e indisponíveis.
O que as empresas estão fazendo com Big Data
Operadoras de celular e motores de busca foram os primeiros a trabalhar com big data, ou “big data”. Os motores de busca recebiam cada vez mais consultas e o texto era mais pesado do que números. Um parágrafo de texto leva mais tempo para trabalhar do que uma transação financeira. O usuário espera que o mecanismo de pesquisa processe a solicitação em uma fração de segundo – é inaceitável que funcione mesmo por meio minuto. Portanto, os motores de busca foram os primeiros a começar a trabalhar com paralelização ao trabalhar com dados.
Um pouco mais tarde, várias organizações financeiras e de varejo aderiram. Suas transações em si não são tão grandes, mas o big data aparece devido ao fato de que há muitas transações.
A quantidade de dados está crescendo em geral para todos. Por exemplo, os bancos tinham muitos dados antes, mas nem sempre exigiam princípios operacionais, como acontece com os grandes. Então, os bancos começaram a trabalhar mais com os dados dos clientes. Eles começaram a criar depósitos, empréstimos, tarifas diferentes mais flexíveis e a analisar as transações mais de perto. Isso já exigia formas rápidas de trabalho.
Agora os bancos querem analisar não apenas informações internas, mas também informações de terceiros. Eles querem receber big data do mesmo varejo, querem saber em que uma pessoa gasta dinheiro. Com base nessas informações, eles tentam fazer ofertas comerciais.
Agora todas as informações estão sendo conectadas. Varejo, bancos, operadoras de telecomunicações e até mesmo mecanismos de pesquisa agora estão interessados nos dados uns dos outros.
O que deve ser um especialista em Big Data
Como os dados estão localizados em um cluster de servidores, uma infraestrutura mais complexa é usada para processá-los. Isso coloca muito estresse sobre a pessoa que trabalha com ele – o sistema deve ser muito confiável.
Tornar um único servidor confiável é fácil. Mas quando há vários deles, a probabilidade de queda aumenta em proporção ao número e a responsabilidade do engenheiro de dados que trabalha com esses dados também aumenta.
Um analista de big data deve entender que ele sempre pode receber dados incompletos ou mesmo incorretos. Ele escreveu o programa, confiou em seus resultados e então descobriu que devido à queda de um servidor entre mil, parte dos dados foi desligada e todas as conclusões estavam incorretas.
Veja a pesquisa de texto, por exemplo. Digamos que todas as palavras estão organizadas em ordem alfabética em vários servidores (para colocá-lo de forma muito simples e condicional). E então um deles desligou, todas as palavras com a letra “K” desapareceram. A busca parou de dar a palavra “Cinema”. Então, todas as notícias desaparecem e o analista chega à falsa conclusão de que as pessoas não estão mais interessadas nos cinemas.
Portanto, um cientista de big data deve conhecer os princípios de trabalho desde os níveis mais baixos – servidores, ecossistemas, agendadores de tarefas – até os programas de nível mais alto – bibliotecas de aprendizado de máquina, análise estatística e muito mais. Ele deve entender os princípios de hardware, equipamento de informática e tudo o que está configurado em cima dele.
Quanto ao resto, você precisa saber tudo da mesma forma que quando trabalha com pequenos dados. Você precisa de matemática, precisa ser capaz de programar e estar especialmente familiarizado com algoritmos de computação distribuída, para ser capaz de aplicá-los aos princípios usuais de trabalho com dados e aprendizado de máquina.
Quais ferramentas e tecnologias de big data são usadas
Como os dados são armazenados em um cluster, uma infraestrutura especial é necessária para trabalhar com eles. O ecossistema mais popular é o Hadoop. Muitos sistemas diferentes podem ser executados nele: bibliotecas especiais, planejadores, ferramentas de aprendizado de máquina e muito mais. Mas, antes de tudo, esse sistema é necessário para analisar grandes quantidades de dados por meio da computação distribuída.
Por exemplo, estamos procurando o tweet mais popular em mil servidores. Em um servidor, faríamos apenas uma mesa e pronto. Aqui podemos arrastar todos os dados para nós e recalcular. Mas isso não é correto, porque leva muito tempo.
Portanto, há Hadoop com paradigmas Map Reduce e estrutura Spark. Em vez de extrair dados para si mesmos, eles enviam seções do programa para esses dados. O trabalho segue em paralelo, em mil fios. Então, uma amostra de milhares de servidores é obtida, com base na qual o tweet mais popular pode ser selecionado.
Map Reduce é um paradigma mais antigo, o Spark é mais novo. Com a ajuda dele, eles obtêm dados de clusters e criam modelos de aprendizado de máquina neles.
Mercado de Big Data na Rússia
O mundo inteiro, incluindo a Rússia, usa a tecnologia de Big Data em serviços bancários, de comunicações e varejo. Especialistas acreditam que, no futuro, a tecnologia será utilizada pela indústria de transportes, petróleo e gás e indústrias alimentícias, além de energia.
Os analistas da IDC reconheceram a Rússia como o maior mercado regional para BDA. A receita é estimada em cerca de US $ 1,4 bilhão este ano e será responsável por 40% do total de investimentos no setor de big data e aplicativos de inteligência de negócios.
Quais profissões existem na área de Big Data
As duas principais profissões são analistas e engenheiros de dados.
O analista trabalha principalmente com informações. Ele está interessado em dados tabulares, ele está engajado em modelos. Suas responsabilidades incluem agregar, limpar, aumentar e visualizar dados. Ou seja, o analista de big data é o elo entre as informações brutas e o negócio.
O analista tem duas linhas principais de trabalho. Primeiro, ele pode transformar as informações recebidas, tirar conclusões e apresentá-las de uma forma compreensível.
Em segundo lugar, os analistas desenvolvem aplicativos que funcionarão e produzirão resultados automaticamente. Por exemplo, faça uma previsão para o mercado de ações todos os dias.
O engenheiro de encontros é uma especialidade de nível inferior. É a pessoa que deve garantir o armazenamento, processamento e entrega das informações ao analista. Mas onde há abastecimento e limpeza, suas responsabilidades podem se sobrepor.
O engenheiro da Bigdata fica com todo o trabalho duro. Se os sistemas falharam ou um dos servidores desapareceu do cluster, ele se conecta. Este é um trabalho muito exigente e estressante. O sistema pode desligar nos finais de semana e após o expediente, e o engenheiro deve agir imediatamente.
Essas são duas profissões principais, mas também existem outras. Eles aparecem quando algoritmos de computação paralela são adicionados a tarefas relacionadas à inteligência artificial. Por exemplo, um engenheiro de PNL. Este é um programador que lida com o processamento da linguagem natural, principalmente nos casos em que é necessário não só encontrar palavras, mas captar o significado do texto. Esses engenheiros escrevem programas para bots de bate-papo e sistemas de diálogo, assistentes de voz e call centers automatizados.
Existem situações em que você precisa classificar bilhões de fotos, fazer moderação, filtrar coisas desnecessárias e encontrar outras semelhantes. Essas profissões se sobrepõem mais à visão computacional.
Quanto tempo leva o treinamento
Estamos treinando há um ano e meio. Eles são divididos em seis quartos. Alguns se concentram em programação, outros em trabalhar com bancos de dados e outros ainda em matemática.
Ao contrário, por exemplo, do corpo docente de IA, há menos matemática aqui. Não existe uma ênfase tão forte em cálculo e álgebra linear. O conhecimento de algoritmos de computação distribuída é mais necessário do que os princípios de cálculo.
Mas um ano e meio é suficiente para um trabalho real com processamento de big data apenas se a pessoa tiver experiência em trabalhar com dados comuns e em geral em TI. O restante dos alunos, após se formar no corpo docente, são incentivados a trabalhar com dados pequenos e médios. Só depois disso um especialista pode trabalhar com grandes. Após o treinamento, vale a pena trabalhar como cientista de dados – para aplicar o aprendizado de máquina em diferentes quantidades de dados.
Quando uma pessoa consegue um emprego em uma grande empresa – mesmo que ela tenha experiência – na maioria das vezes ela não será admitida imediatamente para grandes volumes de dados, porque o custo do erro é muito maior lá. Os erros nos algoritmos podem não ser detectados imediatamente e isso levará a grandes perdas.
Como funciona a tecnologia de Big Data?
Os usuários da rede social Facebook fazem upload de fotos, vídeos e realizam ações todos os dias por centenas de terabytes. Não importa quantas pessoas participem do desenvolvimento, elas não vão lidar com o fluxo constante de informações. Para desenvolver ainda mais o serviço e tornar os sites mais confortáveis - para implementar recomendações de conteúdo inteligentes, exibir anúncios relevantes para o usuário, centenas de milhares de terabytes são passados pelo algoritmo e recebem informações estruturadas e compreensíveis.
Comparando uma grande quantidade de informações, os relacionamentos são encontrados nela. Essas relações com certa probabilidade podem prever o futuro. A inteligência artificial ajuda a encontrar e analisar uma pessoa.
A rede neural examina milhares de fotos, vídeos, comentários – aquelas centenas de terabytes de big data e dá o resultado: quantos clientes satisfeitos saem da loja, se haverá engarrafamento nas próximas horas, quais discussões são populares na rede social e muito mais.
Métodos para trabalhar com big data:
- Aprendizado de máquina
- Análise de sentimentos
- Análise de rede social
- Associação de Regras de Aprendizagem
- Análise da árvore de classificação
- Algorítmos genéticos
- Análise de regressão
Técnicas de análise e processamento

Os principais métodos para analisar grandes quantidades de informações incluem o seguinte:
- Análise profunda, classificação de dados. Essas técnicas vieram de tecnologias para trabalhar com informações estruturadas convencionais em pequenos arrays. No entanto, no novo ambiente, algoritmos matemáticos avançados são usados com base nos avanços no campo digital.
- Crowdsourcing. No centro dessa tecnologia está a capacidade de receber e processar fluxos de bilhões de bytes de várias fontes. O número finito de “fornecedores” não é limitado por nada. É apenas o poder do sistema.
- Teste de divisão. Vários elementos são selecionados da matriz, que são comparados uns com os outros alternadamente “antes” e “depois” da mudança. Os testes AB ajudam a determinar quais fatores têm maior impacto nos itens. Por exemplo, usando o teste de divisão, você pode realizar um grande número de iterações aproximando-se gradualmente de um resultado confiável.
- Previsão. Os analistas tentam definir alguns parâmetros para o sistema com antecedência e, em seguida, verificam o comportamento do objeto com base na chegada de grandes quantidades de informações.
- Aprendizado de máquina. A inteligência artificial no futuro é capaz de absorver e processar grandes quantidades de dados não sistemáticos, posteriormente usando-os para auto-estudo.
- Análise da atividade da rede. Técnicas de big data são usadas para pesquisar redes sociais, relacionamentos entre titulares de contas, grupos, comunidades. Com base nisso, os públicos-alvo são criados por interesses, geolocalização, idade e outras métricas.
Mineração de dados – como Big Data é coletado e processado
Carregar big data em um banco de dados relacional tradicional para análise exige muito tempo e dinheiro. Por esse motivo, surgiram abordagens especiais para coletar e analisar informações. Para receber e extrair informações, eles as combinam e as colocam em um “lago de dados”. A partir daí, programas de inteligência artificial, usando algoritmos complexos, procuram padrões repetidos.
O armazenamento e o processamento ocorrem com as seguintes ferramentas:
- Apache HADOOP é um sistema de processamento de dados orientado para lote. O sistema armazena e rastreia informações em várias máquinas e pode ser dimensionado para vários milhares de servidores.
- HPPC é uma plataforma de código aberto desenvolvida pela LexisNexis Risk Solutions. O HPPC é conhecido como Data Analytics Supercomputer (DAS), suportando processamento de dados em lote e em tempo real. O sistema usa supercomputadores e clusters de computadores convencionais.
- Storm – processa informações em tempo real. Usa a Licença Pública Eclipse de código aberto.
Para que isso é usado?
Quanto mais sabemos sobre um objeto ou fenômeno específico, com mais precisão compreendemos a essência e podemos prever o futuro. Ao capturar e processar fluxos de dados de sensores, da Internet e de operações transacionais, as empresas podem prever com bastante precisão a demanda por produtos e os serviços de emergência podem prevenir desastres provocados pelo homem. Aqui estão alguns exemplos fora dos negócios e marketing de como as tecnologias de big data são usadas:
- Assistência médica. Mais conhecimento sobre doenças, mais opções de tratamento, mais informações sobre medicamentos – tudo isso nos permite combater doenças que eram consideradas incuráveis há 40-50 anos.
- Prevenção de desastres naturais e causados pelo homem. A previsão mais precisa nesta área salva milhares de vidas. A tarefa das máquinas inteligentes é coletar e processar uma variedade de leituras de sensores e, com base nisso, ajudar as pessoas a determinar a data e o local de um possível cataclismo.
- Agências de aplicação da lei. O big data é usado para prever picos de criminalidade em diferentes países e tomar medidas de dissuasão quando a situação exigir.
Big data em negócios e marketing
Estratégias de desenvolvimento de negócios, atividades de marketing, publicidade são baseadas na análise e trabalham com os dados disponíveis. Grandes matrizes permitem “escavar” grandes quantidades de dados e, consequentemente, ajustar a direção do desenvolvimento de uma marca, produto ou serviço com a maior precisão possível.
Por exemplo, o leilão RTB em publicidade contextual funciona com big data, o que permite que você anuncie ofertas comerciais de forma eficaz para um público-alvo dedicado, e não para todos.
Quais são os benefícios comerciais:
- Criação de projetos que têm alta probabilidade de se tornarem demandados entre usuários e compradores.
- Estudo e análise das necessidades do cliente com o serviço existente da empresa. Com base no cálculo, o trabalho do pessoal de serviço é corrigido.
- Revelar a fidelidade e a insatisfação da base de clientes através da análise de diversas informações de blogs, redes sociais e outras fontes.
- Atrair e reter o público-alvo por meio de um trabalho analítico com grande quantidade de informações.
As tecnologias são usadas para prever a popularidade dos produtos, por exemplo, usando o serviço Google Trends e Yandex. Wordstat (para a Rússia e a CEI).
Os métodos de big data são usados por todas as grandes empresas – IBM, Google, Facebook e corporações financeiras – VISA, Master Card, bem como por ministérios em todo o mundo. Por exemplo, na Alemanha, a emissão de benefícios de desemprego foi reduzida, calculando-se que alguns cidadãos os recebem sem motivo. Conseguimos, assim, devolver ao orçamento cerca de 15 mil milhões de euros.
O recente escândalo do Facebook devido ao vazamento de dados do usuário sugere que o volume de informações não estruturadas está crescendo e mesmo os mastodontes da era digital nem sempre podem garantir sua privacidade total.
Por exemplo, o Master Card usa big data para evitar transações fraudulentas com contas de clientes. Assim, é possível economizar mais de 3 bilhões de dólares americanos em furtos anualmente.
No campo do jogo, o big data permite analisar o comportamento dos jogadores, identificar as preferências de um público ativo e, a partir disso, prever o nível de interesse pelo jogo.
Hoje, as empresas sabem mais sobre seus clientes do que nós mesmos, e é por isso que as campanhas publicitárias da Coca-Cola e de outras empresas são um sucesso retumbante.
Problemas com Big-Data
O Big Date nos dá percepções e oportunidades sem precedentes, mas também levanta questões e questões que precisam ser abordadas:
- Confidencialidade dos dados – O Big-Data que geramos hoje contém muitas informações sobre a nossa vida pessoal, cuja confidencialidade temos todo direito. Cada vez mais, somos solicitados a encontrar um equilíbrio entre a quantidade de dados pessoais que divulgamos e a conveniência que os aplicativos e serviços Big Date oferecem.
- Proteção de dados – mesmo se decidirmos que estamos satisfeitos com o fato de que alguém tem nossos dados para uma finalidade específica, podemos confiar a segurança de nossos dados?
- Discriminação contra dados – quando todas as informações são conhecidas, será aceitável discriminar pessoas com base em dados de suas vidas pessoais? Já usamos as pontuações de crédito para decidir quem pode pedir dinheiro emprestado, e o seguro também depende muito dos dados. Devemos esperar ser analisados e avaliados com mais detalhes, mas deve-se ter cuidado para que isso não complique a vida de quem tem menos recursos e acesso limitado à informação.
Essas tarefas são uma parte importante do Big Dates e precisam ser realizadas por organizações que desejam usar esses dados. Não fazer isso pode tornar a empresa vulnerável, não apenas em termos de reputação, mas também do lado jurídico e financeiro.
A incrível ascensão do Big Date
Tudo começou com uma explosão na quantidade de dados que criamos desde o início da era digital. Em grande parte, isso se deve ao desenvolvimento de computadores, da Internet e de tecnologias capazes de “roubar” dados do mundo ao nosso redor. Os dados por si só não são uma invenção nova. Mesmo antes da era dos computadores e bancos de dados, usávamos registros de transações em papel, registros de clientes e arquivos de arquivo, que são dados. Os computadores, especialmente planilhas e bancos de dados, tornaram mais fácil para nós armazenar e organizar dados em grande escala. De repente, as informações ficaram disponíveis com um único clique do mouse.
No entanto, evoluímos muito desde as tabelas e bancos de dados originais. Hoje, a cada dois dias, criamos tantos dados quantos recebemos desde o início até o ano 2000. Isso mesmo, a cada dois dias. E a quantidade de dados que criamos continua crescendo rapidamente; em 2020, a quantidade de informações digitais disponíveis aumentará de cerca de 5 zetabytes para 20 zetabytes.
Hoje em dia, quase todas as ações que realizamos deixam sua marca. Geramos dados sempre que nos conectamos, quando transferimos nossos smartphones equipados com um módulo de pesquisa, quando conversamos com nossos amigos através de redes sociais ou chats, etc. Além disso, a quantidade de dados gerados por máquina também está crescendo rapidamente. Os dados são gerados e distribuídos quando nossos dispositivos domésticos inteligentes se comunicam entre si ou com seus servidores domésticos. Os equipamentos industriais em fábricas e fábricas estão cada vez mais equipados com sensores que acumulam e transmitem dados.
O termo “Big-Data” refere-se à coleta de todos esses dados e à nossa capacidade de usá-los em nosso benefício em uma ampla gama de áreas, incluindo negócios.
Perspectivas de uso do Big Date
Blockchain e Big Data são duas tecnologias em evolução e complementares. Desde 2016, o blockchain tem sido amplamente discutido na mídia. É uma tecnologia de banco de dados distribuída criptograficamente segura para armazenar e transmitir informações. A proteção de informações privadas e confidenciais é um problema urgente e futuro de big data que o blockchain pode resolver.
Quase todos os setores começaram a investir em análises de Big Data, mas alguns estão investindo mais do que outros. De acordo com o IDC, mais é gasto em serviços bancários, manufatura discreta, manufatura de processos e serviços profissionais. De acordo com a pesquisa da Wikibon, a receita das vendas de programas e serviços no mercado global em 2018 foi de US $ 42 bilhões e, em 2027, ultrapassará a marca de US $ 100 bilhões.
Neimeth estima que o blockchain representará até 20% do mercado total de big data até 2030, gerando até US $ 100 bilhões em receita anual. Isso supera as margens do PayPal, Visa e Mastercard combinadas.
A análise de Big Data será importante para rastrear transações e permitirá que as empresas de blockchain descubram esquemas ocultos e descubram com quem interagem no blockchain.
Resumo
Aprendemos o que é big data? Vimos como essa tecnologia funciona, para os quais conjuntos de informações são usados. Conhecemos os princípios e métodos de trabalho com big data.
Recomendamos a leitura de The Human Face of Big Data, de Rick Smolan e Jennifer Erwitt, e Introduction to Data Mining, de Michael Steinbach, Vipin Kumar e Pang-Ning Tan.
Fontes usadas e links úteis sobre o assunto: https://www.calltouch.ru/glossary/big-data/ https://Mining-CryptoCurrency.ru/big-data/ https://geekbrains.ru/posts/gu_big_data_faculty https: //clubshuttle.ru/tehnologiya-big-data-prostymi-slovami

