En ekskursjon i historie og statistikk
Uttrykket «big data» dukket opp i 2008 med den lette hånden til Clifford Lynch. I et spesialnummer av tidsskriftet Nature kalte eksperten den eksplosive veksten av informasjonsflyter – big data. I den tok han noen matriser med heterogene data over 150 GB per dag.
Fra de statistiske beregningene av analytiske byråer i 2005 opererte verden med 4-5 exabyte informasjon (4-5 milliarder gigabyte), etter 5 år økte volumet av store data til 0,19 zettabyte (1 ZB = 1024 EB). I 2012 økte tallene til 1,8 ZB, og i 2015 – til 7 ZB. Eksperter spår at innen 2020 vil big data-systemer operere 42-45 zettabyte informasjon.
Fram til 2011 ble big data-teknologier bare ansett som vitenskapelig analyse og hadde ingen praktisk løsning. Mengden data vokste imidlertid eksponentielt, og problemet med enorme mengder ustrukturert og heterogen informasjon ble relevant tidlig i 2012. Den store interessen for store data er tydelig synlig i Google Trends.
Digitale forretningsmastodoner – Microsoft, IBM, Oracle, EMC og andre – har sluttet seg til utviklingen av den nye retningen. Siden 2014 har big data blitt studert ved universitetene, implementert i anvendt vitenskap – ingeniørfag, fysikk, sosiologi.
Hva er Big Data?
Big data er en informasjonsbehandlingsteknologi som overstiger hundrevis av terabyte og vokser eksponentielt over tid.
Slike data er så store og komplekse at ingen av de tradisjonelle verktøyene for dataadministrasjon kan lagre eller behandle dem effektivt. En person er ikke i stand til å analysere dette volumet. For dette er det utviklet spesielle algoritmer som, etter å ha analysert big data, gir en person forståelige resultater.
Big Data inkluderer petabyte (1024 terabyte) eller exabyte (1024 petabyte) informasjon som utgjør milliarder eller billioner av poster fra millioner av mennesker, alt fra forskjellige kilder (Internett, salg, kontaktsenter, sosiale medier, mobile enheter). Som regel er informasjonen dårlig strukturert og ofte ufullstendig og utilgjengelig.
Hvilke selskaper gjør store data
Mobiloperatører og søkemotorer var de første til å jobbe med big data, eller med «big data». Søkemotorene fikk flere og flere spørsmål, og teksten var tyngre enn tall. Et avsnitt i teksten tar mer tid å jobbe med enn en økonomisk transaksjon. Brukeren venter på at søkemotoren skal behandle forespørselen i løpet av et brutt sekund – det er uakseptabelt at den fungerer selv i et halvt minutt. Derfor var søkemotorer de første som begynte å jobbe med parallellisering når de arbeidet med data.
Litt senere ble ulike finansorganisasjoner og detaljhandel med. Transaksjonene deres i seg selv er ikke så store, men store data vises på grunn av det faktum at det er mange transaksjoner.
Mengden data øker generelt for alle. For eksempel hadde bankene mye data før, men de krevde ikke alltid driftsprinsipper, som med store. Så begynte bankene å jobbe mer med kundedata. De begynte å komme opp med mer fleksible innskudd, lån, forskjellige tariffer, og begynte å analysere transaksjoner nærmere. Dette krevde allerede raske måter å jobbe på.
Nå vil bankene ikke bare analysere intern informasjon, men også tredjepartsinformasjon. De vil motta store data fra samme detaljhandel, de vil vite hva en person bruker penger på. Basert på denne informasjonen prøver de å komme med kommersielle tilbud.
Nå blir all informasjon koblet sammen. Detaljhandel, banker, teleoperatører og til og med søkemotorer er nå alle interessert i hverandres data.
Hva skal være en big dataspesialist
Siden dataene ligger på en klynge av servere, brukes en mer kompleks infrastruktur til å behandle dem. Dette legger mye stress på personen som jobber med det – systemet må være veldig pålitelig.
Å gjøre en enkelt server pålitelig er enkelt. Men når det er flere av dem, øker sannsynligheten for fall i forhold til antallet, og ansvaret til dataingeniøren som jobber med disse dataene øker også.
En big data-analytiker må forstå at han alltid kan motta ufullstendige eller til og med feil data. Han skrev programmet, stolte på resultatene, og fant ut at på grunn av fallet av en server av tusen, ble en del av dataene slått av, og alle konklusjonene var feil.
Ta for eksempel tekstsøk. La oss si at alle ord er ordnet i alfabetisk rekkefølge på flere servere (for å si det veldig enkelt og betinget). Og så slo en av dem seg, alle ordene med bokstaven «K» forsvant. Søket sluttet å gi ordet «Kino». Da forsvinner alle nyhetene, og analytikeren trekker den falske konklusjonen at folk ikke lenger er interessert i kinoer.
Derfor må en stordataforsker kjenne prinsippene for arbeid fra de laveste nivåene – servere, økosystemer, oppgaveplanleggere – til programmer på høyeste nivå – maskinlæringsbiblioteker, statistisk analyse og mer. Han må forstå prinsippene for maskinvare, datautstyr og alt som er konfigurert på toppen av det.
For resten må du vite alt det samme som når du jobber med små data. Du trenger matematikk, du må kunne programmere og være spesielt kjent med distribuerte databehandlingsalgoritmer, for å kunne bruke dem til de vanlige prinsippene for å jobbe med data og maskinlæring.
Hvilke big data verktøy og teknologier brukes
Siden dataene er lagret i en klynge, er det nødvendig med en spesiell infrastruktur for å jobbe med den. Det mest populære økosystemet er Hadoop. Mange forskjellige systemer kan kjøre i den: spesielle biblioteker, planleggere, maskinlæringsverktøy og mye mer. Men først og fremst er dette systemet nødvendig for å analysere store mengder data gjennom distribuert databehandling.
For eksempel ser vi etter den mest populære tweet på tvers av tusen servere. På en server ville vi bare lage et bord, og det er det. Her kan vi dra alle dataene til oss selv og beregne på nytt. Men dette er ikke riktig, fordi det tar veldig lang tid.
Derfor er det Hadoop med Map Reduce paradigms and Spark framework. I stedet for å trekke data til seg selv, sender de programdeler til disse dataene. Arbeidet går parallelt, i tusen tråder. Så får du et utvalg av tusenvis av servere, på grunnlag av hvilke du kan velge den mest populære tweet.
Map Reduce er et eldre paradigme, Spark er nyere. Med hjelpen får de data fra klynger, og bygger maskinlæringsmodeller i den.
Big data-markedet i Russland
Hele verden, inkludert Russland, bruker Big Data-teknologi innen bank, kommunikasjonstjenester og detaljhandel. Eksperter mener at teknologien i fremtiden vil bli brukt av transportindustrien, olje- og gass- og matindustrien, samt energi.
IDC-analytikere har anerkjent Russland som det største regionale markedet for BDA. Inntektene anslås å være nær 1,4 milliarder dollar i år og vil utgjøre 40% av totale investeringer i sektoren for big data og business intelligence.
Hvilke yrker er det innen big data
De to hovedyrkerne er analytikere og dataingeniører.
Analytikeren jobber primært med informasjon. Han er interessert i tabelldata, han er engasjert i modeller. Hans ansvarsområder inkluderer aggregering, rengjøring, utvidelse og visualisering av data. Det vil si at big data-analytikeren er koblingen mellom rå informasjon og virksomheten.
Analytikeren har to hovedlinjer for arbeidet. Først kan han transformere mottatt informasjon, trekke konklusjoner og presentere den i en forståelig form.
For det andre utvikler analytikere applikasjoner som fungerer og produserer resultater automatisk. Lag for eksempel en prognose for aksjemarkedet hver dag.
Datoingeniøren er en spesialitet på lavere nivå. Dette er personen som må sørge for lagring, behandling og levering av informasjon til analytikeren. Men der det er forsyning og rengjøring, kan deres ansvar overlappe hverandre.
Bigdata-ingeniør får alt det harde arbeidet. Hvis systemene har mislyktes, eller hvis en av serverne har forsvunnet fra klyngen, kobles den til. Dette er en veldig krevende og stressende jobb. Systemet kan slå seg av i helgene og etter timer, og ingeniøren må ta grep omgående.
Dette er to hovedyrker, men det er andre også. De vises når parallelle databehandlingsalgoritmer legges til oppgaver relatert til kunstig intelligens. For eksempel en NLP-ingeniør. Dette er en programmerer som arbeider med naturlig språkbehandling, spesielt i tilfeller der det ikke bare er nødvendig å finne ord, men å forstå tekstens betydning. Slike ingeniører skriver programmer for chatbots og dialogsystemer, stemmeassistenter og automatiserte telefonsentre.
Det er situasjoner når du trenger å klassifisere milliarder av bilder, gjøre moderering, filtrere ut unødvendige ting og finne lignende. Disse yrkene overlapper mer med datasyn.
Hvor lang tid tar trening
Vi har trent i halvannet år. De er delt inn i seks kvartaler. Noen fokuserer på programmering, andre arbeider med databaser, og andre igjen på matematikk.
I motsetning til for eksempel AI-fakultetet, er det mindre matematikk her. Det er ikke så sterk vekt på kalkulus og lineær algebra. Kunnskap om distribuerte databehandlingsalgoritmer trengs mer enn prinsippene for kalkulator.
Men ett og et halvt år er nok for ekte arbeid med stor databehandling bare hvis en person hadde erfaring med å jobbe med ordinær data og generelt innen IT. Resten av studentene etter endt utdannelse fra fakultetet oppfordres til å jobbe med små og mellomstore data. Først etter dette kan en spesialist få lov til å jobbe med store. Etter opplæring er det verdt å jobbe som dataforsker – å bruke maskinlæring på forskjellige datamengder.
Når en person får jobb i et stort selskap – selv om han hadde erfaring – vil han ofte ikke bli tatt opp i store datamengder med en gang, fordi kostnadene for feil er mye høyere der. Feil i algoritmer kan ikke oppdages umiddelbart, og dette vil føre til store tap.
Hvordan fungerer Big-Data-teknologi?
Brukere av det sosiale nettverket Facebook laster opp bilder, videoer og utfører handlinger hver dag for hundrevis av terabyte. Uansett hvor mange mennesker som deltar i utviklingen, vil de ikke takle den konstante strømmen av informasjon. For å videreutvikle tjenesten og gjøre nettsteder mer komfortable – for å implementere anbefalinger om smart innhold, vise annonser som er relevante for brukeren, sendes hundretusenvis av terabyte gjennom algoritmen og mottar strukturert og forståelig informasjon.
Sammenligning av en enorm mengde informasjon, finnes relasjoner i den. Disse forholdene med en viss sannsynlighet kan forutsi fremtiden. Kunstig intelligens hjelper til med å finne og analysere en person.
Nevrale nettverk skanner tusenvis av bilder, videoer, kommentarer – de hundrevis av terabyte med store data og gir resultatet: hvor mange fornøyde kunder forlater butikken, om det blir trafikkork de neste timene, hvilke diskusjoner som er populære på det sosiale nettverket, og mye mer.
Metoder for å jobbe med big data:
- Maskinlæring
- Sentimentanalyse
- Sosiale nettverksanalyser
- Læringsforening
- Klassifisering tre analyse
- Genetiske algoritmer
- Regresjonsanalyse
Analyse og prosesseringsteknikker

De viktigste metodene for å analysere store mengder informasjon inkluderer følgende:
- Dyp analyse, dataklassifisering. Disse teknikkene kom fra teknologier for å arbeide med konvensjonell strukturert informasjon i små matriser. Imidlertid bruker det nye miljøet avanserte matematiske algoritmer basert på fremskritt innen det digitale feltet.
- Crowdsourcing. Kjernen i denne teknologien er muligheten til å motta og behandle strømmer av milliarder byte fra flere kilder. Det endelige antallet «leverandører» er ikke begrenset av noe. Er det bare kraften i systemet.
- Delt testing. Flere elementer er valgt fra matrisen, som blir sammenlignet med hverandre vekselvis «før» og «etter» endringen. AB-tester hjelper med å bestemme hvilke faktorer som har størst innvirkning på elementene. For eksempel, ved å bruke delt testing, kan du utføre et stort antall iterasjoner som gradvis nærmer seg et pålitelig resultat.
- Prognoser. Analytikere prøver å stille visse parametere til systemet på forhånd, og deretter sjekke oppførselen til objektet basert på ankomsten av store mengder informasjon.
- Maskinlæring. Kunstig intelligens i fremtiden er i stand til å absorbere og behandle store mengder usystematiske data, og deretter bruke dem til selvstudium.
- Analyse av nettverksaktivitet. Big data-teknikker brukes til å undersøke sosiale nettverk, forhold mellom kontoinnehavere, grupper og lokalsamfunn. Basert på dette blir målgrupper skapt av interesser, geolokalisering, alder og andre beregninger.
Data Mining – hvordan Big Data samles inn og behandles
Det tar mye tid og penger å laste inn store data i en tradisjonell relasjonsdatabase for analyse. Av denne grunn har spesielle tilnærminger dukket opp for innsamling og analyse av informasjon. For å motta og deretter hente ut informasjon, kombinerer de og plasserer den i en «datasjø.» Derfra ser kunstige intelligensprogrammer, ved hjelp av komplekse algoritmer, etter gjentatte mønstre.
Lagring og prosessering skjer med følgende verktøy:
- Apache HADOOP er et batchorientert databehandlingssystem. Systemet lagrer og sporer informasjon på flere maskiner og skalerer til flere tusen servere.
- HPPC er en åpen kildekodeplattform utviklet av LexisNexis Risk Solutions. HPPC er kjent som Data Analytics Supercomputer (DAS), og støtter både batch- og sanntids databehandling. Systemet bruker superdatamaskiner og klynger fra konvensjonelle datamaskiner.
- Storm – behandler informasjon i sanntid. Bruker åpen kildekode Eclipse Public License.
Hva brukes det til?
Jo mer vi vet om et bestemt objekt eller fenomen, jo mer nøyaktig forstår vi essensen og kan forutsi fremtiden. Ved å fange opp og behandle datastrømmer fra sensorer, Internett og transaksjonsoperasjoner kan bedrifter ganske nøyaktig forutsi etterspørselen etter produkter, og beredskapstjenester kan forhindre menneskeskapte katastrofer. Her er noen eksempler utenfor virksomheten og markedsføringen av hvordan big data-teknologier brukes:
- Helsevesen. Mer kunnskap om sykdommer, flere behandlingsalternativer, mer informasjon om medisiner – alt dette gjør at vi kan bekjempe sykdommer som ble ansett som uhelbredelige for 40-50 år siden.
- Forebygging av naturkatastrofer og menneskeskapte katastrofer. Den mest nøyaktige prognosen i dette området sparer tusenvis av liv. Oppgaven til intelligente maskiner er å samle inn og behandle en rekke sensoravlesninger og på grunnlag av dem hjelpe folk med å bestemme dato og sted for en mulig katastrofe.
- Rettshåndhevelsesbyråer. Big data brukes til å forutsi kriminalitetstopper i forskjellige land og ta avskrekkende tiltak der situasjonen krever det.
Big data innen virksomhet og markedsføring
Forretningsutviklingsstrategier, markedsføringsaktiviteter, annonsering er basert på analyse og arbeid med tilgjengelige data. Store matriser gjør det mulig å «skyve» store mengder data og justerer følgelig utviklingsretningen for et merke, produkt, tjeneste så nøyaktig som mulig.
For eksempel fungerer RTB-auksjon i kontekstuell reklame med store data, som lar deg effektivt annonsere kommersielle tilbud til en dedikert målgruppe, og ikke til alle.
Hva er fordelene for virksomheten:
- Oppretting av prosjekter som sannsynligvis vil være etterspurt blant brukere og kjøpere.
- Studie og analyse av kundekrav med selskapets eksisterende tjeneste. På grunnlag av beregningen blir tjenestepersonellets arbeid korrigert.
- Å avsløre lojaliteten og misnøyen til kundebasen ved å analysere en rekke informasjon fra blogger, sosiale nettverk og andre kilder.
- Å tiltrekke seg og beholde målgruppen gjennom analytisk arbeid med store mengder informasjon.
Teknologier brukes til å forutsi populariteten til produkter, for eksempel ved hjelp av Google Trends-tjenesten og Yandex. Wordstat (for Russland og SNG).
Big data-metoder brukes av alle store selskaper – IBM, Google, Facebook og finansielle selskaper – VISA, Master Card, så vel som departementer rundt om i verden. I Tyskland ble for eksempel utstedelsen av dagpenger redusert, og beregnet at noen borgere mottar dem uten grunn. Dermed var det mulig å komme tilbake til budsjettet rundt 15 milliarder euro.
Den nylige Facebook-skandalen på grunn av lekkasje av brukerdata antyder at volumene av ustrukturert informasjon vokser, og til og med mastodonene i den digitale tidsalderen kan ikke alltid sikre fullstendig privatliv.
For eksempel bruker Master Card store data for å forhindre falske transaksjoner med kundekontoer. Dermed er det mulig å spare mer enn 3 milliarder amerikanske dollar fra tyveri årlig.
I spillfeltet lar big data deg analysere spillernes atferd, identifisere preferansene til et aktivt publikum og på basis av dette forutsi nivået av interesse for spillet.
I dag vet bedrifter mer om kundene enn vi vet om oss selv. Derfor er reklamekampanjer for Coca-Cola og andre selskaper en stor suksess.
Problemer med Big-Data
Big Date gir oss enestående innsikt og muligheter, men det reiser også spørsmål og spørsmål som må løses:
- Datakonfidensialitet – Big-Data som vi genererer i dag inneholder mye informasjon om vårt personlige liv, til konfidensialiteten som vi har full rett til. I økende grad blir vi bedt om å finne en balanse mellom mengden personopplysninger vi utleverer og bekvemmeligheten som Big Date-apper og -tjenester tilbyr.
- Databeskyttelse – selv om vi bestemmer oss for at vi er fornøyde med at noen har dataene våre for et bestemt formål, kan vi stole på dem med sikkerheten og sikkerheten til dataene våre?
- Diskriminering av data – når all informasjonen er kjent, vil det være akseptabelt å diskriminere mennesker basert på data fra deres personlige liv? Vi bruker allerede kredittpoeng for å bestemme hvem som kan låne penger, og forsikring er også sterkt avhengig av data. Vi bør forvente å bli analysert og evaluert mer detaljert, men vi må sørge for at dette ikke kompliserer livet til de med færre ressurser og begrenset tilgang til informasjon.
Å oppfylle disse oppgavene er en viktig del av Big Dates, og de må tas opp av organisasjoner som ønsker å bruke slike data. Unnlatelse av å gjøre dette kan gjøre virksomheten sårbar, ikke bare når det gjelder omdømme, men også fra den juridiske og økonomiske siden.
Big Date er fantastisk oppgang
Det hele startet med en eksplosjon i datamengden vi har skapt siden begynnelsen av den digitale tidsalderen. Dette skyldes i stor grad utviklingen av datamaskiner, Internett og teknologier som er i stand til å «snappe» data fra verden rundt oss. Data alene er ikke en ny oppfinnelse. Allerede før datamaskiner og databaser brukte vi papirpapirer, kundeposter og arkivfiler som er data. Datamaskiner, spesielt regneark og databaser, har gjort det enkelt for oss å lagre og organisere data i stor skala. Plutselig ble informasjon tilgjengelig med et enkelt museklikk.
Vi har imidlertid kommet langt fra de originale tabellene og databasene. I dag, annenhver dag, lager vi like mye data som vi mottok helt fra begynnelsen til 2000. Det stemmer, annenhver dag. Og datamengden vi lager fortsetter å vokse raskt; innen 2020 vil mengden digital informasjon tilgjengelig øke fra omtrent 5 zettabyte til 20 zettabyte.
I dag setter nesten alle handlinger vi tar spor. Vi genererer data når vi går online, når vi overfører smarttelefonene våre utstyrt med en søkemodul, når vi snakker med vennene våre via sosiale nettverk eller chatter, etc. I tillegg vokser mengden maskingenerert data også raskt. Data genereres og distribueres når våre smarte hjemmeenheter kommuniserer med hverandre eller med hjemmeserverne sine. Industrielt utstyr i fabrikker og fabrikker er i økende grad utstyrt med sensorer som samler og overfører data.
Begrepet «Big-Data» refererer til innsamling av alle disse dataene og vår evne til å bruke dem til vår fordel på et bredt spekter av områder, inkludert virksomhet.
Utsiktene til å bruke Big Date
Blockchain og Big Data er to utviklende og komplementære teknologier. Siden 2016 har blockchain blitt diskutert mye i media. Det er en kryptografisk sikker distribuert databaseteknologi for lagring og overføring av informasjon. Beskyttelsen av privat og konfidensiell informasjon er et presserende og fremtidig big data-problem som blockchain kan løse.
Nesten alle bransjer har begynt å investere i Big Data-analyse, men noen investerer mer enn andre. Ifølge IDC bruker de mer på bank, diskret produksjon, prosessproduksjon og profesjonelle tjenester. Ifølge Wikibon-undersøkelsen utgjorde inntektene fra salg av programmer og tjenester i det globale markedet i 2018 42 milliarder dollar, og i 2027 vil de overstige 100 milliarder dollar.
Neimeth anslår at blockchain vil utgjøre opptil 20% av det totale big data-markedet innen 2030, og generere opptil 100 milliarder dollar i årlig omsetning. Dette overgår PayPal, Visa og Mastercards marginer til sammen.
Big Data-analyse vil være viktig for sporing av transaksjoner og vil gjøre det mulig for blockchain-selskaper å avdekke skjulte ordninger og finne ut hvem de kommuniserer med på blockchain.
Sammendrag
Vi har lært hva som er big data? Vi så på hvordan denne teknologien fungerer, for hvilke matriser med informasjon som brukes. Vi ble kjent med prinsippene og metodene for å jobbe med big data.
Vi anbefaler å lese The Human Face of Big Data av Rick Smolan og Jennifer Erwitt, og Introduction to Data Mining av Michael Steinbach, Vipin Kumar og Pang-Ning Tan.
Kilder som brukes og nyttige lenker om emnet: https://www.calltouch.ru/glossary/big-data/ https://Mining-CryptoCurrency.ru/big-data/ https://geekbrains.ru/posts/gu_big_data_faculty https: //clubshuttle.ru/tehnologiya-big-data-prostymi-slovami

