En utflykt till historia och statistik
Uttrycket ”big data” dök upp 2008 med Clifford Lynchs lätta hand. I en specialutgåva av tidskriften Nature kallade experten den explosiva tillväxten av informationsflöden – big data. I den tog han alla matriser med heterogena data över 150 GB per dag.
Från de statistiska beräkningarna av analytiska byråer 2005 arbetade världen med 4-5 exabyte information (4-5 miljarder gigabyte), efter 5 år ökade volymen stora data till 0,19 zettabyte (1 ZB = 1024 EB). År 2012 ökade siffrorna till 1,8 ZB och 2015 – till 7 ZB. Experter förutspår att big data-system kommer att driva 42-45 zettabyte information fram till 2020.
Fram till 2011 betraktades big data-teknik endast som vetenskaplig analys och hade ingen praktisk lösning. Mängden data växte dock exponentiellt och problemet med stora mängder ostrukturerad och heterogen information blev relevant i början av 2012. Ökningen av intresset för stora data syns tydligt i Google Trends.
Digitala affärsmododoner – Microsoft, IBM, Oracle, EMC och andra – har gått med i utvecklingen av den nya riktningen. Sedan 2014 har stora data studerats vid universitet, implementerade inom tillämpad vetenskap – teknik, fysik, sociologi.
Vad är Big Data?
Big data är en informationsteknik som överstiger hundratals terabyte och växer exponentiellt över tiden.
Sådan data är så stor och komplex att inget av de traditionella datahanteringsverktygen kan lagra eller bearbeta dem effektivt. En person kan inte analysera den här volymen. För detta har speciella algoritmer utvecklats som, efter att ha analyserat stora data, ger en person begripliga resultat.
Big Data inkluderar petabyte (1 024 terabyte) eller exabyte (1 024 petabyte) information som utgör miljarder eller biljoner poster av miljoner människor, allt från olika källor (Internet, försäljning, kontaktcenter, sociala medier, mobila enheter). Information är som regel dåligt strukturerad och ofta ofullständig och otillgänglig.
Vilka företag gör big data
Mobiloperatörer och sökmotorer var de första som arbetade med big data eller med ”big data”. Sökmotorerna fick fler och fler frågor, och texten var tyngre än siffror. Ett stycke av text tar mer tid att arbeta med än en finansiell transaktion. Användaren förväntar sig att sökmotorn ska behandla begäran på en bråkdels sekund – det är oacceptabelt att den fungerar även i en halv minut. Därför var sökmotorerna de första som började arbeta med parallellisering när de arbetade med data.
Lite senare kom olika finansiella organisationer och detaljhandel med. Deras transaktioner i sig är inte så stora, men stora data visas på grund av att det finns många transaktioner.
Mängden data ökar generellt för alla. Till exempel hade banker mycket data tidigare, men de krävde inte alltid driftsprinciper, som med stora. Sedan började bankerna arbeta mer med kunddata. De började komma med mer flexibla insättningar, lån, olika tariffer och började analysera transaktioner närmare. Detta krävde redan snabba sätt att arbeta.
Nu vill bankerna inte bara analysera intern information utan även information från tredje part. De vill ta emot stora data från samma detaljhandel, de vill veta vad en person spenderar pengar på. Baserat på denna information försöker de göra kommersiella erbjudanden.
Nu kopplas all information samman. Detaljhandel, banker, teleoperatörer och till och med sökmotorer är nu alla intresserade av varandras data.
Vad borde vara en stor dataspecialist
Eftersom data finns på ett kluster av servrar används en mer komplex infrastruktur för att bearbeta den. Detta lägger mycket stress på personen som arbetar med det – systemet måste vara mycket tillförlitligt.
Att göra en enda server pålitlig är enkelt. Men när det finns flera av dem ökar sannolikheten för ett fall i proportion till antalet, och ansvaret för datatekniker som arbetar med dessa data ökar också.
Big data-analytikern måste förstå att han alltid kan ta emot ofullständiga eller till och med felaktiga uppgifter. Han skrev programmet, litade på dess resultat och upptäckte sedan att på grund av att en server av tusen föll var en del av data avstängd och alla slutsatser var felaktiga.
Ta textsökning, till exempel. Låt oss säga att alla ord är ordnade i alfabetisk ordning på flera servrar (för att uttrycka det mycket enkelt och villkorligt). Och sedan stängde en av dem av, alla orden med bokstaven ”K” försvann. Sökningen slutade ge ordet ”Cinema”. Då försvinner alla nyheter och analytikern drar den falska slutsatsen att människor inte längre är intresserade av biografer.
Därför måste en stor datavetare känna till principerna för arbete från de lägsta nivåerna – servrar, ekosystem, uppgiftsplanerare – till de allra högsta programmen – maskininlärningsbibliotek, statistisk analys och mer. Han måste förstå principerna för hårdvara, datorutrustning och allt som är konfigurerat ovanpå den.
För resten måste du veta allt på samma sätt som när du arbetar med små data. Du behöver matematik, du måste kunna programmera och vara särskilt bekant med distribuerade datoralgoritmer, för att kunna tillämpa dem på de vanliga principerna för att arbeta med data och maskininlärning.
Vilka big data-verktyg och tekniker används
Eftersom data lagras i ett kluster behövs en speciell infrastruktur för att arbeta med den. Hadoop är det mest populära ekosystemet. Många olika system kan köras i det: specialbibliotek, schemaläggare, verktyg för maskininlärning och mycket mer. Men först och främst behövs detta system för att analysera stora mängder data genom distribuerad databehandling.
Till exempel letar vi efter den mest populära tweeten över tusen servrar. På en server skulle vi bara skapa ett bord och det är det. Här kan vi dra all information till oss själva och räkna om. Men detta är inte korrekt, för under mycket lång tid.
Därför finns det Hadoop med Map Reduce paradigms and Spark framework. Istället för att dra data till sig själva skickar de programavsnitt till dessa data. Arbetet pågår parallellt i tusen trådar. Sedan erhålls ett prov på tusentals servrar, på grundval av vilka du kan välja den mest populära tweet.
Map Reduce är ett äldre paradigm, Spark är nyare. Med hjälp får de data från kluster och bygger modeller för maskininlärning i den.
Big data-marknaden i Ryssland
Hela världen, inklusive Ryssland, använder Big Data-teknik inom banksektorn, kommunikationstjänster och detaljhandel. Experter tror att tekniken i framtiden kommer att användas av transportindustrin, olje- och gas- och livsmedelsindustrin samt energi.
IDC-analytiker har erkänt Ryssland som den största regionala marknaden för BDA. Intäkterna beräknas vara nära 1,4 miljarder dollar i år och kommer att stå för 40% av de totala investeringarna i big data och business intelligence-applikationer.
Vilka yrken finns inom området big data
De två huvudyrken är analytiker och dataingenjörer.
Analytikern arbetar främst med information. Han är intresserad av tabelldata, han är engagerad i modeller. Hans ansvarsområden inkluderar aggregering, rengöring, förstärkning och visualisering av data. Det vill säga den stora dataanalytikern är länken mellan rå information och verksamheten.
Analytikern har två huvudlinjer. Först kan han förvandla den mottagna informationen, dra slutsatser och presentera den i en förståelig form.
För det andra utvecklar analytiker applikationer som fungerar och ger resultat automatiskt. Till exempel gör en prognos för aktiemarknaden varje dag.
Datumingenjören är en specialitet på lägre nivå. Det är personen som måste säkerställa lagring, bearbetning och leverans av information till analytikern. Men där det finns försörjning och rengöring kan deras ansvar överlappa varandra.
Bigdata-ingenjör får allt hårt arbete. Om systemen misslyckas eller om någon av servrarna försvinner från klustret ansluter den. Detta är ett mycket krävande och stressigt jobb. Systemet kan stängas av på helger och efter timmar, och ingenjören måste vidta åtgärder omedelbart.
Det här är två huvudyrken, men det finns andra också. De visas när parallella beräkningsalgoritmer läggs till uppgifter relaterade till artificiell intelligens. Till exempel en NLP-ingenjör. Detta är en programmerare som behandlar naturlig språkbehandling, särskilt i fall där det inte bara är nödvändigt att hitta ord utan att förstå innebörden av texten. Sådana ingenjörer skriver program för chattbots och dialogsystem, röstassistenter och automatiserade callcenter.
Det finns situationer när du behöver klassificera miljarder bilder, göra moderering, filtrera bort onödiga saker och hitta liknande. Dessa yrken överlappar mer med datorsyn.
Hur lång tid tar träningen
Vi har tränat i ett och ett halvt år. De är uppdelade i sex fjärdedelar. Vissa fokuserar på programmering, andra på att arbeta med databaser och andra på matematik.
Till skillnad från exempelvis AI-fakulteten finns det mindre matematik här. Det finns ingen så stark betoning på kalkyl och linjär algebra. Kunskap om distribuerade datoralgoritmer behövs mer än principerna för kalkyl.
Men ett och ett halvt år räcker för verkligt arbete med stor databehandling endast om en person hade erfarenhet av att arbeta med vanlig data och i allmänhet inom IT. Resten av studenterna efter examen från fakulteten uppmuntras att arbeta med små och medelstora data. Först därefter kan en specialist få arbeta med stora. Efter utbildning är det värt att arbeta som datavetare – att tillämpa maskininlärning på olika datamängder.
När en person får jobb i ett stort företag – även om han hade erfarenhet – kommer han oftast inte att få tillgång till stora mängder data direkt, eftersom kostnaden för fel är mycket högre där. Fel i algoritmer kan inte upptäckas omedelbart, och detta leder till stora förluster.
Hur fungerar Big-Data-teknik?
Användare av det sociala nätverket Facebook laddar upp foton, videor och utför åtgärder varje dag för hundratals terabyte. Oavsett hur många människor som deltar i utvecklingen kommer de inte att klara det ständiga informationsflödet. För att vidareutveckla tjänsten och göra webbplatser mer bekväma – att implementera smarta innehållsrekommendationer, visa annonser som är relevanta för användaren skickas hundratusentals terabyte genom algoritmen och får strukturerad och förståelig information.
När man jämför en enorm mängd information finns relationer i den. Dessa förhållanden med viss sannolikhet kan förutsäga framtiden. Artificiell intelligens hjälper till att hitta och analysera en person.
Neurala nätverket skannar tusentals bilder, videor, kommentarer – de mycket hundratals terabyte stora data och ger resultatet: hur många nöjda kunder lämnar butiken, om det kommer att bli trafikstockning de närmaste timmarna, vilka diskussioner är populära på det sociala nätverket och mycket mer.
Metoder för att arbeta med big data:
- Maskininlärning
- Sentimentanalys
- Analys av sociala nätverk
- Learning Rules Association
- Analys av klassificeringsträd
- Genetiska algoritmer
- Regressionsanalys
Analys- och bearbetningstekniker

De viktigaste metoderna för att analysera stora mängder information inkluderar följande:
- Djup analys, dataklassificering. Dessa tekniker kom från tekniker för att arbeta med konventionell strukturerad information i små matriser. Den nya miljön använder dock avancerade matematiska algoritmer baserade på framsteg inom det digitala området.
- Crowdsourcing. Kärnan i denna teknik är förmågan att ta emot och bearbeta strömmar av miljarder byte från flera källor. Det begränsade antalet ”leverantörer” begränsas inte av någonting. Är det bara kraften i systemet.
- Delad testning. Flera element väljs från matrisen som jämförs med varandra alternerande ”före” och ”efter” ändringen. AB-test hjälper till att avgöra vilka faktorer som har störst inverkan på artiklar. Med exempelvis delad testning kan du utföra ett stort antal iterationer som gradvis närmar sig ett tillförlitligt resultat.
- Prognoser. Analytiker försöker ställa in vissa parametrar i systemet i förväg och kontrollera sedan objektets beteende baserat på ankomsten av stora mängder information.
- Maskininlärning. Artificiell intelligens i framtiden kan absorbera och bearbeta stora mängder osystematiska data och sedan använda dem för självstudier.
- Analys av nätverksaktivitet. Big data-tekniker används för att undersöka sociala nätverk, relationer mellan kontoinnehavare, grupper och samhällen. Baserat på detta skapas målgrupper av intressen, geolokalisering, ålder och andra mått.
Data Mining – hur Big Data samlas in och behandlas
Att ladda stora data i en traditionell relationsdatabas för analys tar mycket tid och pengar. Av denna anledning har speciella tillvägagångssätt dykt upp för att samla in och analysera information. För att ta emot och sedan extrahera information kombinerar de och placerar den i en ”data-sjö”. Därifrån letar program för artificiell intelligens, med hjälp av komplexa algoritmer, efter upprepande mönster.
Lagring och bearbetning sker med följande verktyg:
- Apache HADOOP är ett batchorienterat databehandlingssystem. Systemet lagrar och spårar information på flera maskiner och skalas till flera tusen servrar.
- HPPC är en öppen källkodsplattform utvecklad av LexisNexis Risk Solutions. HPPC är känt som Data Analytics Supercomputer (DAS), som stöder både batch- och realtids databehandling. Systemet använder superdatorer och kluster från konventionella datorer.
- Storm – bearbetar information i realtid. Använder open source Eclipse Public License.
Vad används det till?
Ju mer vi vet om ett specifikt objekt eller fenomen, desto mer exakt förstår vi kärnan och kan förutsäga framtiden. Genom att fånga och bearbeta dataströmmar från sensorer, Internet och transaktionsoperationer kan företag ganska noggrant förutsäga efterfrågan på produkter och räddningstjänster kan förhindra katastrofer som orsakats av människor. Här är några exempel utanför affärsverksamhet och marknadsföring av hur big data-teknik används:
- Sjukvård. Mer kunskap om sjukdomar, fler behandlingsalternativ, mer information om läkemedel – allt detta gör att vi kan bekämpa sjukdomar som ansågs obotliga för 40-50 år sedan.
- Förebyggande av naturkatastrofer och konstgjorda katastrofer. Den mest exakta prognosen i detta område sparar tusentals liv. Uppgiften för intelligenta maskiner är att samla in och bearbeta en mängd olika sensoravläsningar och på grundval av dem hjälpa människor att bestämma datum och plats för en eventuell katastrof.
- Brottsbekämpande organ. Stora data används för att förutsäga brottstopp i olika länder och vidta avskräckande åtgärder där situationen kräver det.
Big data inom affärer och marknadsföring
Affärsutvecklingsstrategier, marknadsföringsaktiviteter, reklam baseras på analys och arbete med tillgänglig data. Stora matriser gör det möjligt att ”skotta” stora mängder data och justerar följaktligen utvecklingsriktningen för ett varumärke, en produkt, en tjänst så exakt som möjligt.
Till exempel fungerar RTB-auktion i kontextuell reklam med big data, vilket gör att du effektivt kan marknadsföra kommersiella erbjudanden till en dedikerad målgrupp och inte till alla.
Vilka är affärsfördelarna:
- Skapande av projekt som sannolikt kommer att bli efterfrågade bland användare och köpare.
- Studie och analys av kundkrav med företagets befintliga tjänst. Baserat på beräkningen korrigeras servicepersonalens arbete.
- Att avslöja lojalitet och missnöje hos kundbasen genom att analysera en mängd information från bloggar, sociala nätverk och andra källor.
- Attrahera och behålla målgruppen genom analytiskt arbete med stora mängder information.
Teknik används för att förutsäga produkternas popularitet, till exempel med hjälp av Google Trends-tjänsten och Yandex. Wordstat (för Ryssland och OSS).
Big data-metoder används av alla stora företag – IBM, Google, Facebook och finansiella företag – VISA, Master Card, liksom ministerier runt om i världen. Till exempel i Tyskland minskade utfärdandet av arbetslöshetsförmåner och beräknade att vissa medborgare får dem utan anledning. Så vi lyckades återgå till budgeten cirka 15 miljarder euro.
Den senaste Facebook-skandalen på grund av läckage av användardata antyder att volymerna av ostrukturerad information växer och till och med mastodonerna i den digitala tidsåldern inte alltid kan garantera deras fullständiga integritet.
Mastercard använder till exempel stora data för att förhindra bedrägliga transaktioner med kundkonton. Det är således möjligt att spara mer än 3 miljarder dollar från stöld årligen.
Inom spelfältet låter big data dig analysera spelarnas beteende, identifiera en aktiv publiks preferenser och på grundval av detta förutsäga intresset för spelet.
Idag vet företag mer om sina kunder än vi vet om oss själva, varför reklamkampanjer för Coca-Cola och andra företag är en rungande framgång.
Problem med Big-Data
Big Date ger oss oöverträffade insikter och möjligheter, men det väcker också frågor och frågor som måste behandlas:
- Datakonfidentialitet – Big-Data som vi genererar idag innehåller mycket information om vårt personliga liv, vars sekretess vi har all rätt. Vi blir alltmer ombedd att hitta en balans mellan mängden personuppgifter vi lämnar ut och den bekvämlighet som Big Date-appar och tjänster erbjuder.
- Dataskydd – även om vi bestämmer oss för att vi är nöjda med det faktum att någon har våra uppgifter för ett specifikt ändamål, kan vi lita på dem med säkerheten och säkerheten för våra uppgifter?
- Diskriminering av data – när all information är känd, kommer det att vara acceptabelt att diskriminera människor baserat på data från deras personliga liv? Vi använder redan kreditpoäng för att avgöra vem som kan låna pengar, och försäkring är också mycket beroende av data. Vi kan förvänta oss att vi analyseras och utvärderas mer detaljerat, men man bör se till att detta inte komplicerar livet för dem med färre resurser och begränsad tillgång till information.
Dessa uppgifter är en viktig del av Big Dates, och de måste hanteras av organisationer som vill använda sådan information. Underlåtenhet att göra detta kan göra verksamheten sårbar, inte bara när det gäller dess rykte utan också från den juridiska och ekonomiska sidan.
Big Date är fantastisk uppgång
Allt började med en explosion i mängden data som vi har skapat sedan början av den digitala tidsåldern. Detta beror till stor del på utvecklingen av datorer, Internet och tekniker som kan ”snappa” data från omvärlden. Data enbart är inte en ny uppfinning. Redan före era datorer och databaser använde vi papperstransaktionsposter, kundposter och arkivfiler, som är data. Datorer, särskilt kalkylblad och databaser, har gjort det enkelt för oss att lagra och organisera data i stor skala. Plötsligt blev information tillgänglig med ett enda musklick.
Vi har dock kommit långt från de ursprungliga tabellerna och databaserna. Idag, varannan dag, skapar vi lika mycket data som vi fick från början till år 2000. Det stämmer varannan dag. Och mängden data vi skapar fortsätter att växa snabbt; till 2020 kommer mängden tillgänglig digital information att öka från cirka 5 zettabyte till 20 zettabyte.
Numera sätter nästan varje åtgärd vi gör sitt prägel. Vi genererar data när vi går online, när vi överför våra smartphones utrustade med en sökmodul, när vi pratar med våra vänner via sociala nätverk eller chatt etc. Dessutom ökar mängden maskingenererad data också snabbt. Data genereras och distribueras när våra smarta hemenheter kommunicerar med varandra eller med sina hemservrar. Industriell utrustning i fabriker och fabriker är alltmer utrustad med sensorer som samlar och överför data.
Termen ”Big-Data” hänvisar till insamling av all denna information och vår förmåga att använda den till vår fördel inom ett brett spektrum av områden, inklusive företag.
Utsikter för att använda Big Date
Blockchain och Big Data är två teknologier som utvecklas och kompletterar varandra. Sedan 2016 har blockchain diskuterats allmänt i media. Det är en kryptografiskt säker distribuerad databasteknik för lagring och överföring av information. Skyddet av privat och konfidentiell information är ett brådskande och framtida big data-problem som blockchain kan lösa.
Nästan alla branscher har börjat investera i Big Data-analys, men vissa investerar mer än andra. Enligt IDC spenderas mer på bank, diskret tillverkning, processtillverkning och professionella tjänster. Enligt Wikibons forskning uppgick intäkterna från försäljning av program och tjänster på den globala marknaden 2018 till 42 miljarder dollar och kommer 2027 att överstiga 100 miljarder dollar.
Neimeth uppskattar blockchain kommer att stå för upp till 20% av den totala marknaden för stora data år 2030 och generera upp till 100 miljarder dollar i årliga intäkter. Detta överträffar marginalerna för PayPal, Visa och Mastercard tillsammans.
Big Data-analys kommer att vara viktigt för spårning av transaktioner och gör det möjligt för blockchainföretag att avslöja dolda system och ta reda på vem de interagerar med i blockchain.
Sammanfattning
Vi har lärt oss vad som är big data? Vi tittade på hur denna teknik fungerar, för vilka matriser med information används. Vi blev bekanta med principerna och metoderna för att arbeta med big data.
Vi rekommenderar att du läser The Human Face of Big Data av Rick Smolan och Jennifer Erwitt, och Introduction to Data Mining av Michael Steinbach, Vipin Kumar och Pang-Ning Tan.
Källor som används och användbara länkar om ämnet: https://www.calltouch.ru/glossary/big-data/ https://Mining-CryptoCurrency.ru/big-data/ https://geekbrains.ru/posts/gu_big_data_faculty https: //clubshuttle.ru/tehnologiya-big-data-prostymi-slovami

