Mikä on suuri päiväys? Yksinkertainen vastaus kaikille. Big Data – iso vastuu, suuri stressi ja rahaa
Retki historiaan ja tilastoihin
Lauseke ”big data” ilmestyi vuonna 2008 Clifford Lynchin kevyellä kädellä. Nature-lehden erikoisnumerossa asiantuntija kutsui tietovirtojen räjähdysmäistä kasvua – big data. Siinä hän otti kaikki heterogeeniset tiedot yli 150 Gt päivässä.
Vuonna 2005 tehtyjen analyyttisten virastojen tilastollisista laskelmista käy ilmi, että maailmassa toimi 4-5 eksatavua tietoa (4-5 miljardia gigatavua), viiden vuoden kuluttua suurten tietojen määrä kasvoi 0,19 zettatavuun (1 ZB = 1024 EB). Vuonna 2012 luvut nousivat 1,8 ZB: iin ja vuonna 2015 – 7 ZB: hen. Asiantuntijat ennustavat, että vuoteen 2020 mennessä suuret tietojärjestelmät käyttävät 42–45 zettatavua tietoa.
Vuoteen 2011 asti big data -tekniikoita pidettiin vain tieteellisinä analyyseinä, eikä niillä ollut käytännön ratkaisua. Tiedon määrä kasvoi kuitenkin räjähdysmäisesti, ja valtavien määrittelemättömien ja heterogeenisten tietojen ongelma tuli ajankohtaiseksi jo vuoden 2012 alussa. Kiinnostus isoihin tietoihin näkyy selvästi Google Trendsissä.
Digitaalisen liiketoiminnan mastodonit – Microsoft, IBM, Oracle, EMC ja muut – ovat liittyneet uuden suunnan kehitykseen. Vuodesta 2014 lähtien suuria tietoja on tutkittu yliopistoissa, sovellettuina soveltavissa tieteissä – tekniikassa, fysiikassa, sosiologiassa.
Mikä on Big Data?
Big data on tietojenkäsittelytekniikka, joka ylittää satoja teratavuja ja kasvaa räjähdysmäisesti ajan myötä.
Tällainen data on niin suurta ja monimutkaista, ettei mikään perinteisistä tiedonhallintatyökaluista voi tallentaa tai käsitellä sitä tehokkaasti. Henkilö ei pysty analysoimaan tätä määrää. Tätä varten on kehitetty erityisiä algoritmeja, jotka suurten tietojen analysoinnin jälkeen antavat henkilölle ymmärrettäviä tuloksia.
Big Data sisältää petatavua (1024 teratavua) tai eksatavua (1024 petatavua) tietoa, joka koostuu miljoonista ihmisistä miljardeja tai biljoonia tietueita, kaikki eri lähteistä (Internet, myynti, yhteyskeskus, sosiaalinen media, mobiililaitteet). Tiedot ovat yleensä huonosti jäsenneltyjä ja usein epätäydellisiä eikä niitä ole saatavilla.
Mitä yritykset tekevät big data
Matkapuhelinoperaattorit ja hakukoneet olivat ensimmäisiä, jotka työskentelivät big datan tai ”big datan” kanssa. Hakukoneet saivat yhä enemmän kyselyitä, ja teksti oli painavampaa kuin numerot. Tekstikappaleen käsittely vie enemmän aikaa kuin rahoitustapahtuma. Käyttäjä odottaa hakukoneen käsittelevän pyynnön sekunnin murto-osassa – on mahdotonta hyväksyä, että se toimii edes puoli minuuttia. Siksi hakukoneet olivat ensimmäisiä, jotka alkoivat työskennellä rinnakkaistoiminnolla dataa käsitellessään.
Hieman myöhemmin erilaiset rahoitusorganisaatiot ja vähittäiskauppa liittyivät mukaan. Tapahtumat itsessään eivät ole niin suuria, mutta suuria tietoja ilmenee, koska tapahtumia on paljon.
Tietomäärä kasvaa yleensä kaikille. Esimerkiksi pankeilla oli aikaisemmin paljon tietoja, mutta ne eivät aina vaatineet toimintaperiaatteita, kuten suurten. Sitten pankit alkoivat työskennellä enemmän asiakastietojen kanssa. He alkoivat keksiä joustavampia talletuksia, lainoja, erilaisia tariffeja ja alkoivat analysoida liiketoimia tarkemmin. Tämä vaati jo nopeita tapoja työskennellä.
Nyt pankit haluavat analysoida sisäisten tietojen lisäksi myös kolmansien osapuolten tietoja. He haluavat saada isoja tietoja samasta vähittäiskaupasta, he haluavat tietää, mihin henkilö käyttää rahaa. Näiden tietojen perusteella he yrittävät tehdä kaupallisia tarjouksia.
Nyt kaikki tiedot linkitetään yhteen. Vähittäiskauppa, pankit, teleoperaattorit ja jopa hakukoneet ovat kaikki kiinnostuneita toistensa tiedoista.
Minkä pitäisi olla iso data-asiantuntija
Koska tiedot sijaitsevat palvelinklusterissa, niiden käsittelyyn käytetään monimutkaisempaa infrastruktuuria. Tämä aiheuttaa paljon stressiä sen kanssa työskentelevälle henkilölle – järjestelmän on oltava erittäin luotettava.
Yhden palvelimen tekeminen luotettavaksi on helppoa. Mutta kun niitä on useita, putoamisen todennäköisyys kasvaa suhteessa lukumäärään, ja myös näiden tietojen kanssa työskentelevän tietotekniikan vastuu kasvaa.
Isojen data-analyytikkojen on ymmärrettävä, että hän voi aina saada puutteellisia tai jopa virheellisiä tietoja. Hän kirjoitti ohjelman, luotti sen tuloksiin ja sai sitten selville, että yhden palvelimen pudotessa tuhannesta osa tiedoista katkaistiin ja kaikki johtopäätökset olivat virheellisiä.
Otetaan esimerkiksi tekstihaku. Sanotaan, että kaikki sanat on järjestetty aakkosjärjestyksessä useille palvelimille (yksinkertaisesti ja ehdollisesti sanottuna). Ja sitten yksi heistä sammutettiin, kaikki sanat kirjaimella ”K” katosivat. Haku lopetti sanan ”elokuva” antamisen. Kaikki elokuvauutiset häviävät, ja analyytikko tekee väärän johtopäätöksen, että ihmiset eivät enää ole kiinnostuneita elokuvateattereista.
Siksi suurtietotieteilijän on tiedettävä työn periaatteet alimmilta tasoilta – palvelimilta, ekosysteemeiltä, tehtävien ajoittajilta – korkeimman tason ohjelmiin – koneoppimiskirjastoihin, tilastollisiin analyyseihin ja muuhun. Hänen on ymmärrettävä laitteiston, tietokonelaitteiden ja kaiken sen päälle määritetyt periaatteet.
Loppujen lopuksi sinun on tiedettävä kaikki samat kuin työskenneltäessä pienten tietojen kanssa. Tarvitset matematiikkaa, sinun on pystyttävä ohjelmoimaan ja tuntemaan erityisesti hajautetut laskenta-algoritmit, jotta pystyt soveltamaan niitä tavallisiin periaatteisiin, jotka koskevat tiedon käsittelyä ja koneoppimista.
Mitä big data -työkaluja ja -tekniikoita käytetään
Koska tiedot on tallennettu klusteriin, niiden käsittelyyn tarvitaan erityinen infrastruktuuri. Suosituin ekosysteemi on Hadoop. Siinä voi toimia paljon erilaisia järjestelmiä: erityisiä kirjastoja, ajoituksia, koneoppimisen työkaluja ja paljon muuta. Ensinnäkin tätä järjestelmää tarvitaan suurten tietomäärien analysointiin hajautetun laskennan avulla.
Etsimme esimerkiksi suosituinta twiittiä tuhannesta palvelimesta. Yhdelle palvelimelle teemme vain taulukon ja siinä kaikki. Täällä voimme vetää kaikki tiedot itsellemme ja laskea uudelleen. Mutta tämä ei ole oikein, koska se vie hyvin kauan.
Siksi on olemassa Hadoop Map Reduce -paradigmilla ja Spark-kehyksellä. Sen sijaan, että he vetävät tietoja itselleen, he lähettävät ohjelmaosuudet näihin tietoihin. Työ jatkuu rinnakkain, tuhannessa säikeessä. Sitten saat näytteen tuhansista palvelimista, joiden perusteella voit valita suosituimman twiitin.
Map Reduce on vanhempi paradigma, Spark on uudempi. Sen avulla he saavat tietoa klustereista ja rakentavat siihen koneoppimismalleja.
Big data -markkinat Venäjällä
Koko maailma, Venäjä mukaan lukien, käyttää Big Data -tekniikkaa pankkitoiminnassa, viestintäpalveluissa ja vähittäiskaupassa. Asiantuntijat uskovat, että tulevaisuudessa tekniikkaa käyttävät liikenneteollisuus, öljy-, kaasu- ja elintarviketeollisuus sekä energia.
IDC-analyytikot ovat tunnustaneet Venäjän BDA: n suurimmaksi alueelliseksi markkinaksi. Liikevaihdon arvioidaan olevan tänä vuonna lähes 1,4 miljardia dollaria, ja sen osuus on 40% kokonaisinvestoinneista big data- ja business intelligence -sovelluksiin.
Mitä ammatteja on big data -alalla
Kaksi pääammattia ovat analyytikot ja datainsinöörit.
Analyytikko työskentelee ensisijaisesti tietojen kanssa. Hän on kiinnostunut taulukkotiedoista, hän harjoittaa malleja. Hänen tehtäviinsä kuuluu tietojen kokoaminen, puhdistaminen, lisääminen ja visualisointi. Toisin sanoen big data -analyytikko on linkki raakatiedon ja liiketoiminnan välillä.
Analyytikolla on kaksi päälinjaa. Ensinnäkin hän voi muuttaa saadut tiedot, tehdä johtopäätökset ja esittää ne ymmärrettävässä muodossa.
Toiseksi analyytikot kehittävät sovelluksia, jotka toimivat ja tuottavat tuloksia automaattisesti. Tee esimerkiksi ennuste osakemarkkinoille joka päivä.
Päivämääräinsinööri on alemman tason erikoisuus. Tämän henkilön on varmistettava tietojen tallentaminen, käsittely ja toimittaminen analyytikoille. Mutta missä on tarvikkeita ja siivousta, heidän vastuunsa voivat olla päällekkäisiä.
Bigdata-insinööri saa kaiken kovan työn. Jos järjestelmät ovat epäonnistuneet tai jokin palvelimista on kadonnut klusterista, se muodostaa yhteyden. Tämä on erittäin vaativa ja stressaava työ. Järjestelmä voi sammua viikonloppuisin ja tuntien jälkeen, ja insinöörin on ryhdyttävä toimiin nopeasti.
Nämä ovat kaksi pääammattia, mutta on muitakin. Ne ilmestyvät, kun rinnakkaislaskennan algoritmeja lisätään tekoälyyn liittyviin tehtäviin. Esimerkiksi NLP-insinööri. Tämä on ohjelmoija, joka käsittelee luonnollista kielenkäsittelyä, etenkin tapauksissa, joissa sanojen löytämisen lisäksi tekstin merkitys on ymmärrettävä. Tällaiset insinöörit kirjoittavat ohjelmia chat-botteihin ja valintajärjestelmiin, ääni-avustajiin ja automaattisiin puhelinkeskuksiin.
On tilanteita, joissa sinun on luokiteltava miljardeja kuvia, tehtävä maltillisuutta, suodattaa tarpeettomat asiat ja löytää vastaavia. Nämä ammatit ovat enemmän päällekkäisiä tietokonenäön kanssa.
Kuinka kauan koulutus kestää
Olemme harjoittaneet puolitoista vuotta. Ne on jaettu kuuteen neljännekseen. Jotkut keskittyvät ohjelmointiin, toiset työskentelyyn tietokantojen kanssa ja toiset matematiikkaan.
Toisin kuin esimerkiksi tekoälyn tiedekunnassa, matematiikkaa on vähemmän. Laskennassa ja lineaarisessa algebrassa ei ole niin voimakasta painotusta. Hajautettujen laskenta-algoritmien tuntemusta tarvitaan enemmän kuin laskennan periaatteet.
Mutta puolitoista vuotta riittää todelliseen työhön suurten tietojenkäsittelyjen kanssa vain, jos henkilöllä on kokemusta tavallisten tietojen ja yleensä IT: n kanssa työskentelystä. Muita opiskelijoita tiedekunnasta valmistuttuaan kannustetaan työskentelemään pienten ja keskisuurten tietojen kanssa. Vasta tämän jälkeen asiantuntija voidaan sallia työskentelemään suurten kanssa. Koulutuksen jälkeen kannattaa työskennellä datatieteilijänä – soveltaa koneoppimista erilaisiin tietomääriin.
Kun henkilö saa työpaikan suuressa yrityksessä – vaikka hänellä olisi kokemusta – useimmiten hän ei pääse heti suuriin tietomääriin, koska virhekustannukset ovat siellä paljon korkeammat. Algoritmien virheitä ei välttämättä havaita välittömästi, mikä johtaa suuriin menetyksiin.
Kuinka Big-Data-tekniikka toimii?
Sosiaalisen verkoston Facebook-käyttäjät lataavat valokuvia, videoita ja suorittavat toimintoja päivittäin sadoille teratavuille. Riippumatta siitä, kuinka monta ihmistä osallistuu kehitykseen, he eivät selviydy jatkuvasta tiedonkulusta. Palvelun edelleen kehittämiseksi ja sivustojen mukavuuden lisäämiseksi – älykkään sisällön suositusten toteuttamiseksi, käyttäjälle osuvien mainosten näyttämiseksi satoja tuhansia teratavuja kulkee algoritmin läpi ja ne saavat jäsenneltyä ja ymmärrettävää tietoa.
Verrattaessa valtavaa määrää tietoa siitä löytyy suhteita. Nämä suhteet tietyllä todennäköisyydellä voivat ennustaa tulevaisuuden. Tekoäly auttaa löytämään ja analysoimaan henkilön.
Neuraaliverkko skannaa tuhansia valokuvia, videoita, kommentteja – nämä hyvin satoja teratavuja suurta dataa ja antaa tuloksen: kuinka moni tyytyväinen asiakas lähtee kaupasta, onko ruuhkaa lähikuukausina, mitkä keskustelut ovat suosittuja sosiaalisessa verkostossa ja paljon muuta.
Menetelmät big datan kanssa työskentelyyn:
- Koneoppiminen
- Sentimenttianalyysi
- Sosiaalisen verkoston analyysi
- Oppimissääntöjen yhdistys
- Luokittelupuun analyysi
- Geneettiset algoritmit
- Taantumisanalyysi
Analyysi- ja prosessointitekniikat

Tärkeimmät menetelmät suurten tietomäärien analysoimiseksi ovat seuraavat:
- Syväanalyysi, tietojen luokittelu. Nämä tekniikat tulivat tekniikoista, joiden avulla voit työskennellä tavanomaisen strukturoidun tiedon kanssa pienissä ryhmissä. Uudessa ympäristössä käytetään kuitenkin edistyneitä matemaattisia algoritmeja, jotka perustuvat digitaalisen alan kehitykseen.
- Joukkoistaminen. Tämän tekniikan ytimessä on kyky vastaanottaa ja käsitellä miljardeja tavujen virtauksia useista lähteistä. Lopullista ”toimittajien” määrää ei rajoita mikään. Onko se vain järjestelmän voima.
- Jaettu testaus. Taulukosta valitaan useita elementtejä, joita verrataan toisiinsa vuorotellen ”ennen” ja ”muutoksen jälkeen”. AB-testit auttavat määrittämään, mitkä tekijät vaikuttavat eniten elementteihin. Esimerkiksi jaetun testauksen avulla voit suorittaa valtavan määrän iteraatioita, jotka lähestyvät asteittain luotettavaa tulosta.
- Ennuste. Analyytikot yrittävät asettaa tietyt parametrit järjestelmälle etukäteen ja tarkistaa sitten objektin käyttäytymisen suurten tietomäärien saapumisen perusteella.
- Koneoppiminen. Tekoäly pystyy tulevaisuudessa absorboimaan ja käsittelemään suuria määriä systemaattista dataa ja käyttämään niitä myöhemmin itseopiskeluun.
- Verkon toiminnan analyysi. Suurten datatekniikoiden avulla tutkitaan sosiaalisia verkostoja, tilinhaltijoiden, ryhmien ja yhteisöjen välisiä suhteita. Tämän perusteella kohdeyleisöt luodaan kiinnostuksen kohteiden, maantieteellisen sijainnin, iän ja muiden muuttujien perusteella.
Data Mining – kuinka suuria tietoja kerätään ja käsitellään
Suurten tietojen lataaminen perinteiseen relaatiotietokantaan analysointia varten vie paljon aikaa ja rahaa. Tästä syystä tiedon keräämiseen ja analysointiin on ilmestynyt erityisiä lähestymistapoja. Saadakseen ja sitten poimia tietoja he yhdistävät ja sijoittavat sen ”datajärvelle”. Sieltä tekoälyohjelmat etsivät monimutkaisia algoritmeja käyttäen toistuvia malleja.
Varastointi ja käsittely tapahtuu seuraavilla työkaluilla:
- Apache HADOOP on eräkeskeinen tietojenkäsittelyjärjestelmä. Järjestelmä tallentaa ja seuraa useita koneita koskevia tietoja ja skaalaa useita tuhansia palvelimia.
- HPPC on avoimen lähdekoodin foorumi, jonka on kehittänyt LexisNexis Risk Solutions. HPPC tunnetaan nimellä Data Analytics Supercomputer (DAS), joka tukee sekä erä- että reaaliaikaista tietojenkäsittelyä. Järjestelmä käyttää supertietokoneita ja klustereita perinteisistä tietokoneista.
- Storm – käsittelee tietoa reaaliajassa. Käyttää avoimen lähdekoodin Eclipse Public License -lisenssiä.
Mihin sitä käytetään?
Mitä enemmän tiedämme tietystä kohteesta tai ilmiöstä, sitä paremmin ymmärrämme olemuksen ja voimme ennustaa tulevaisuuden. Sieppaamalla ja käsittelemällä datavirtoja antureista, Internetistä, transaktiotoiminnasta yritykset voivat ennustaa melko tarkasti tuotteiden kysynnän, ja hätäpalvelut voivat estää ihmisen aiheuttamia katastrofeja. Tässä muutamia esimerkkejä liiketoiminnan ja markkinoinnin ulkopuolella siitä, kuinka suuria tietotekniikoita käytetään:
- Terveydenhuolto. Lisää tietoa sairauksista, enemmän hoitovaihtoehtoja, enemmän tietoa lääkkeistä – kaikki tämä antaa meille mahdollisuuden taistella sairauksia, joita pidettiin parantumattomina 40-50 vuotta sitten.
- Luonnonkatastrofien ja ihmisen aiheuttamien katastrofien ehkäisy. Tarkin ennuste tällä alueella säästää tuhansia ihmishenkiä. Älykkäiden koneiden tehtävänä on kerätä ja käsitellä monia anturilukemia ja auttaa niiden pohjalta ihmisiä määrittämään mahdollisen katastrofin päivämäärä ja paikka.
- Lainvalvontaviranomaiset. Suuria tietoja käytetään ennustamaan rikollisuuden piikkejä eri maissa ja toteuttamaan varoittavia toimenpiteitä tilanteessa.
Suuret tiedot liiketoiminnassa ja markkinoinnissa
Liiketoiminnan kehittämisstrategiat, markkinointitoimet, mainonta perustuvat analyyseihin ja työskentelyyn käytettävissä olevien tietojen kanssa. Suuret matriisit mahdollistavat valtavan määrän tietojen ”lapioinnin” ja siten mukauttavat tuotemerkin, tuotteen, palvelun kehityssuunnan mahdollisimman tarkasti.
Esimerkiksi kontekstuaalisen mainonnan RTB-huutokauppa toimii isojen tietojen kanssa, minkä avulla voit tehokkaasti mainostaa kaupallisia tarjouksia omistetulle kohderyhmälle eikä kaikille.
Mitkä ovat liiketoiminnan edut:
- Sellaisten projektien luominen, joista todennäköisesti tulee kysyntää käyttäjien ja ostajien keskuudessa.
- Asiakastarpeiden tutkiminen ja analysointi yrityksen olemassa olevan palvelun avulla. Laskelman perusteella huoltohenkilöstön työ korjataan.
- Paljastaa asiakaskunnan uskollisuus ja tyytymättömyys analysoimalla erilaisia tietoja blogeista, sosiaalisista verkostoista ja muista lähteistä.
- Kohdeyleisön houkutteleminen ja säilyttäminen analyyttisen työn avulla, suurella tietomäärällä.
Tuotteiden suosion ennustamisessa käytetään tekniikoita, esimerkiksi Google Trends -palvelun ja Yandexin avulla. Wordstat (Venäjälle ja IVY-maille).
Suurten tietojen menetelmiä käyttävät kaikki suuret yritykset – IBM, Google, Facebook ja rahoituslaitokset – VISA, Master Card sekä ministeriöt ympäri maailmaa. Esimerkiksi Saksassa työttömyysetuuksien myöntämistä vähennettiin laskemalla, että jotkut kansalaiset saavat niitä ilman syytä. Siten oli mahdollista palauttaa talousarvioon noin 15 miljardia euroa.
Käyttäjätietovuodon aiheuttama äskettäinen Facebook-skandaali viittaa siihen, että jäsentelemättömän tiedon määrä kasvaa, eikä edes digitaalisen aikakauden mastodonit voi aina varmistaa heidän täydellistä yksityisyyttään.
Esimerkiksi Master Card käyttää suuria tietoja estääkseen vilpilliset maksutilit asiakastileillä. Siten on mahdollista säästää varkaudelta yli 3 miljardia dollaria vuodessa.
Pelikentällä isojen tietojen avulla voit analysoida pelaajien käyttäytymistä, tunnistaa aktiivisen yleisön mieltymykset ja ennustaa tämän perusteella pelin kiinnostuksen tason.
Nykyään yritykset tietävät enemmän asiakkaistaan kuin me itsestämme, minkä vuoksi mainoskampanjat Coca-Colalle ja muille yrityksille ovat erittäin menestyviä.
Big-Data-ongelmat
Big Date antaa meille ennennäkemättömiä oivalluksia ja mahdollisuuksia, mutta se herättää myös kysymyksiä ja kysymyksiä, joihin on puututtava:
- Tietojen luottamuksellisuus – tänään luomamme Big-Data sisältää paljon tietoa henkilökohtaisesta elämästämme, jonka luottamuksellisuuteen meillä on kaikki oikeudet. Yhä useammin meitä pyydetään löytämään tasapaino paljastamiemme henkilötietojen määrän ja Big Date -sovellusten ja -palveluiden tarjoaman mukavuuden välillä.
- Tietosuoja – vaikka päätämmekin, että olemme tyytyväisiä siihen, että jollakin on tietomme tiettyyn tarkoitukseen, voimmeko luottaa heihin tietojemme turvallisuuteen?
- Tietojen syrjintä – kun kaikki tiedot ovat tiedossa, onko hyväksyttävää syrjiä ihmisiä heidän henkilökohtaisen elämänsä tietojen perusteella? Käytämme jo luottopisteitä päättääksemme, kuka voi lainata rahaa, ja myös vakuutus on suuresti riippuvainen tiedoista. Meidän pitäisi odottaa, että meitä analysoidaan ja arvioidaan yksityiskohtaisemmin, mutta on huolehdittava siitä, että tämä ei vaikeuta niiden ihmisten elämää, joilla on vähemmän resursseja ja joilla on rajallinen pääsy tietoihin.
Nämä tehtävät ovat tärkeä osa Big Dates -ohjelmaa, ja organisaatioiden, jotka haluavat käyttää tällaisia tietoja, on puututtava niihin. Tämän tekemättä jättäminen voi tehdä yrityksestä haavoittuvan paitsi maineensa, myös juridisen ja taloudellisen puolensa suhteen.
Big Date on hämmästyttävä nousu
Kaikki alkoi digitaalikauden alusta lähtien luomamme datamäärän räjähdyksestä. Tämä johtuu suurelta osin tietokoneiden, Internetin ja tekniikoiden kehityksestä, jotka pystyvät ”sieppaamaan” tietoja ympäröivästä maailmasta. Tiedot yksinään eivät ole uusi keksintö. Jo ennen tietokoneiden ja tietokantojen aikakautta käytimme paperitransaktiotietoja, asiakastietueita ja arkistotiedostoja, jotka ovat tietoja. Tietokoneet, erityisesti laskentataulukot ja tietokannat, ovat helpottaneet tietojen tallentamista ja järjestämistä suuressa mittakaavassa. Yhtäkkiä tiedot tulivat saataville yhdellä hiiren napsautuksella.
Olemme kuitenkin edenneet pitkälle alkuperäisistä taulukoista ja tietokannoista. Luomme tänään joka toinen päivä niin paljon tietoja kuin saimme alusta asti vuoteen 2000. Aivan, joka toinen päivä. Ja luomiemme tietojen määrä kasvaa edelleen nopeasti; vuoteen 2020 mennessä käytettävissä olevan digitaalisen tiedon määrä kasvaa noin viidestä zettatavusta 20 zettatavuun.
Nykyään melkein jokainen tekemämme toiminta jättää jälkensä. Luomme tietoja aina, kun siirrymme verkkoon, siirrämme älypuhelimet, joissa on hakumoduuli, kun puhumme ystäviemme kanssa sosiaalisten verkostojen tai chattien kautta. Lisäksi koneellisesti tuotetun datan määrä kasvaa nopeasti. Tiedot syntyvät ja jaetaan, kun älykkäiden kodin laitteemme ovat yhteydessä toisiinsa tai heidän kotipalvelimiinsa. Tehtaiden ja tehtaiden teollisuuslaitteet on yhä enemmän varustettu antureilla, jotka keräävät ja välittävät tietoja.
Termi ”Big-Data” viittaa kaikkien näiden tietojen keräämiseen ja kykyyn käyttää niitä hyödyksi monilla aloilla, mukaan lukien liiketoiminta.
Big Daten käytön mahdollisuudet
Blockchain ja Big Data ovat kaksi kehittyvää ja täydentävää tekniikkaa. Vuodesta 2016 lähtien blockchainista on keskusteltu laajalti tiedotusvälineissä. Se on kryptografisesti turvallinen hajautettu tietokantatekniikka tietojen tallentamiseen ja siirtämiseen. Yksityisten ja luottamuksellisten tietojen suojaaminen on kiireellinen ja tuleva big data-ongelma, jonka blockchain voi ratkaista.
Lähes jokainen ala on alkanut investoida Big Data -analytiikkaan, mutta jotkut sijoittavat enemmän kuin toiset. IDC: n mukaan he käyttävät enemmän pankkitoimintaan, erilliseen valmistukseen, prosessituotantoon ja asiantuntijapalveluihin. Wikibon-tutkimuksen mukaan ohjelmien ja palvelujen myynnistä maailmanmarkkinoilla tuotot vuonna 2018 olivat 42 miljardia dollaria, ja vuonna 2027 ne ylittävät 100 miljardin dollarin rajan.
Neimethin arvion mukaan lohkoketjun osuus on jopa 20% kokonaisdatamarkkinoista vuoteen 2030 mennessä, mikä tuottaa jopa 100 miljardia dollaria vuotuista tuloa. Tämä ylittää PayPalin, Visa: n ja Mastercardin marginaalit yhdessä.
Big Data -analytiikka on tärkeää tapahtumien seurannassa ja antaa blockchain-yrityksille mahdollisuuden paljastaa piilotetut mallit ja selvittää, kenen kanssa he ovat vuorovaikutuksessa blockchainissa.
Yhteenveto
Olemme oppineet, mikä on big data? Tarkastelimme, miten tämä tekniikka toimii, johon käytetään tietojoukkoja. Tutustuimme big datan kanssa työskentelyn periaatteisiin ja menetelmiin.
Suosittelemme lukemaan Rick Smolanin ja Jennifer Erwittin Big Datain ihmisen kasvot ja Michael Steinbachin, Vipin Kumarin ja Pang-Ning Tanin johdannon tiedonlouhintaan.
Käytetyt lähteet ja hyödyllisiä linkkejä aiheesta: https://www.calltouch.ru/glossary/big-data/ https://Mining-CryptoCurrency.ru/big-data/ https://geekbrains.ru/posts/gu_big_data_faculty https: //clubshuttle.ru/tehnologiya-big-data-prostymi-slovami

