Die Website enthält die besten Tipps, Tricks und Lösungen für Probleme, auf die Sie möglicherweise stoßen. Geheimnisse, Lifehacks, Geschichten und alles, was mit Leben und Beziehungen zu tun hat.

Що таке Біг-Дата? Проста відповідь для кожного. Big Data – велика відповідальність, великий стрес і гроші

48

Екскурс в історію і статистику

Словосполучення «великі дані» з'явилося в 2008 році з легкої руки Кліффорда Лінча. У спецвипуску журналу Nature експерт назвав вибухове зростання потоків інформації – big data. У нього він відніс будь масиви неоднорідних даних понад 150 Гб на добу.

З статистичних викладок аналітичних агентств в 2005 році світ оперував 4-5 ексабайт інформації (4-5 мільярдів гігабайтів), через 5 років обсяги big data виросли до 0,19 зеттабайт (1 ЗБ = 1024 ЕБ). У 2012 році показники зросли до 1,8 ЗБ, а в 2015 – до 7 ЗБ. Експерти прогнозують, що до 2020 року системи великих даних оперуватимуть 42-45 зеттабайт інформації.

До 2011 року технології великих даних розглядалися тільки в якості наукового аналізу та практичного виходу ні мали. Однак обсяги даних росли по експоненті і проблема величезних масивів неструктурованою і неоднорідною інформації стала актуальною вже на початку 2012 році. Сплеск інтересу до big data добре видно в Google Trends.

До розвитку нового напряму підключилися мастодонти цифрового бізнесу – Microsoft, IBM, Oracle, EMC і інші. З 2014 року великі дані вивчають в університетах, впроваджують в прикладні науки – інженерію, фізику, соціологію.

Що таке Big data?

Великі дані – технологія обробки інформації, яка перевершує сотні терабайт і з часом зростає в геометричній прогресії.

Такі дані настільки великі і складні, що жоден з традиційних інструментів управління даними не може їх зберігати або ефективно обробляти. Проаналізувати цей обсяг людина не здатна. Для цього розроблені спеціальні алгоритми, які після аналізу великих даних дають людині зрозумілі результати.

В Big Data входять петабайт (1024 терабайта) або ексабайт (1024 петабайта) інформації, з яких складаються мільярди або трильйони записів мільйонів людей і все з різних джерел (Інтернет, продажу, контакт-центр, соціальні мережі, мобільні пристрої). Як правило, інформація слабо структурована і часто неповна і недоступна.

Які компанії займаються великими даними

Першими з великими даними, або з «біг дата», почали працювати мобільні оператори і пошукові системи. У пошукових систем ставало все більше і більше запитів, а текст важче, ніж цифри. На роботу до абзацу тексту йде більше часу, ніж з фінансової транзакцією. Користувач чекає, що пошуковик відпрацює запит за частку секунди – неприпустимо, щоб він працював навіть півхвилини. Тому пошуковики перші почали працювати з розпаралелюванням при роботі з даними.

Трохи пізніше підключилися різні фінансові організації і ритейл. Самі транзакції у них не такі об'ємні, але великі дані з'являються за рахунок того, що транзакцій дуже багато.

Кількість даних зростає взагалі у всіх. Наприклад, у банків і раніше було багато даних, але для них не завжди були потрібні принципи роботи, як з великими. Потім банки стали більше працювати з даними клієнтів. Стали придумувати більш гнучкі вклади, кредити, різні тарифи, стали щільніше аналізувати транзакції. Для цього вже були потрібні швидкі способи роботи.

Зараз банки хочуть аналізувати не тільки внутрішню інформацію, а й сторонню. Вони хочуть отримувати великі дані від того ж рітейлу, хочуть знати, на що людина витрачає гроші. На основі цієї інформації вони намагаються робити комерційні пропозиції.

Зараз вся інформація пов'язується між собою. Ритейлу, банкам, операторам зв'язку і навіть пошуковикам – всім тепер цікаві дані один одного.

Яким повинен бути фахівець з великим даними

Оскільки дані розташовані на кластері серверів, для їх обробки використовується більш складна інфраструктура. Це надає велике навантаження на людину, яка з нею працює – система повинна бути дуже надійною.

Зробити надійним один сервер легко. Але коли їх кілька – ймовірність падіння зростає пропорційно кількості, і так само зростає і відповідальність дата-інженера, який до цих даних працює.

Аналітик big data повинен розуміти, що він завжди може отримати неповні або навіть неправильні дані. Він написав програму, довірився її результатами, а потім дізнався, що через падіння одного сервера з тисячі частина даних була відключена, і всі висновки невірні.

Взяти, наприклад, текстовий пошук. Припустимо все слова розташовані в алфавітному порядку на декількох серверах (якщо говорити дуже просто і умовно). І ось відключився один з них, пропали всі слова на букву «К». Пошук перестав видавати слово «Кіно». Слідом пропадають всі кіноновини, і аналітик робить помилковий висновок, що людей більше не цікавлять кінотеатри.

Тому фахівець з великим даними повинен знати принципи роботи від найнижчих рівнів – серверів, екосистем, планувальників завдань – до самих верхнеуровневих програм – бібліотек машинного навчання, статистичного аналізу та іншого. Він повинен розуміти принципи роботи заліза, комп'ютерного обладнання та всього, що налаштоване поверх нього.

В іншому потрібно знати все той же, що і при роботі з малими даними. Потрібна математика, потрібно вміти програмувати і особливо добре знати алгоритми розподілених обчислень, вміти прикласти їх до звичайних принципам роботи з даними і машинного навчання.

Які використовуються інструменти та технології big data

Оскільки дані зберігаються на кластері, для роботи з ними потрібна особлива інфраструктура. Найпопулярніша екосистема – це Hadoop. У ній може працювати дуже багато різних систем: спеціальних бібліотек, планувальників, інструментів для машинного навчання і багато чого іншого. Але в першу чергу ця система потрібна, щоб аналізувати великі обсяги даних за рахунок розподілених обчислень.

Наприклад, ми шукаємо найпопулярніший твіт серед даних розбитих на тисячі серверів. На одному сервері ми б просто зробили таблицю і все. Тут ми можемо притягти всі дані до себе і перерахувати. Але це не правильно, тому що дуже довго.

Тому є Hadoop з парадигмами Map Reduce і фреймворком Spark. Замість того, щоб тягнути дані до себе, вони відправляють до цих даних ділянки програми. Робота йде паралельно, в тисячу потоків. Потім виходить вибірка з тисячі серверів на основі якої можна вибрати найпопулярніший твіт.

Map Reduce старіша парадигма, Spark – новіше. З його допомогою дістають дані з кластерів, і в ньому ж будують моделі машинного навчання.

Ринок Big data в Росії

Що таке Біг-Дата? Проста відповідь для кожного. Big Data - велика відповідальність, великий стрес і гроші

Весь світ і в тому числі Росія використовують технологію Big Data в банківській сфері, послуги зв'язку та роздрібної торгівлі. Експерти вважають, що в майбутньому технологію використовуватимуть транспортна галузь, нафтогазова і харчова промисловість, а також енергетика.

Аналітики IDC визнали Росію найбільшим регіональним ринком BDA. За розрахунками в поточному році виручка наблизиться до 1,4 мільярдам доларів і становитиме 40% загального обсягу інвестицій в секторі великих даних і додатків бізнес-аналітики.

Які професії є в сфері високих даних

Дві основні професії – це аналітики і дата-інженери.

Аналітик насамперед працює з інформацією. Його цікавлять табличні дані, він займається моделями. В його обов'язки входить агрегація, очищення, доповнення та візуалізація даних. Тобто, аналітик в біг дата – це сполучна ланка між інформацією в сирому вигляді і бізнесом.

У аналітика є два основних напрямки роботи. Перше – він може перетворювати отриману інформацію, робити висновки і представляти її в зрозумілому вигляді.

Друге – аналітики розробляють додатки, які буде працювати і видавати результат автоматично. Наприклад, робити прогноз по ринку цінних паперів кожен день.

Дата інженер – це більш низкоуровневая спеціальність. Це людина, яка повинна забезпечити зберігання, обробку і доставку інформації аналітику. Але там, де йде поставка та очищення – їх обов'язки можуть перетинатися

Bigdata-інженеру дістається вся чорна робота. Якщо відмовили системи, або з кластера пропав один з серверів – підключається він. Це дуже відповідальна і стресова робота. Система може відключитися і в вихідні, і в неробочий час, і інженер повинен оперативно вжити заходів.

Це дві основні професії, але є й інші. Вони з'являються, коли до завдань, пов'язаних зі штучним інтелектом, додаються алгоритми паралельних обчислень. Наприклад, NLP-інженер. Це програміст, який займається обробкою природної мови, особливо у випадках, коли треба не просто знайти слова, а вловити зміст тексту. Такі інженери пишуть програми для чат-ботів і діалогових систем, голосових помічників і автоматизованих колл-центрів.

Є ситуації, коли треба проклассифицировать мільярди картинок, зробити модерацію, відсіяти зайве і знайти схоже. Ці професії більше перетинаються з комп'ютерним зором.

Скільки часу займає навчання

У нас навчання йде півтора року. Вони розбиті на шість чвертей. В одних йде упор на програмування, в інших – на роботу з базами даних, по-третє – на математику.

На відміну, наприклад, від факультету ІІ, тут поменше математики. Немає такого сильного акценту на математичний аналіз і лінійну алгебру. Знання алгоритмів розподілених обчислень потрібні більше, ніж принципи матаналізу.

Але півтора року досить для реальної роботи з обробкою великих даних тільки якщо у людини був досвід роботи з звичайними даними і взагалі в ІТ. Іншим студентам після закінчення факультету рекомендується попрацювати з малими і середніми даними. Тільки після цього фахівця можуть допустити до роботи з великими. Після навчання варто попрацювати дата-саентістом – попріменять машинне навчання на різних обсягах даних.

Коли людина влаштовується у велику компанію – навіть якщо у нього був досвід – найчастіше його не допустять до великих обсягів даних відразу, тому що ціна помилки там набагато вище. Помилки в алгоритмах можуть виявитися не відразу, і це призведе до великих втрат.

Як працює технологія Big-Data?

Що таке Біг-Дата? Проста відповідь для кожного. Big Data - велика відповідальність, великий стрес і гроші

Користувачі соціальної мережі Facebook завантажують фото, відео і виконують дії кожен день на сотні терабайт. Скільки б людина не брала участі в розробці, вони не впораються з постійним потоком інформації. Щоб далі розвивати сервіс і робити сайти комфортніше – впроваджувати розумні рекомендації контенту, показувати актуальну для користувача рекламу, сотні тисяч терабайт пропускають через алгоритм і отримують структуровану і зрозумілу інформацію.

Порівнюючи величезний обсяг інформації, в ньому знаходять взаємозв'язку. Ці взаємозв'язки з певною ймовірністю можуть передбачити майбутнє. Знаходити і аналізувати людині допомагає штучний інтелект.

Нейросеть сканує тисячі фотографій, відео, коментарів – ті самі сотні терабайт великих даних і видає результат: скільки задоволених покупців йде з магазину, чи буде в найближчі години пробка на дорозі, які обговорення популярні в соціальній мережі і багато іншого.

Методи роботи з великими даними:

  • машинне навчання
  • аналіз настроїв
  • Аналіз соціальної мережі
  • Асоціація правил навчання
  • Аналіз дерева класифікації
  • генетичні алгоритми
  • регресійний аналіз

Методики аналізу та обробки

Що таке Біг-Дата? Проста відповідь для кожного. Big Data - велика відповідальність, великий стрес і гроші
До основних способів аналізу великих масивів інформації відносять такі:

  1. Глибинний аналіз, класифікація даних. Ці методики прийшли з технологій роботи зі звичайною структурованою інформацією в невеликих масивах. Однак в нових умовах використовуються вдосконалені математичні алгоритми, засновані на досягненнях в цифровій сфері.
  2. Краудсорсінг. В основі цієї технології можливість отримувати і обробляти потоки в мільярди байт з багатьох джерел. Кінцеве число «постачальників» не обмежується нічим. Хіба тільки потужністю системи.
  3. Спліт-тестування. З масиву вибираються кілька елементів, які порівнюються між собою по черзі «до» і «після» зміни. АВ тести допомагають визначити, які чинники мають найбільший вплив на елементи. Наприклад, за допомогою спліт-тестування можна провести величезну кількість ітерацій поступово наближаючись до достовірного результату.
  4. Прогнозування. Аналітики намагаються заздалегідь задати системі ті чи інші параметри і в подальшій перевіряти поведінку об'єкта на основі надходження великих масивів інформації.
  5. Машинне навчання. Штучний інтелект в перспективі здатний поглинати і обробляти великі обсяги несистематизованих даних, згодом використовуючи їх для самостійного навчання.
  6. Аналіз мережевої активності. Методики big data використовуються для дослідження соцмереж, взаємовідносин між власниками аккаунтів, груп, спільнотами. На основі цього створюються цільові аудиторії за інтересами, геолокації, віком і іншим метрик.

Data Mining – як збирається і обробляється Біг Дата

Завантаження великих даних в традиційну реляційну базу для аналізу займає багато часу і грошей. З цієї причини з'явилися спеціальні підходи для збору і аналізу інформації. Для отримання і подальшого вилучення інформацію об'єднують і поміщають в “озеро даних”. Звідти програми штучного інтелекту, використовуючи складні алгоритми, шукають повторювані патерни.

Зберігання та обробка відбувається наступними інструментами:

  • Apache HADOOP – пакетно-орієнтована система обробки даних. Система зберігає і відслідковує інформацію на декількох машинах і масштабується до декількох тисяч серверів.
  • HPPC – платформа з відкритим вихідним кодом, розроблена LexisNexis Risk Solutions. HPPC відома як суперкомп'ютер Data Analytics (DAS), що підтримує обробку даних як в пакетному режимі, так і в режимі реального часу. Система використовує суперкомп'ютери та кластери зі звичайних комп'ютерів.
  • Storm – обробляє інформацію в реальному часі. Використовує Eclipse Public License з відкритим вихідним кодом.

Для чого використовують?

Чим більше ми знаємо про конкретний предмет або явище, тим точніше осягаємо суть і можемо прогнозувати майбутнє. Знімаючи і обробляючи потоки даних з датчиків, інтернету, транзакційних операцій, компанії можуть досить точно передбачити попит на продукцію, а служби надзвичайних ситуацій запобігти техногенним катастрофам. Наведемо кілька прикладів поза сферою бізнесу і маркетингу, як використовуються технології великих даних:

  • Охорона здоров'я. Більше знань про хвороби, більше варіантів лікування, більше інформації про лікарські препарати – все це дозволяє боротися з такими хворобами, які 40-50 років тому вважалися невиліковними.
  • Попередження природних та техногенних катастроф. Максимально точний прогноз в цій сфері рятує тисячі життів людей. Завдання інтелектуальних машин зібрати і обробити безліч показників датчиків і на їх основі допомогти людям визначити дату і місце можливого катаклізму.
  • Правоохоронні органи. Великі дані використовуються для прогнозування сплеску криміналу в різних країнах і прийняття стримуючих заходів, там, де цього вимагає ситуація.

Великі дані в бізнесі та маркетингу

Стратегії розвитку бізнесу, маркетингові заходи, реклама засновані на аналізі та роботі з наявними даними. Великі масиви дозволяють «перелопатити» гігантські обсяги даних і відповідно максимально точно скорегувати напрямок розвитку бренду, продукту, послуги.

Наприклад, аукціон RTB в контекстній рекламі працюють з big data, що дозволяє ефективно рекламувати комерційні пропозиції виділеної цільової аудиторії, а не всім підряд.

Які вигоди для бізнесу:

  • Створення проектів, які з високою ймовірністю стануть затребуваними у користувачів, покупців.
  • Вивчення і аналіз вимог клієнтів з існуючим сервісом компанії. На основі викладки коригується робота обслуговуючого персоналу.
  • Виявлення лояльності і незадоволеності клієнтської бази за рахунок аналізу різноманітної інформації з блогів, соцмереж та інших джерел.
  • Залучення і утримання цільової аудиторії завдяки аналітичній роботі з великими масивами інформації.

Технології використовують в прогнозуванні популярності продуктів, наприклад, за допомогою сервісу Google Trends і Яндекс. Вордстат (для Росії і СНД).

Методики big data використовують всі великі компанії – IBM, Google, Facebook і фінансові корпорації – VISA, Master Card, а також міністерства різних країн світу. Наприклад, в Німеччині скоротили видачу допомоги безробітним, вирахувавши, що частина громадян отримують їх без підстав. Так вдалося повернути в бюджет близько 15 млрд. Євро.

Недавній скандал з Facebook через витік даних користувачів говорить про те, що обсяги неструктурованої інформації ростуть і навіть мастодонти цифрової ери не завжди можуть забезпечити їх повну конфіденційність.
Що таке Біг-Дата? Проста відповідь для кожного. Big Data - велика відповідальність, великий стрес і гроші

Наприклад, Master Card використовують великі дані для запобігання шахрайських операцій з рахунками клієнтів. Так вдається щорічно врятувати від крадіжки понад 3 млрд. Доларів США.

В ігровій сфері big data дозволяє проаналізувати поведінку гравців, виявити переваги активної аудиторії і на основі цього прогнозувати рівень інтересу до гри.
Що таке Біг-Дата? Проста відповідь для кожного. Big Data - велика відповідальність, великий стрес і гроші

Сьогодні бізнес знає про своїх клієнтів більше, ніж ми самі знаємо про себе – тому рекламні кампанії Coca-Cola та інших корпорацій мають шалений успіх.

Проблеми з Big-Data

Біг Дата дає нам безпрецедентні ідеї і можливості, але також піднімає проблеми і питання, які необхідно вирішити:

  • Конфіденційність даних – Big-Data, яку ми сьогодні генеруємо, містить багато інформації про наше особисте життя, на конфіденційність якої ми маємо повне право. Все частіше і частіше нас просять знайти баланс між кількістю персональних даних, які ми розкриваємо, і зручністю, яке пропонують програми та послуги, засновані на використанні Біг Дати.
  • Захист даних – навіть якщо ми вирішуємо, що нас влаштовує те, що у кого-то є наші дані для певної мети, чи можемо ми довіряти йому збереження і безпеку наших даних?
  • Дискримінація даних – коли вся інформація буде відома, чи стане прийнятною дискримінація людей на основі даних з їхнього особистого життя? Ми вже використовуємо оцінки кредитоспроможності, щоб вирішити, хто може брати гроші, і страхування теж в значній мірі залежить від даних. Нам варто очікувати, що нас будуть аналізувати і оцінювати більш докладно, проте слід подбати про те, щоб це не ускладнювало життя тих людей, які мають у своєму розпорядженні меншими ресурсами і обмеженим доступом до інформації.

Виконання цих завдань є важливою складовою Біг Дати, і їх необхідно вирішувати організаціям, які хочуть використовувати такі дані. Нездатність здійснити це може зробити бізнес вразливим, причому не тільки з точки зору його репутації, але також з юридичної і фінансової сторони.

Дивовижний зростання Біг-Дати

Все почалося зі «вибуху» в обсязі даних, які ми створили з самого початку цифрової епохи. Це багато в чому пов'язано з розвитком комп'ютерів, Інтернету і технологій, здатних «вихоплювати» дані з оточуючого нас світу. Дані самі по собі не є новим винаходом. Ще до епохи комп'ютерів і баз даних ми використовували паперові записи транзакцій, клієнтські записи і архівні файли, які і є даними. Комп'ютери, особливо електронні таблиці і бази даних, дозволили нам легко і просто зберігати і впорядковувати дані в великих масштабах. Раптово інформація стала доступною за допомогою одного кліка.

Тим не менш, ми пройшли довгий шлях від первинних таблиць і баз даних. Сьогодні через кожні два дні ми створюємо стільки даних, скільки ми отримали з самого початку аж до 2000 року. Правильно, через кожні два дні. І обсяг даних, які ми створюємо, продовжує стрімко зростати; до 2020 року обсяг доступної цифрової інформації зросте приблизно з 5 зеттабайт до 20 зеттабайт.

В даний час майже кожна дія, яку ми вживаємо, залишає свій слід. Ми генеруємо дані щоразу, коли виходимо в Інтернет, коли переносимо наші смартфони, обладнані пошуковим модулем, коли розмовляємо з нашими знайомими через соціальні мережі або чати і т.д. До того ж, кількість даних, згенерованих машинним способом, також швидко зростає. Дані генеруються і поширюються, коли наші «розумні» домашні пристрої обмінюються даними один з одним або зі своїми домашніми серверами. Промислове обладнання на заводах і фабриках все частіше оснащується датчиками, які акумулюють і передають дані.

Термін «Big-Data» відноситься до збору всіх цих даних і нашої здатності використовувати їх в своїх інтересах в широкому спектрі областей, включаючи бізнес.

Перспективи використання Біг Дата

Blockchain і Big Data – дві країни, що розвиваються і взаємодоповнюють одне одного технології. З 2016 блокчейн часто обговорюється в ЗМІ. Це криптографически безпечна технологія розподілених баз даних для зберігання і передачі інформації. Захист приватної та конфіденційної інформації – актуальна і майбутня проблема великих даних, яку здатний вирішити блокчейн.

Майже кожна галузь почала інвестувати в аналітику Big Data, але деякі інвестують більше, ніж інші. За інформацією IDC, більше витрачають на банківські послуги, дискретне виробництво, процессное виробництво і професійні послуги. За дослідженнями Wikibon, виручка від продажів програм і послуг на світовому ринку в 2018 році склала $ 42 млрд, а в 2027 році подолає позначку в $ 100 млрд.

За оцінками Neimeth, блокчейн складе до 20% загального ринку великих даних до 2030 року, приносячи до $ 100 млрд. Річного доходу. Це перевершує прибуток PayPal, Visa і Mastercard разом узяті.

Аналітика Big Data буде важлива для відстеження транзакцій і дозволить компаніям, що використовують блокчейн, виявляти приховані схеми і з'ясовувати з ким вони взаємодіють в блокчейне.

резюме

Ми вивчили, що таке big data? Розглянули, як працює ця технологія, для чого використовуються масиви інформації. Познайомилися з принципами і методиками роботи з великими даними.

Рекомендуємо до прочитання книгу Ріка Смолана і Дженніфер Ервітте «The Human Face of Big Data», а також праця «Introduction to Data Mining» Майкла Стейнбаха, Віпін Кумар і Панг-Нинг Тан.

Використані джерела і корисні посилання по темі: https://www.calltouch.ru/glossary/big-data/ https://Mining-CryptoCurrency.ru/big-data/ https://geekbrains.ru/posts/gu_big_data_faculty https: //clubshuttle.ru/tehnologiya-big-data-prostymi-slovami

Джерело запису: lastici.ru

Цей веб -сайт використовує файли cookie, щоб покращити ваш досвід. Ми припустимо, що з цим все гаразд, але ви можете відмовитися, якщо захочете. Прийняти Читати далі