ইতিহাস এবং পরিসংখ্যান মধ্যে একটি ভ্রমণ
ক্লিপফোর্ড লঞ্চের হালকা হাত ধরে “বিগ ডেটা” শব্দটি প্রকাশিত হয়েছিল ২০০৮ সালে। প্রকৃতি জার্নালের একটি বিশেষ সংখ্যায় বিশেষজ্ঞ তথ্য প্রবাহের বিস্ফোরক বৃদ্ধি বলেছিলেন – বড় ডেটা। এতে, তিনি প্রতিদিন 150 গিগাবাইটেরও বেশি ভিন্ন ভিন্ন ডেটার কোনও অ্যারে নিয়েছিলেন।
বিশ্লেষক সংস্থাগুলির পরিসংখ্যানগত গণনা থেকে ২০০৫ সালে বিশ্বে ৪-৫ এক্সাবাইট তথ্য (৪-৫ বিলিয়ন গিগাবাইট) পরিচালিত হয়, ৫ বছর পর বড় ডেটার পরিমাণ বেড়ে যায় ০.০৯ জেটটাবাইটে (১ জেডবি = ১০২৪ ইবি)। ২০১২ সালে, পরিসংখ্যানগুলি বেড়েছে 1.8 জেডবি, এবং 2015 – 7 জেডবিতে। বিশেষজ্ঞরা ভবিষ্যদ্বাণী করেছেন যে ২০২০ সালের মধ্যে বড় ডেটা সিস্টেমগুলি 42-45 জেটটাবাইট তথ্য পরিচালনা করবে।
২০১১ অবধি বড় ডেটা প্রযুক্তিগুলি কেবলমাত্র বৈজ্ঞানিক বিশ্লেষণ হিসাবে বিবেচিত হত এবং এর কোনও ব্যবহারিক সমাধান ছিল না। যাইহোক, ডেটার পরিমাণ তাত্ক্ষণিকভাবে বৃদ্ধি পেয়েছিল, এবং বিপুল পরিমাণে অরক্ষিত এবং ভিন্নধর্মী তথ্যের সমস্যাটি ২০১২ সালের প্রথম দিকে প্রাসঙ্গিক হয়ে ওঠে। বড় ডেটাতে আগ্রহের উত্সাহ গুগল ট্রেন্ডগুলিতে স্পষ্টভাবে দৃশ্যমান।
মাইক্রোসফ্ট, আইবিএম, ওরাকল, ইএমসি এবং অন্যান্য – ডিজিটাল ব্যবসায়িক ম্যাসডোনগুলি নতুন দিকের উন্নয়নে যোগ দিয়েছে। ২০১৪ সাল থেকে, বিশ্ববিদ্যালয়গুলিতে বড় ডেটা অধ্যয়ন করা হয়েছে, প্রয়োগ বিজ্ঞান – প্রকৌশল, পদার্থবিজ্ঞান, সমাজবিজ্ঞানে প্রয়োগ করা হয়েছে।
বিগ ডেটা কী?
বিগ ডেটা এমন একটি তথ্য প্রক্রিয়াকরণ প্রযুক্তি যা কয়েকশ টেরাবাইটের চেয়ে বেশি এবং সময়ের সাথে সাথে তাত্পর্যপূর্ণভাবে বৃদ্ধি পাচ্ছে।
এই জাতীয় ডেটা এত বড় এবং জটিল যে কোনও traditionalতিহ্যবাহী ডেটা ম্যানেজমেন্ট সরঞ্জামগুলি দক্ষতার সাথে এটি সংরক্ষণ বা প্রক্রিয়া করতে পারে না। কোনও ব্যক্তি এই আয়তন বিশ্লেষণ করতে সক্ষম নয়। এর জন্য, বিশেষ অ্যালগরিদমগুলি তৈরি করা হয়েছে, যা বড় ডেটা বিশ্লেষণ করার পরে, কোনও ব্যক্তিকে বোধগম্য ফলাফল দেয়।
বিগ ডেটাতে পেটাবাইট (1,024 টেরাবাইট) বা এক্সাবাইটস (1,024 পেটাবাইট) রয়েছে যা বিভিন্ন উত্স (ইন্টারনেট, বিক্রয়, যোগাযোগ কেন্দ্র, সোশ্যাল মিডিয়া, মোবাইল ডিভাইস) থেকে কয়েক মিলিয়ন লোকের কোটি কোটি বা ট্রিলিয়ন রেকর্ড তৈরি করে information একটি নিয়ম হিসাবে, তথ্য দুর্বল কাঠামোগত এবং প্রায়শই অসম্পূর্ণ এবং অনুপলব্ধ।
সংস্থাগুলি কী বড় ডেটা করছে
সেলুলার অপারেটর এবং সার্চ ইঞ্জিনগুলিই প্রথম বৃহত্তম ডেটা বা “বড় ডেটা” দিয়ে কাজ করে। অনুসন্ধান ইঞ্জিনগুলি আরও বেশি বেশি ক্যোয়ারী পাচ্ছিল এবং পাঠ্যটি সংখ্যাগুলির চেয়ে ভারী ছিল। কোনও আর্থিক লেনদেনের চেয়ে পাঠ্যের একটি অনুচ্ছেদে কাজ করতে বেশি সময় লাগে। ব্যবহারকারী স্লাইড দ্বিতীয়টিতে অনুরোধটি প্রক্রিয়া করার জন্য অনুসন্ধান ইঞ্জিনটির জন্য অপেক্ষা করে – এটি অর্ধ মিনিটের জন্যও কাজ করা অগ্রহণযোগ্য। অতএব, অনুসন্ধান ইঞ্জিনগুলি সর্বপ্রথম ডেটা নিয়ে কাজ করার সময় সমান্তরালে কাজ শুরু করেছিল।
একটু পরে, বিভিন্ন আর্থিক সংস্থা এবং খুচরা এতে যোগ দিল। তাদের লেনদেনগুলি এগুলি এত বড় নয় তবে প্রচুর লেনদেন হওয়ার কারণে বড় ডেটা উপস্থিত হয়।
প্রত্যেকের জন্য সাধারণভাবে ডেটার পরিমাণ বাড়ছে। উদাহরণস্বরূপ, ব্যাঙ্কগুলির আগে প্রচুর ডেটা ছিল, তবে তাদের সর্বদা বড় আকারের মতো অপারেটিং নীতিগুলির প্রয়োজন হয় না। তারপরে ব্যাংকগুলি গ্রাহকের ডেটা নিয়ে আরও কাজ শুরু করে। তারা আরও নমনীয় আমানত, loansণ, বিভিন্ন শুল্ক নিয়ে আসে এবং আরও নিবিড়ভাবে লেনদেন বিশ্লেষণ করতে শুরু করে। এটি ইতিমধ্যে কাজ করার দ্রুত উপায় প্রয়োজন।
এখন ব্যাংকগুলি কেবল অভ্যন্তরীণ তথ্যই নয়, তৃতীয় পক্ষের তথ্যও বিশ্লেষণ করতে চায়। তারা একই খুচরা থেকে বড় ডেটা পেতে চায়, তারা জানতে চায় যে কোনও ব্যক্তি কী অর্থ ব্যয় করে। এই তথ্যের ভিত্তিতে, তারা বাণিজ্যিক অফার দেওয়ার চেষ্টা করে।
এখন সমস্ত তথ্য একসাথে যুক্ত করা হচ্ছে। খুচরা, ব্যাংক, টেলিকম অপারেটর এবং এমনকি অনুসন্ধান ইঞ্জিনগুলি এখন একে অপরের ডাটাতে আগ্রহী।
কোন বড় ডেটা বিশেষজ্ঞ হতে হবে
যেহেতু ডেটা সার্ভারের ক্লাস্টারে অবস্থিত তাই এটি প্রক্রিয়া করার জন্য আরও জটিল অবকাঠামো ব্যবহার করা হয়। এটি তার সাথে কাজ করে এমন ব্যক্তির উপর প্রচুর চাপ সৃষ্টি করে – সিস্টেমটি অবশ্যই খুব নির্ভরযোগ্য হতে হবে।
একক সার্ভারকে নির্ভরযোগ্য করে তোলা সহজ। কিন্তু যখন সেগুলির বেশ কয়েকটি থাকে, তখন সংখ্যার অনুপাতে পতনের সম্ভাবনা বৃদ্ধি পায় এবং এই ডেটা দিয়ে কাজ করা ডেটা ইঞ্জিনিয়ারের দায়িত্বও বৃদ্ধি পায়।
একজন বড় ডেটা বিশ্লেষককে বুঝতে হবে যে তিনি সর্বদা অসম্পূর্ণ বা এমনকি ভুল ডেটা পেতে পারেন। তিনি প্রোগ্রামটি লিখেছিলেন, এর ফলাফলগুলিতে বিশ্বাস করেছিলেন এবং তারপরে জানতে পারেন যে এক হাজারের মধ্যে একটি সার্ভারের পতনের কারণে ডেটার অংশটি বন্ধ হয়ে গেছে এবং সমস্ত সিদ্ধান্তে ভুল ছিল।
উদাহরণস্বরূপ, পাঠ্য সন্ধান করুন। আসুন আমরা বলি যে সমস্ত শব্দ বেশ কয়েকটি সার্ভারে বর্ণানুক্রমিকভাবে সাজানো হয়েছে (এটিকে খুব সরল ও শর্তযুক্ত করার জন্য)। এবং তারপরে একটি বন্ধ হয়ে যায়, “কে” অক্ষরের সমস্ত শব্দ অদৃশ্য হয়ে যায়। অনুসন্ধান “সিনেমা” শব্দটি দেওয়া বন্ধ করে দিয়েছে। তারপরে সমস্ত সংবাদ অদৃশ্য হয়ে যায় এবং বিশ্লেষক এই মিথ্যা উপসংহারে পৌঁছে দেয় যে লোকেরা আর সিনেমা হলে আগ্রহী না।
অতএব, একজন বড় ডেটা বৈজ্ঞানিককে অবশ্যই সর্বনিম্ন স্তরের – সার্ভার, বাস্তুসংস্থান, টাস্ক শিডিয়ুলার – সর্বোচ্চ স্তরের প্রোগ্রামগুলি – মেশিন লার্নিং গ্রন্থাগার, পরিসংখ্যান বিশ্লেষণ এবং আরও অনেক কিছু থেকে কাজের নীতিগুলি জানতে হবে। তাকে অবশ্যই হার্ডওয়্যার, কম্পিউটার সরঞ্জাম এবং তার উপরে কনফিগার করা সমস্ত কিছুর নীতিগুলি বুঝতে হবে।
বাকিগুলির জন্য, আপনাকে ছোট ডেটার সাথে কাজ করার সময় সমস্ত কিছুই একইভাবে জানতে হবে। আপনার গাণিতিক প্রয়োজন, আপনাকে ডেটা এবং মেশিন লার্নিংয়ের সাথে কাজ করার সাধারণ নীতিগুলিতে প্রয়োগ করতে সক্ষম হতে বিতরণকৃত কম্পিউটিং অ্যালগরিদমগুলির সাথে প্রোগ্রাম করতে এবং বিশেষত পরিচিত হতে হবে।
কোন বড় ডেটা সরঞ্জাম এবং প্রযুক্তি ব্যবহার করা হয়
যেহেতু ডেটা একটি ক্লাস্টারে সংরক্ষিত রয়েছে, তাই এটির সাথে কাজ করার জন্য একটি বিশেষ অবকাঠামো প্রয়োজন। সর্বাধিক জনপ্রিয় ইকোসিস্টেম হ্যাডোপ। এতে প্রচুর বিভিন্ন সিস্টেম চলতে পারে: বিশেষ গ্রন্থাগার, সময়সূচী, মেশিন শেখার সরঞ্জাম এবং আরও অনেক কিছু more তবে সবার আগে, বিতরণকৃত কম্পিউটিংয়ের মাধ্যমে প্রচুর পরিমাণে ডেটা বিশ্লেষণ করার জন্য এই সিস্টেমটির প্রয়োজন।
উদাহরণস্বরূপ, আমরা এক হাজার সার্ভার জুড়ে সর্বাধিক জনপ্রিয় টুইটটি খুঁজছি। একটি সার্ভারে, আমরা কেবল একটি টেবিল তৈরি করব এবং এটিই। এখানে আমরা সমস্ত ডেটা নিজের কাছে টেনে আনতে পারি এবং পুনরায় গণনা করতে পারি। তবে এটি সঠিক নয়, কারণ এটি খুব দীর্ঘ সময় নেয়।
অতএব, মানচিত্র হ্রাস প্যারাডিজম এবং স্পার্ক ফ্রেমওয়ার্ক সহ হ্যাডোপ রয়েছে। নিজের কাছে ডেটা টানার পরিবর্তে তারা এই ডেটাতে প্রোগ্রাম বিভাগগুলি প্রেরণ করে। কাজ সমান্তরালভাবে চলছে, এক হাজার থ্রেডে। তারপরে আপনি হাজার হাজার সার্ভারের একটি নমুনা পাবেন যার ভিত্তিতে আপনি সর্বাধিক জনপ্রিয় টুইটটি নির্বাচন করতে পারেন।
মানচিত্র হ্রাস হ'ল একটি পুরানো দৃষ্টান্ত, স্পার্ক আরও নতুন। এর সাহায্যে তারা ক্লাস্টারগুলি থেকে ডেটা পায় এবং এতে মেশিন লার্নিং মডেল তৈরি করে।
রাশিয়ায় বড় তথ্য বাজার
রাশিয়া সহ পুরো বিশ্ব ব্যাংকিং, যোগাযোগ পরিষেবা এবং খুচরা ক্ষেত্রে বিগ ডেটা প্রযুক্তি ব্যবহার করে। বিশেষজ্ঞরা বিশ্বাস করেন যে ভবিষ্যতে এই প্রযুক্তিটি পরিবহন শিল্প, তেল ও গ্যাস এবং খাদ্য শিল্পের পাশাপাশি শক্তি ব্যবহার করবে।
আইডিসি বিশ্লেষকরা রাশিয়ার বিডিএর বৃহত্তম আঞ্চলিক বাজার হিসাবে স্বীকৃতি দিয়েছেন। রাজস্ব এ বছর $ ১.৪ বিলিয়ন ডলার কাছাকাছি অনুমান করা হয়েছে এবং বড় ডেটা এবং ব্যবসায়িক গোয়েন্দা অ্যাপ্লিকেশন খাতে মোট বিনিয়োগের ৪০% হবে।
বড় ডেটা ক্ষেত্রে কী পেশা রয়েছে
দুটি প্রধান পেশা হলেন বিশ্লেষক এবং ডেটা ইঞ্জিনিয়ার।
বিশ্লেষক প্রাথমিকভাবে তথ্য নিয়ে কাজ করে। তিনি টেবুলার ডেটাতে আগ্রহী, তিনি মডেলগুলিতে নিযুক্ত হন। তার দায়িত্বগুলির মধ্যে ডেটাগুলিকে একত্রিত করা, পরিষ্কার করা, বাড়ানো এবং ভিজ্যুয়ালাইজ করা অন্তর্ভুক্ত। যে, বড় তথ্য বিশ্লেষক হ'ল কাঁচা তথ্য এবং ব্যবসায়ের মধ্যে লিঙ্ক।
বিশ্লেষকের কাজের দুটি প্রধান লাইন রয়েছে। প্রথমত, তিনি প্রাপ্ত তথ্যগুলিকে রূপান্তর করতে, সিদ্ধান্তে আঁকতে এবং এটি একটি বোধগম্য আকারে উপস্থাপন করতে পারেন।
দ্বিতীয়ত, বিশ্লেষকরা এমন অ্যাপ্লিকেশনগুলি বিকাশ করে যা কাজ করে এবং স্বয়ংক্রিয়ভাবে ফলাফল দেয়। উদাহরণস্বরূপ, শেয়ার বাজারের জন্য প্রতিদিন একটি পূর্বাভাস তৈরি করুন।
তারিখ ইঞ্জিনিয়ার নিম্ন স্তরের বিশেষত্ব। এই সেই ব্যক্তি যিনি বিশ্লেষকের কাছে অবশ্যই স্টোরেজ, প্রক্রিয়াকরণ এবং তথ্য সরবরাহ নিশ্চিত করতে হবে। কিন্তু যেখানে সরবরাহ এবং পরিষ্কারের ব্যবস্থা রয়েছে সেখানে তাদের দায়িত্বগুলি ওভারল্যাপ করতে পারে।
বিগডাটা ইঞ্জিনিয়ার সব পরিশ্রম পেয়ে যায়। যদি সিস্টেমগুলি ব্যর্থ হয়, বা সার্ভারগুলির মধ্যে একটি ক্লাস্টার থেকে অদৃশ্য হয়ে গেছে, এটি সংযোগ স্থাপন করে। এটি একটি খুব চাহিদা এবং চাপ কাজ। সিস্টেমটি সাপ্তাহিক ছুটিতে এবং কয়েক ঘন্টা পরে বন্ধ হয়ে যেতে পারে এবং প্রকৌশলীকে অবিলম্বে পদক্ষেপ নিতে হবে।
এগুলি দুটি প্রধান পেশা, তবে অন্যগুলিও রয়েছে। যখন সমান্তরাল কম্পিউটিং অ্যালগরিদমগুলি কৃত্রিম বুদ্ধি সম্পর্কিত কাজগুলিতে যুক্ত করা হয় তখন এগুলি উপস্থিত হয়। উদাহরণস্বরূপ, একজন এনএলপি ইঞ্জিনিয়ার। এটি এমন একজন প্রোগ্রামার যিনি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ নিয়ে কাজ করেন, বিশেষত এমন ক্ষেত্রে যেখানে কেবল শব্দগুলি খুঁজে পাওয়া নয়, তবে পাঠ্যের অর্থ উপলব্ধি করা প্রয়োজন। এই জাতীয় প্রকৌশলীরা চ্যাট বট এবং সংলাপ সিস্টেম, ভয়েস সহায়ক এবং স্বয়ংক্রিয় কল সেন্টারগুলির জন্য প্রোগ্রাম লেখেন।
এমন পরিস্থিতিতে রয়েছে যখন আপনাকে কোটি কোটি চিত্রগুলিকে শ্রেণিবদ্ধ করা, সংযম করা, অপ্রয়োজনীয় জিনিসগুলি ফিল্টার আউট করা এবং অনুরূপ চিত্রগুলি সন্ধান করতে হবে। এই পেশাগুলি কম্পিউটার ভিশন সঙ্গে আরও ওভারল্যাপ করে।
প্রশিক্ষণ কত সময় নিতে পারে
আমরা দেড় বছর ধরে প্রশিক্ষণ দিয়ে আসছি। এগুলি ছয়টি কোয়াটারে বিভক্ত। কিছু প্রোগ্রামিংয়ে ফোকাস করে, কেউ ডাটাবেস নিয়ে কাজ করে এবং অন্যরা গণিতে on
উদাহরণস্বরূপ, এআই অনুষদের বিপরীতে এখানে কম গণিত রয়েছে। ক্যালকুলাস এবং লিনিয়ার বীজগণিতের জন্য এরকম শক্ত জোর নেই। ক্যালকুলাসের নীতিগুলির চেয়ে বিতরণকারী কম্পিউটিং অ্যালগরিদমগুলির জ্ঞানের প্রয়োজন বেশি।
তবে বড় ডেটা প্রসেসিংয়ের সাথে সত্যিকারের কাজের জন্য দেড় বছর কেবলমাত্র যদি একজন ব্যক্তির সাধারণ ডেটা এবং আইটি-তে সাধারণভাবে কাজ করার অভিজ্ঞতা থাকে। অনুষদ থেকে গ্র্যাজুয়েশন শেষে বাকি শিক্ষার্থীদের ছোট ও মাঝারি ডেটা নিয়ে কাজ করতে উত্সাহিত করা হয়। এর পরে কেবলমাত্র কোনও বিশেষজ্ঞকে বড়দের সাথে কাজ করার অনুমতি দেওয়া যেতে পারে। প্রশিক্ষণের পরে, ডেটা বিজ্ঞানী হিসাবে কাজ করা মূল্য – বিভিন্ন পরিমাণে ডেটাতে মেশিন লার্নিং প্রয়োগ করা।
কোনও ব্যক্তি যখন একটি বড় সংস্থায় চাকরি পান – এমনকি তার অভিজ্ঞতা থাকলেও – বেশিরভাগ সময়ই তিনি এখনই তাত্ক্ষণিকভাবে প্রচুর পরিমাণে ডেটাতে ভর্তি হতে পারবেন না কারণ সেখানে ত্রুটির ব্যয় অনেক বেশি। অ্যালগরিদমগুলিতে ত্রুটিগুলি তাত্ক্ষণিকভাবে সনাক্ত করা যায় না এবং এর ফলে বড় ক্ষতি হয়।
বিগ-ডেটা প্রযুক্তি কীভাবে কাজ করে?
সামাজিক নেটওয়ার্ক ফেসবুকের ব্যবহারকারীরা প্রতিদিন শত শত টেরাবাইটের জন্য ফটো, ভিডিও আপলোড এবং ক্রিয়া করেন। উন্নতিতে যত লোক অংশ নেয় না কেন, তারা তথ্যের অবিচ্ছিন্ন প্রবাহকে মোকাবেলা করবে না। পরিষেবাটি আরও বিকাশ করতে এবং সাইটগুলিকে আরও আরামদায়ক করতে – স্মার্ট কন্টেন্টের সুপারিশগুলি প্রয়োগ করতে, ব্যবহারকারীর সাথে প্রাসঙ্গিক বিজ্ঞাপন প্রদর্শন করতে কয়েক লক্ষ টেরাবাইট অ্যালগরিদমের মধ্য দিয়ে যায় এবং কাঠামোগত এবং বোধগম্য তথ্য প্রাপ্ত হয়।
বিপুল পরিমাণের তথ্যের তুলনা করে এর মধ্যে সম্পর্কের সন্ধান পাওয়া যায়। একটি নির্দিষ্ট সম্ভাবনার সাথে এই সম্পর্কগুলি ভবিষ্যতের পূর্বাভাস দিতে পারে। কৃত্রিম বুদ্ধি একজন ব্যক্তিকে সন্ধান এবং বিশ্লেষণ করতে সহায়তা করে।
নিউরাল নেটওয়ার্ক হাজার হাজার ফটো, ভিডিও, মন্তব্যগুলি স্ক্যান করে – সেগুলি খুব কয়েকশো টেরাবাইট বিগ ডেটা করে এবং ফলাফল দেয়: কতজন সন্তুষ্ট গ্রাহক স্টোর ছেড়ে যান, পরের কয়েক ঘন্টাগুলিতে ট্র্যাফিক জ্যাম থাকবে কিনা, কোন আলোচনা জনপ্রিয়? সামাজিক নেটওয়ার্কে এবং আরও অনেক কিছু।
বড় ডেটা নিয়ে কাজ করার পদ্ধতি:
- মেশিন লার্নিং
- অনুভূতির বিশ্লেষণ
- সামাজিক নেটওয়ার্ক বিশ্লেষণ
- বিধি বিধান সমিতি
- শ্রেণিবিন্যাস গাছ বিশ্লেষণ
- জেনেটিক আলগোরিদিম
- রিগ্রেশন বিশ্লেষণ
বিশ্লেষণ এবং প্রক্রিয়াজাতকরণ কৌশল

বিপুল পরিমাণে তথ্য বিশ্লেষণের মূল পদ্ধতির মধ্যে রয়েছে:
- গভীর বিশ্লেষণ, ডেটা শ্রেণিবদ্ধকরণ। এই কৌশলগুলি প্রযুক্তি থেকে এসেছে ছোট অ্যারেগুলিতে প্রচলিত কাঠামোগত তথ্যের সাথে কাজ করার জন্য। তবে, নতুন পরিবেশটি ডিজিটাল ক্ষেত্রে অগ্রগতির ভিত্তিতে উন্নত গাণিতিক অ্যালগোরিদম ব্যবহার করে।
- ক্রাউডসোর্সিং। এই প্রযুক্তির কেন্দ্রবিন্দুতে একাধিক উত্স থেকে কয়েক বিলিয়ন বাইট প্রবাহ গ্রহণ এবং প্রক্রিয়া করার ক্ষমতা। “সরবরাহকারী” এর সীমাবদ্ধ সংখ্যা কোনও কিছুর দ্বারা সীমাবদ্ধ নয়। এটা কি কেবল সিস্টেমের শক্তি?
- বিভক্ত পরীক্ষা। অ্যারে থেকে বেশ কয়েকটি উপাদান নির্বাচন করা হয়, যা একে অপরের সাথে পর্যায়ক্রমে “পূর্বে” এবং “পরে” পরিবর্তনের সাথে তুলনা করা হয়। এবি পরীক্ষাগুলি কোন উপাদানগুলির উপাদানগুলির উপর সবচেয়ে বেশি প্রভাব ফেলে তা নির্ধারণে সহায়তা করে। উদাহরণস্বরূপ, বিভক্ত পরীক্ষাটি ব্যবহার করে, আপনি ধীরে ধীরে একটি নির্ভরযোগ্য ফলাফলের কাছে পৌঁছানোর প্রচুর পরিমাণে পুনরাবৃত্তি চালিয়ে যেতে পারেন।
- পূর্বাভাস। বিশ্লেষকরা আগে থেকেই সিস্টেমে কিছু নির্দিষ্ট পরামিতি সেট করার চেষ্টা করেন এবং তারপরে বিপুল পরিমাণে তথ্যের আগমনের ভিত্তিতে অবজেক্টের আচরণটি পরীক্ষা করে দেখেন।
- মেশিন লার্নিং। ভবিষ্যতে কৃত্রিম বুদ্ধি বিপুল পরিমাণে সিস্টেমেটিক ডেটা শোষণ এবং প্রক্রিয়া করতে সক্ষম হয়, পরে সেগুলি স্ব-অধ্যয়নের জন্য ব্যবহার করে।
- নেটওয়ার্ক ক্রিয়াকলাপ বিশ্লেষণ। সামাজিক নেটওয়ার্কগুলি, অ্যাকাউন্টধারীদের, গোষ্ঠীগুলির এবং সম্প্রদায়ের মধ্যে সম্পর্কের বিষয়ে গবেষণা করতে বড় ডেটা কৌশল ব্যবহার করা হয়। এর ভিত্তিতে, লক্ষ্য শ্রোতাগুলি আগ্রহ, ভূ-অবস্থান, বয়স এবং অন্যান্য মেট্রিক দ্বারা তৈরি হয়।
ডেটা মাইনিং – কীভাবে বড় ডেটা সংগ্রহ এবং প্রক্রিয়াজাত করা হয়
বিশ্লেষণের জন্য একটি প্রচলিত সম্পর্কিত ডেটাবেজে বড় ডেটা লোড করাতে অনেক সময় এবং অর্থ লাগে। এই কারণে, তথ্য সংগ্রহ এবং বিশ্লেষণের জন্য বিশেষ পন্থা উপস্থিত হয়েছে। তথ্য গ্রহণ এবং তারপরে তথ্য বের করতে, তারা এটিকে একত্রিত করে একটি “ডেটা হ্রদে” রাখে there সেখান থেকে, কৃত্রিম বুদ্ধিমত্তার প্রোগ্রামগুলি জটিল অ্যালগরিদম ব্যবহার করে পুনরাবৃত্তি প্যাটার্নগুলি সন্ধান করে।
সংগ্রহস্থল এবং প্রক্রিয়াজাতকরণ নিম্নলিখিত সরঞ্জামগুলির সাথে সঞ্চালিত হয়:
- অ্যাপাচি HADOOP একটি ব্যাচ-ভিত্তিক ডেটা প্রসেসিং সিস্টেম। সিস্টেমটি একাধিক মেশিন এবং স্কেলগুলিতে কয়েক হাজার সার্ভারে তথ্য সঞ্চয় এবং ট্র্যাক করে।
- এইচপিপিসি একটি ওপেন সোর্স প্ল্যাটফর্ম যা লেক্সিসনেক্সিস রিস্ক সলিউশন দ্বারা নির্মিত। এইচপিপিসি ব্যাচ এবং রিয়েল-টাইম ডেটা প্রসেসিং উভয়কে সমর্থন করে ডেটা অ্যানালিটিকস সুপার কম্পিউটার (ডিএএস) হিসাবে পরিচিত। সিস্টেমটি প্রচলিত কম্পিউটারগুলির সুপার কম্পিউটার এবং ক্লাস্টার ব্যবহার করে।
- ঝড় – বাস্তব সময়ে তথ্য প্রক্রিয়া করে। ওপেন সোর্স এক্সিলিপ পাবলিক লাইসেন্স ব্যবহার করে।
এটা কি কাজে লাগে?
একটি নির্দিষ্ট অবজেক্ট বা ঘটনা সম্পর্কে আমরা যত বেশি জানি, ততই নির্ভুলভাবে আমরা সারাংশটি উপলব্ধি করতে পারি এবং ভবিষ্যতের ভবিষ্যদ্বাণী করতে পারি। সেন্সর, ইন্টারনেট এবং লেনদেনের ক্রিয়াকলাপগুলির কাছ থেকে ডেটা স্ট্রিম ক্যাপচার এবং প্রক্রিয়াজাতকরণের মাধ্যমে সংস্থাগুলি পণ্যগুলির চাহিদা মোটামুটি নির্ভুলভাবে পূর্বাভাস দিতে পারে এবং জরুরি পরিষেবাগুলি মানব-নির্মিত বিপর্যয় রোধ করতে পারে। ব্যবসা এবং বিপণনের বাইরের কয়েকটি উদাহরণ এখানে কীভাবে বড় ডেটা প্রযুক্তি ব্যবহার করা হয়:
- স্বাস্থ্যসেবা। রোগ সম্পর্কে আরও জ্ঞান, আরও চিকিত্সার বিকল্পগুলি, ওষুধ সম্পর্কে আরও তথ্য – এগুলি আমাদের 40-50 বছর আগে অসম্পূর্ণ বিবেচিত রোগগুলির সাথে লড়াই করতে সহায়তা করে।
- প্রাকৃতিক ও মানবসৃষ্ট বিপর্যয় রোধ। এই অঞ্চলের সবচেয়ে সঠিক পূর্বাভাস হাজার হাজার জীবন বাঁচায়। বুদ্ধিমান মেশিনগুলির কাজ হ'ল বিভিন্ন সেন্সর পঠন সংগ্রহ এবং প্রক্রিয়া করা এবং তাদের ভিত্তিতে, লোকদের একটি সম্ভাব্য বিপর্যয়ের তারিখ এবং স্থান নির্ধারণে সহায়তা করা।
- আইন প্রয়োগকারী সংস্থা. বড় বড় ডেটা বিভিন্ন দেশে অপরাধের স্পাইকের পূর্বাভাস দিতে এবং পরিস্থিতি যেখানে ডাকে সেখানে প্রতিরোধমূলক ব্যবস্থা গ্রহণে ব্যবহৃত হয়।
ব্যবসা এবং বিপণনে বড় ডেটা
ব্যবসায়ের বিকাশের কৌশল, বিপণনের ক্রিয়াকলাপ, বিজ্ঞাপন বিশ্লেষণের ভিত্তিতে এবং উপলভ্য ডেটা নিয়ে কাজ করে। বড় অ্যারে বিপুল পরিমাণে ডেটা “স্থানান্তরিত” করতে দেয় এবং তদনুসারে, কোনও ব্র্যান্ড, পণ্য, পরিষেবা যতটা সম্ভব যথাযথভাবে উন্নয়নের দিকটি সামঞ্জস্য করে।
উদাহরণস্বরূপ, প্রাসঙ্গিক বিজ্ঞাপনে আরটিবি নিলাম বড় ডেটার সাথে কাজ করে, যা আপনাকে কার্যকরভাবে একটি উত্সর্গীকৃত লক্ষ্য দর্শকদের জন্য বাণিজ্যিক অফারগুলির বিজ্ঞাপন করতে দেয় এবং সবার জন্য নয়।
ব্যবসায়ের জন্য কী কী সুবিধা রয়েছে:
- এমন প্রকল্পগুলি তৈরি করা যা ব্যবহারকারী এবং ক্রেতাদের মধ্যে চাহিদা হয়ে থাকে।
- সংস্থার বিদ্যমান পরিষেবার সাথে গ্রাহকের প্রয়োজনীয়তার অধ্যয়ন এবং বিশ্লেষণ। গণনার ভিত্তিতে, পরিষেবা কর্মীদের কাজ সংশোধন করা হয়।
- ব্লগ, সামাজিক নেটওয়ার্ক এবং অন্যান্য উত্স থেকে বিভিন্ন তথ্য বিশ্লেষণ করে গ্রাহক বেসের আনুগত্য এবং অসন্তুষ্টি প্রকাশ করে।
- বিপুল পরিমাণে তথ্য বিশ্লেষণমূলক কাজের মাধ্যমে লক্ষ্য দর্শকদের আকর্ষণ এবং ধরে রাখা।
প্রযুক্তিগুলির ব্যবহার পণ্যের জনপ্রিয়তার পূর্বাভাস দেওয়ার জন্য, উদাহরণস্বরূপ, গুগল ট্রেন্ডস পরিষেবা এবং ইয়ানডেক্স ব্যবহার করে। ওয়ার্ডস্ট্যাট (রাশিয়া এবং সিআইএসের জন্য)।
আইবিএম, গুগল, ফেসবুক এবং আর্থিক কর্পোরেশনগুলি – ভিসা, মাস্টার কার্ড, পাশাপাশি বিশ্বজুড়ে মন্ত্রকগুলি সমস্ত বড় সংস্থাগুলি দ্বারা বড় ডেটা পদ্ধতি ব্যবহার করা হয়। উদাহরণস্বরূপ, জার্মানিতে বেকারত্বের সুবিধা জারি করা হ্রাস পেয়েছিল, গণনা করে যে কিছু নাগরিক কারণ ছাড়াই তাদের গ্রহণ করে receive সুতরাং, প্রায় 15 বিলিয়ন ইউরো বাজেটে ফিরে আসা সম্ভব হয়েছিল।
ব্যবহারকারীর ডেটা ফাঁসের কারণে সাম্প্রতিক ফেসবুক কেলেঙ্কারীটি সূচিত করে যে অরক্ষিত তথ্যের পরিমাণগুলি বাড়ছে এবং ডিজিটাল যুগের মাস্টারগুলিও সর্বদা তাদের সম্পূর্ণ গোপনীয়তা নিশ্চিত করতে পারে না।
উদাহরণস্বরূপ, গ্রাহক অ্যাকাউন্টগুলির সাথে প্রতারণামূলক লেনদেন রোধ করতে মাস্টার কার্ড বড় ডেটা ব্যবহার করে। সুতরাং, বার্ষিক চুরি থেকে 3 বিলিয়ন মার্কিন ডলারেরও বেশি সাশ্রয় করা সম্ভব।
গেমিংয়ের ক্ষেত্রে, বড় ডেটা আপনাকে খেলোয়াড়দের আচরণ বিশ্লেষণ করতে, সক্রিয় দর্শকদের পছন্দগুলি সনাক্ত করতে এবং এর ভিত্তিতে গেমটির প্রতি আগ্রহের মাত্রাটি অনুমান করতে দেয়।
আজ, ব্যবসাগুলি তাদের নিজের গ্রাহকদের সম্পর্কে আমরা নিজের সম্পর্কে যত বেশি জানি তার কারণেই কোকা কোলা এবং অন্যান্য কর্পোরেশনের বিজ্ঞাপন প্রচার প্রচুর পরিমাণে সাফল্য।
বিগ-ডেটা নিয়ে সমস্যা
বড় তারিখ আমাদের অভূতপূর্ব অন্তর্দৃষ্টি এবং সুযোগ দেয় তবে এটি এমন সমস্যা এবং প্রশ্ন উত্থাপন করে যা সমাধান করা দরকার:
- ডেটা গোপনীয়তা – আমরা আজ যে বিগ-ডেটা উত্পন্ন করি তাতে আমাদের ব্যক্তিগত জীবন সম্পর্কিত গোপনীয়তা সম্পর্কে আমাদের প্রচুর তথ্য রয়েছে। ক্রমবর্ধমানভাবে, আমাদের কাছে প্রকাশিত ব্যক্তিগত ডেটার পরিমাণ এবং বিগ ডেট অ্যাপস এবং পরিষেবাদিগুলির সুবিধার মধ্যে যে ভারসাম্য রয়েছে তার মধ্যে ভারসাম্য খুঁজে পেতে বলা হয়।
- ডেটা সুরক্ষা – এমনকি যদি আমরা সিদ্ধান্ত নিই যে কারও কাছে একটি নির্দিষ্ট উদ্দেশ্যে আমাদের ডেটা রয়েছে তা নিয়ে আমরা খুশি, আমরা কি তাদের ডেটা সুরক্ষা এবং সুরক্ষার সাথে বিশ্বাস করতে পারি?
- ডেটার বিরুদ্ধে বৈষম্য – যখন সমস্ত তথ্য জানা যায়, তখন কি তাদের ব্যক্তিগত জীবন থেকে প্রাপ্ত তথ্যের উপর ভিত্তি করে লোকদের প্রতি বৈষম্য গ্রহণযোগ্য হবে? কারা moneyণ গ্রহণ করতে পারে তা সিদ্ধান্ত নিতে আমরা ইতিমধ্যে ক্রেডিট স্কোর ব্যবহার করি এবং বীমাও ডেটাগুলির উপর নির্ভর করে। আমাদের আরও বিশদ বিশ্লেষণ ও মূল্যায়ন হওয়ার আশা করা উচিত, তবে এটি যাতে কম সংস্থান এবং তথ্যের সীমিত অ্যাক্সেসযুক্তদের জীবনকে জটিল না করে সেদিকে খেয়াল রাখতে হবে।
এই কার্যগুলি পূরণ করা বড় তারিখগুলির একটি গুরুত্বপূর্ণ অংশ, এবং এ জাতীয় ডেটা ব্যবহার করতে চায় এমন সংস্থাগুলি দ্বারা তাদেরকে সম্বোধন করা দরকার। এটি করতে ব্যর্থতা ব্যবসায়কে কেবল তার সুনামের দিক থেকে নয়, আইনী ও আর্থিক দিক থেকেও দুর্বল করে তুলতে পারে।
বিগ ডেটের আশ্চর্যজনক উত্থান
ডিজিটাল যুগের শুরু থেকেই আমরা যে পরিমাণ ডেটা তৈরি করেছি তার বিস্ফোরণ দিয়ে এটি শুরু হয়েছিল। এটি মূলত কম্পিউটার, আমাদের চারপাশের বিশ্ব থেকে ডেটা “ছিনিয়ে নিতে সক্ষম” প্রযুক্তি এবং প্রযুক্তিগুলির বিকাশের কারণে। একমাত্র ডেটা কোনও নতুন আবিষ্কার নয়। কম্পিউটার এবং ডাটাবেসের যুগের আগেও, আমরা কাগজ লেনদেনের রেকর্ড, গ্রাহক রেকর্ড এবং সংরক্ষণাগার ফাইলগুলি ব্যবহার করি যা ডেটা। কম্পিউটারগুলি, বিশেষত স্প্রেডশিট এবং ডাটাবেসগুলি আমাদের জন্য বৃহত আকারে ডেটা সংরক্ষণ এবং সংগঠিত করা সহজ করে তুলেছে। হঠাৎ করেই, মাউসের একক ক্লিকের সাথে তথ্য পাওয়া গেল।
তবে আমরা মূল টেবিল এবং ডাটাবেসগুলি থেকে অনেক দূরে এসেছি। আজ, প্রতি দু'দিন পরে, আমরা 2000 সাল অবধি প্রথম থেকেই যতটা তথ্য পেয়েছি তা তৈরি করি। ঠিক আছে, প্রতি দুদিন পরেই। এবং আমরা যে পরিমাণ ডেটা তৈরি করি তা দ্রুত বাড়তে থাকে; 2020 এর মধ্যে, উপলব্ধ ডিজিটাল তথ্যের পরিমাণ প্রায় 5 জেটটাবাইট থেকে 20 জেটটাবাইটে বৃদ্ধি পাবে।
আজকাল, আমরা প্রায় প্রতিটি পদক্ষেপই এর চিহ্ন ছেড়ে যায়। আমরা যখনই অনলাইনে যাই তখনই আমরা ডেটা তৈরি করি, যখন আমরা অনুসন্ধান মডিউলে সজ্জিত স্মার্টফোনগুলি স্থানান্তর করি, যখন আমরা সামাজিক নেটওয়ার্ক বা চ্যাট ইত্যাদির মাধ্যমে আমাদের বন্ধুদের সাথে কথা বলি when এছাড়াও, মেশিন-উত্পাদিত ডেটার পরিমাণও দ্রুত বাড়ছে। যখন আমাদের স্মার্ট হোম ডিভাইসগুলি একে অপরের সাথে বা তাদের হোম সার্ভারের সাথে যোগাযোগ করে তখন ডেটা উত্পন্ন এবং বিতরণ করা হয়। কারখানা এবং কারখানায় শিল্প সরঞ্জাম ক্রমবর্ধমান সেন্সরগুলিতে সজ্জিত যা ডেটা সংগ্রহ এবং প্রেরণ করে।
“বিগ-ডেটা” শব্দটি এই সমস্ত ডেটা সংগ্রহ এবং ব্যবসায় সহ বিভিন্ন ক্ষেত্রে আমাদের সুবিধার জন্য এটি ব্যবহারের আমাদের দক্ষতা বোঝায়।
বিগ ডেট ব্যবহারের সম্ভাবনা
ব্লকচেইন এবং বিগ ডেটা দুটি বিকশিত এবং পরিপূরক প্রযুক্তি। ২০১ 2016 সাল থেকে মিডিয়াতে ব্লকচেইন ব্যাপক আলোচিত হয়েছে। এটি তথ্য সংরক্ষণ এবং প্রেরণের জন্য ক্রিপ্টোগ্রাফিকভাবে সুরক্ষিত বিতরণ ডাটাবেস প্রযুক্তি। ব্যক্তিগত এবং গোপনীয় তথ্যের সুরক্ষা একটি জরুরি এবং ভবিষ্যতের বড় ডেটা সমস্যা যা ব্লকচেইন সমাধান করতে পারে।
প্রায় প্রতিটি শিল্প বিগ ডেটা বিশ্লেষণে বিনিয়োগ শুরু করেছে, তবে কিছু অন্যের চেয়ে বেশি বিনিয়োগ করছে। আইডিসির মতে, তারা ব্যাংকিং, স্বতন্ত্র উত্পাদন, প্রক্রিয়াজাতকরণ উত্পাদন এবং পেশাদার পরিষেবাগুলিতে বেশি ব্যয় করে। উইকিবনের গবেষণা অনুসারে, 2018 সালে বিশ্ব বাজারে প্রোগ্রাম এবং পরিষেবা বিক্রয় থেকে আয় $ 42 বিলিয়ন ডলার হয়েছে, এবং 2027 সালে 100 বিলিয়ন ডলার ছাড়িয়ে যাবে।
নিমাইথের অনুমান, ২০৩০ সালের মধ্যে ব্লকচেইন মোট বড় ডেটা বাজারের 20% হয়ে যাবে, যা বার্ষিক আয় থেকে 100 বিলিয়ন ডলার আয় করবে। এটি পেপাল, ভিসা এবং মাস্টারকার্ডের মার্জিনগুলিকে একত্রিত করে।
বিগ ডেটা বিশ্লেষণগুলি লেনদেন ট্র্যাক করার জন্য গুরুত্বপূর্ণ হবে এবং ব্লকচেইন সংস্থাগুলিকে গোপনীয় স্কিমগুলি উদঘাটন করতে সক্ষম করবে এবং তারা ব্লকচেইনের সাথে কাদের সাথে যোগাযোগ করে তা নির্ধারণ করতে সক্ষম করবে।
সারসংক্ষেপ
আমরা শিখেছি বড় ডেটা কী? আমরা এই প্রযুক্তিটি কীভাবে কাজ করে তা দেখেছি, যার জন্য তথ্যের অ্যারে ব্যবহার করা হয়। আমরা বড় ডেটা নিয়ে কাজ করার নীতি এবং পদ্ধতিগুলির সাথে পরিচিত হই।
আমরা রিক স্মোলান এবং জেনিফার এরউইটের হিউম্যান ফেস অফ বিগ ডেটা পড়ার এবং মাইকেল স্টেইনবাচ, বিপিন কুমার এবং পাং-নিং টান দ্বারা ডেটা মাইনিংয়ের পরিচিতি পড়ার প্রস্তাব দিই।
উত্স ব্যবহৃত হয়েছে এবং এই বিষয়ে দরকারী লিঙ্কগুলি: https://www.calltouch.ru/glossary/big-data/ https: // Mining- Crypto اٹھا https: //clubshuttle.ru/tehnologiya-big-data-prostymi-slovami

