در دنیای امروزی با رشد فوق العاده سریع دادههای دیجیتال روبرو هستیم به طوری که روزانه میلیونها گیگابایت داده جدید توسط کاربران شبکههای اجتماعی، سامانههای مربوط به جمعآوری داده در سازمانها، حسگرهای صوتی و تصویری، رسانهها و … تولید میشود.
بدیهی است این حجم از دادهها بدون تحلیل و پردازش فاقد کارایی و مفهوم مناسب و کاربردی خواهند بود. اما از سوی دیگر افزایش حجم دادهها پیچیدگیهایی پیرامون تحلیل، جستجو، به اشتراک گذاری، فضای مورد نیاز برای ذخیرهسازی، انتقال، مصورسازی،حریم خصوصی و … به وجود آورده که تحقق آنها را از عهدهی روشهای معمولی تقریبا ناممکن کرده است.
در این حالت ما با داده های بزرگ Big Data مواجه هستیم.
طبق تعریف داده های بزرگ (Big Data)
در سال 2001، تحلیلگر صنعت، داگ لنی (که اکنون با گارتنر کار می کند)، داده های بزرگ یا Big Data را به صورت سه V تعریف کرد: حجم (Volume)، سرعت (Velocity) و تنوع (Variety).
- حجم: فاکتورهای بسیاری به افزایش حجم داده ها کمک می کند. داده های بر پایه تراکنش ذخیره شده در طی سالیان، داده های غیرساختارمند سرازیر شده از رسانه های اجتماعی؛ مقدار در حال افزایش داده های ماشین-به-ماشین و سنسور جمع آوری شده. در گذشته، حجم انبوه داده یک مسئله ذخیره کردن بود. اما با کاهش هزینه های ذخیره، مسائل دیگری سر بر می آورند؛ شامل چگونگی تعیین ارتباط در حجم زیاد داده ها و چگونگی استفاده از علم تجزیه و تحلیل به منظور ایجاد ارزش از داده های مرتبط.
- سرعت: داده ها با سرعتی بی سابقه وارد شده و باید در زمان مناسب به سراغ آنها رفت. تگ های RFID، سنسورها و اندازه گیری هوشمند، نیاز به سر و کله زدن با جریانات داده را در اولین زمان نزدیک به اکنون را ایجاد می کنند. واکنش سریع به کار با سرعت داده ها، چالشی برای بیشتر سازمان هاست.
- تنوع: داده ها به شکل های گوناگونی وارد می شوند. داده های عددی ساختاریافته در پایگاه های داده سنتی؛ اطلاعات ایجاد شده از برنامه های کاربردی کسب وکار؛ اسناد متنی غیرساختاریافته، ایمیل، صدا و تراکنش های مالی. مدیریت، ادغام و حاکمیت بر انواع گوناگون داده، چیزی است که بسیاری از سازمان ها هنوز با آن درگیرند.
چرا Big Data باید برای شما مهم باشد؟
مسئله واقعی این نیست که مقدار زیادی داده به دست آورید؛ این است که با آن چه می کنید. دیدگاه امیدوارانه این است که سازمان ها قادر به تحصیل داده از هر منبعی بوده، داده های مرتبط را تهیه کرده و آن را تحلیل کنند تا پاسخ سؤالاتی را بیابند که 1) کاهش هزینه ها، 2) کاهش زمان، 3) توسعه محصولات جدید و پیشنهادات جدید، و 4) تصمیم گیری هوشمندانه تر کسب وکار را مقدور می سازند. برای مثال، با ترکیب Big Data و تحلیل های قوی، این امکان وجود دارد تا:
- علت های اصلی شکست ها، مسائل و نقوص را در لحظه تعیین کرد تا سالانه تا میلیاردها دلار صرفه جویی کرد.
- مسیر وسیله های حمل بسته های تحویلی را زمانی که هنوز در جاده هستند، بهینه کرد.
- در چند دقیقه تمام سبد ریسک را دوباره حساب کرد.
- سریعاً مشتریانی که بیشترین اهمیت را دارند، شناسایی کرد.
- ……
داده های بزرگ یا Big Data واژه ای است برای مجموع های از ست داده های بسیار بزرگ و پیچیده، که استفاده از ابزارهای مدیریت پایگاه داده در دست و یا برنامه های کاربردی سنتی پردازش داده، برای پردازش آنها دشوار خواهد بود. چالش ها شامل استخراج، Curation، ذخیره سازی، جستجو، اشتراک، انتقال، آنالیز و بصری سازی است. در سال 2012، محدودیت اندازه ست داده ها، با زمان پردازش معقول، بر اگزابایت، میلیون ترابایت، قرار داشت.
کار با Big Data با استفاده از سیستم های مدیریت دیتابیس های رابطه ای و بسته های بصری سازی و تحلیل های دسکتاپ، دشوار بوده و نیازمند نرم افزار بسیار موازی در حال کار بر روی ده ها، صدها و یا حتی هزاران سرور هستند. آنچه که Big Data شناخته می شود، بنا بر قابلیت های سازمان مدیریت کننده آن، و قابلیت های برنامه های کاربردی که به طور سنتی در آن زمینه داده پردازش و تحلیل می کنند، متفاوت است. برای برخی سازمان ها، رویارویی با صدها گیگابایت داده برای اولین بار ممکن است نیاز به بازبینی آپشن های مدیریت داده را ایجاد کند. برای برخی دیگر، ممکن است تا ده ها و صدها ترابایت طول بکشد که سایز داده به موضوعی قابل توجه تبدیل شود.
.
تهیه و گردآوری: تکرا