Big Dataچیست و چرا اهمیت دارد

Big Data اصطلاحی رایج است که رشد و در دسترس بودن داده، چه ساختارمند و چه غیرساختارمند، را توصیف می ­کند. Big Data ممکن است به اندازه اینترنت برای کسب ­و­کار – و جامعه – مهم باشد. چرا؟ داده ­های بیشتر به تحلیل ­های دقیق ­تر می ­انجامد. تحلیل ­های دقیق ­تر منجر به تصمیم­ گیر ی­های مطمئن بیشتری شده و تصمیمات بهتر، می ­تواند معنای کارایی بیشتر عملیات، کاهش هزینه ­ها و کاهش ریسک­ ها باشد.

Big Data واژه ­ای است برای مجموع ه­ای از ست داده ­های بسیار بزرگ و پیچیده، که استفاده از ابزارهای مدیریت پایگاه داده در دست و یا برنامه ­های کاربردی سنتی پردازش داده، برای پردازش آن­ها دشوار خواهد بود. چالش­ ها شامل استخراج، Curation، ذخیره ­سازی، جستجو، اشتراک، انتقال، آنالیز و بصری ­سازی است. در سال 2012، محدودیت اندازه ست داده ­ها، با زمان پردازش معقول، بر اگزابایت، میلیون ترابایت، قرار داشت.

کار با Big Data با استفاده از سیستم ­های مدیریت دیتابیس ­های رابطه ­ای و بسته ­های بصری ­سازی و تحلیل ­های دسکتاپ، دشوار بوده و نیازمند نرم ­افزار بسیار موازی در حال کار بر روی ده­ ها، صدها و یا حتی هزاران سرور هستند. آنچه که Big Data شناخته می ­شود، بنا بر قابلیت ­های سازمان مدیریت کننده آن، و قابلیت­ های برنامه ­های کاربردی که به طور سنتی در آن زمینه داده پردازش و تحلیل می­ کنند، متفاوت است. برای برخی سازمان­ ها، رویارویی با صدها گیگابایت داده برای اولین بار ممکن است نیاز به بازبینی آپشن ­های مدیریت داده را ایجاد کند. برای برخی دیگر، ممکن است تا ده ­ها و صدها ترابایت طول بکشد که سایز داده به موضوعی قابل توجه تبدیل شود.

Big Data

حجم (Volume)

فاکتورهای بسیاری به افزایش حجم داده ­ها کمک می­ کند. داده­ های بر پایه تراکنش ذخیره شده در طی سالیان، داده ­های غیرساختارمند سرازیر شده از رسانه ­های اجتماعی؛ مقدار در حال افزایش داده­ های ماشین-به-ماشین و سنسور جمع ­آوری شده. در گذشته، حجم انبوه داده یک مسئله ذخیره کردن بود. اما با کاهش هزینه های ذخیره، مسائل دیگری سر بر می ­آورند؛ شامل چگونگی تعیین ارتباط در حجم زیاد داده­ ها و چگونگی استفاده از علم تجزیه و تحلیل به منظور ایجاد ارزش از داده ­های مرتبط.

سرعت (Velocity)

داده­ ها با سرعتی بی ­سابقه وارد شده و باید در زمان مناسب به سراغ آن­ها رفت. تگ­ های RFID، سنسورها و اندازه­ گیری هوشمند، نیاز به سر و کله زدن با جریانات داده را در اولین زمان نزدیک به اکنون را ایجاد می­ کنند. واکنش سریع به کار با سرعت داده ­ها، چالشی برای بیشتر سازمان­ هاست.

تنوع (Variety)

داده­ ها به شکل­ های گوناگونی وارد می­ شوند. داده ­های عددی ساختاریافته در پایگاه­ های داده سنتی؛ اطلاعات ایجاد شده از برنامه­ های کاربردی کسب ­و­کار؛ اسناد متنی غیرساختاریافته، ایمیل، صدا و تراکنش­ های مالی. مدیریت، ادغام و حاکمیت بر انواع گوناگون داده، چیزی است که بسیاری از سازمان­ ها هنوز با آن درگیرند.