اهمیت کلانداده برای کسبوکارها و سازمانها روز به روز بیشتر میشود. پیش بینی IDC نشان میدهد که تا سال 2022 درآمد جهانی از دادهها و راهکارهای تحلیلی (analytic solutions) به 260 بیلیون دلار میرسد. به همین خاطر به کلان داده لقب با ارزشترین منبع در اقتصاد دیجیتال دادهاند.
با افزایش محبوبیت کلاندادهها و گسترش ارتباطات، شرکتها و سازمانهای بیشتری به دنبال دستیابی به ظرفیتهای آن هستند. با این حال، مانند بسیاری از نوآوریها، فقط در صورتی میتوان از مزایای کلانداده بهرهمند شد که قابلیتهای آن را به درستی درک کرده باشید.
در اروپا در سال 2018 حدود 140 میلیون دستگاه هوشمند متصل به اینترنت اشیا موجود است که این رقم تا سال 2026 به 740 میلیون میرسد؛ یعنی سرعت بیشتر تبادل اطلاعات و تولید دادههای بیشتر.
در این مقاله به توضیح این که کلانداده چیست و چرا بسیار مفید است، میپردازیم و بررسی میکنیم که چگونه مشاغل و سازمانهای مختلف از آن برای تغییر فرایندهای خود استفاده میکنند.
اطلاع از اهمیت کلاندادهها و نحوه استفاده از آنها برای بهینهسازی و کارآمدی کسبوکارها بسیار مهم است.
این اصطلاح اولین بار 15 سال پیش به وجود آمد تا نشان دهنده تمایز مدیریت این نوع داده با سایر دادهها باشد. یعنی این نوع داده یا به اصلاح کلان داده به شیوه مدیریت سنتی قابل کنترل نیستند.
به بیان ساده، کلانداده اصطلاحی است که حجم زیادی از داده را که یک سازمان روزانه با آن سروکار دارد، توصیف میکند.
بر اساس تعریف Gartner (شرکت پژوهشی و مشاوره آمریکایی که در زمینه ارائه خدمات برونسپاری، تحقیق و پژوهش و مشاوره فناوری اطلاعات فعالیت میکند)، کلاندادهها نوعی داراییهای اطلاعاتی با حجم، تنوع و سرعت بالا هستند که نیاز به پردازشی نوآورانه و مقرون به صرفه، برای تقویت نگرش و تصمیمگیری سازمانها دارند.
کسبوکارها میتوانند با تجزیه و تحلیل کلاندادهها، اطلاعات را به خوبی پردازش کنند، پردازش مناسب اطلاعات، دیدگاه ارزشمندی به آنها ارائه میدهد و در نهایت باعث کاهش هزینهها، تعامل بهتر با مشتریان و رشد بهینه فعالیتهای سازمان میشود.
اگرچه فرایندهای جمعآوری اطلاعات مشتریان، عملیات مختلف تجاری و استفاده از آنها در توسعه استراتژیهای یک مجموعه، کار تازهای نیست ولی اصطلاح کلانداده نسبتا جدید است.
امروزه کلانداده به عنوان سوخت اصلی تحول دیجیتال ظاهر شده است و روزبهروز بر اهمیت آنها افزوده میشود. استفاده از کلانداده در کنار تجزیه و تحلیلهای قدرتمند به کسبوکارها امکان رسیدن به بینش ارزشمندی میدهد که از آن برای رشد، توسعه و مدرنیزه کردن استراتژیها و اصلاح فرایندها میتوانند استفاده کنند. همین دلیلی است که نشان میدهد کلان داده سوخت تحول دیجیتال است.
تاد رایت در این زمینه میگوید: «برای ایجاد تحول در سازمان خود نیاز به داده دارید تا تصمیماتتان را بر آن بنا کنید و کلان داده تمام دادههای مصرفی یا تولیدی شرکتتان را یک جا در اختیارتان میگذارد تا تحول شکل بگیرد! هر چه اطلاعات بیشتری وارد برنامه تحول دیجیتال شود، نتایج بهتر است.
در ارتباط با شرایط اخیر و شیوع کرونا، با جمعآوری اطلاعات منتشر شده بر بستر اینترنت توانستند با تجزیه و تحلیل دادهها میزان تلفات، درصد ابتلا به بیماری و وضعیت هر منطقه را رصد کنند.
هر چقدر تعداد دستگاههای هوشمند اینترنتی و تلفن همراه و حسگرها بیشتر و نسخههای به روز تولید شوند، میزان اطلاعات دریافتی نیز بیشتر می شود. اما بحث مالکیت دادهها نیز وجود دارد. برخی سازمانها به واسطه ارائه خدمات به کاربران، می توانند در اطلاعات شخصی آنها نفوذ کنند مثلا در تلفن همراه افراد با استفاده از نرم افزارهای رایگان، اطلاعات مکانی و دسترسی به اطلاعات شخصی را برای اپلیکیشن باز میگذارند و همین امر باعث افزایش نفوذ سازمان به دادههای شخصی مشتریانش میشود.
اگرچه میزان اطلاعاتی که وجود دارد به اندازه استفادهای که از آن اطلاعات میشود، مهم نیست ولی دادهها از هر منبع اگر به درستی تجزیه و تحلیل شوند، میتوانند برای تولید محصولات جدید و تصمیمگیری آگاهانه استفاده شوند.
روناک دوشی میگوید: «لازم است تمام کسب و کارهای دیجیتال که بر بستر اینترنت فعالیت میکنند، برای گسترش اکوسیستم تجاری و ارتباط جهانی و حفظ زنجیره یکپارچگی این تجارت و ارتباط، یک پلتفرم دیجیتالی منسجم ایجاد کنند تا کلان دادههای جمعآوری شده از منابع مختلف در آن گردآوری شده و به استفاده همه برسد.»
برای استفاده از کلان داده باید هدف مشخصی داشته باشید. یعنی سازمان باید بداند که برای فروش بیشتر نیاز به تجزیه و تحلیل داده دارد یا کاهش هزینه؟
اهمیت پتانسیل کلاندادهها فقط در گذر زمان و در سالهای آینده مشخص خواهد شد.
مشخصات کلاندادهها را میتوان با استفاده از یک یا چند مورد از سه ویژگی زیر تعریف کرد:
این اصطلاح میتواند شامل چارچوبهای داده (data frameworks) و همچنین هر ابزار یا تکنیکی که برای تجزیه و تحلیل دادهها از آن استفاده میشود، باشد. این دادهها میتوانند ساختاری، غیرساختاری یا نیمهساختاری باشند.
کلانداده با هشت ویژگی زیر توصیف میشود:
زیرساخت ذخیرهسازی کلاندادهها به طور خاص طراحی شده است. این زیرساخت مدیریت و بازیابی اطلاعات را آسانتر میکند؛ البته این امر مستلزم این است که دادهها به درستی ذخیره شوند، ذخیرهسازی درست دادهها باعث میشود که دسترسی، استفاده و پردازش آنها سادهتر شود.
اتصال زیرساختهای ذخیرهسازی به گرههای سرورهای محاسباتی (computing server nodes) باعث میشود، پردازش و بازیابی دادهها سریعتر و آسانتر صورت پذیرد.
فضای ذخیرهسازی و بایگانی دادهها نیز انعطافپذیر طراحی شده است و این مساله تقسیم کردن اطلاعات را در آن آسانتر میکند.
یکی از ثابتترین روشهای پردازش کلاندادهها Apache Lucene است. از سال 2002 پردازش و اجزای ذخیرهسازی Apache Lucene، توسط Hadoop اعمال میشود. آپاچی هدوپ (Apache Hadoop) مجموعهای از ابزارهای نرمافزاری متنباز است که حل مسائل با دادههای بسیار بزرگ را از طریق استفاده از تعداد زیادی رایانه، تسهیل میبخشد.
هدوپ، یک چهارچوب متنباز است که با زبان برنامه نویسی جاوا، برای توسعه و ذخیرهسازی دادههایی با حجم بسیار بالا، توسط کمپانی Apache ساخته شده است. هدوپ معمولا پردازشها را به صورت توزیع شده (یعنی روی چند کامپیوتر مختلف) انجام میدهد و نتایج را به کامپیوتر مقصد برمیگرداند.
یکی دیگر از سیستمهای معروف پردازش کلاندادهها، Spark است. این سیستم میتواند به سرعت دادهها را پردازش کند. سازگاریاش با Hadoop نیز به آن کمک میکند تا سریع و کارآمد کار کند.
Spark به عنوان یک موتور پردازش مستقل نیز کار میکند. موتور Apache Flink قادر به پردازش داده با حجم زیاد است.
در نهایت آنچه بیش از همه موارد، موجب اهمیت روزافزون و چشمگیرکلاندادهها میشود، کاربرد وسیع آن است. کلاندادهها میتوانند از طریق شخصیسازی فرایندها در اموری مثل بهداشت و درمان انسانها، آموزش و پرورش استعدادهای دانشآموزان و دانشجویان، خردهفروشی، ورزش و ... تحولی بنیادین ایجاد کنند.