کلان‌داده؛ چیست و چه اهمیتی دارد؟
کلان‌داده؛ چیست و چه اهمیتی دارد؟

اهمیت کلان‌داده برای کسب‌وکارها و سازمان‌ها روز به روز بیشتر می‌شود. پیش بینی IDC نشان می‌دهد که تا سال 2022 درآمد جهانی از داده‌ها و راهکارهای تحلیلی (analytic solutions) به 260 بیلیون دلار می‌رسد. به همین خاطر به کلان داده لقب با ارزش‌ترین منبع در اقتصاد دیجیتال داده‌اند.

با افزایش محبوبیت کلان‌داده‌ها و گسترش ارتباطات، شرکت‌ها و سازمان‌های بیشتری به دنبال دستیابی به ظرفیت‌های آن هستند. با این حال، مانند بسیاری از نوآوری‌ها، فقط در صورتی می‌توان از مزایای کلان‌داده بهره‌مند شد که قابلیت‌های آن را به درستی درک کرده باشید.

در اروپا در سال 2018 حدود 140 میلیون دستگاه هوشمند متصل به اینترنت اشیا موجود است که این رقم تا سال 2026 به 740 میلیون می‌رسد؛ یعنی سرعت بیشتر تبادل اطلاعات و تولید داده‌های بیشتر.

در این مقاله به توضیح این که کلان‌داده چیست و چرا بسیار مفید است، می‌پردازیم و بررسی می‌کنیم که چگونه مشاغل و سازمان‌های مختلف از آن برای تغییر فرایندهای خود استفاده می‌کنند.

اطلاع از اهمیت کلان‌داده‌ها و نحوه استفاده از آن‌ها برای بهینه‌سازی و کارآمدی کسب‌وکارها بسیار مهم است.


کلان‌داده چیست؟

این اصطلاح اولین بار 15 سال پیش به وجود آمد تا نشان دهنده تمایز مدیریت این نوع داده با سایر داده‌ها باشد. یعنی این نوع داده یا به اصلاح کلان داده به شیوه مدیریت سنتی قابل کنترل نیستند.

به بیان ساده، کلان‌داده اصطلاحی است که حجم زیادی از داده را که یک سازمان روزانه با آن سروکار دارد، توصیف می‌کند.

بر اساس تعریف  Gartner (شرکت پژوهشی و مشاوره آمریکایی که در زمینه ارائه خدمات برون‌سپاری، تحقیق و پژوهش و مشاوره فناوری اطلاعات فعالیت می‌کند)، کلان‌داده‌ها نوعی دارایی‌های اطلاعاتی با حجم، تنوع و سرعت بالا هستند که نیاز به پردازشی نوآورانه و مقرون به صرفه، برای تقویت نگرش و تصمیم‌گیری سازمان‌ها دارند.

کسب‌وکارها می‌توانند با تجزیه و تحلیل کلان‌داده‌ها، اطلاعات را به خوبی پردازش کنند، پردازش مناسب اطلاعات، دیدگاه ارزشمندی به آن‌ها ارائه می‌دهد و در نهایت باعث کاهش هزینه‌ها، تعامل بهتر با مشتریان و رشد بهینه فعالیت‌های سازمان می‌شود.

اگرچه فرایندهای جمع‌آوری اطلاعات مشتریان، عملیات‌ مختلف تجاری و استفاده از آن‌ها در توسعه استراتژی‌های یک مجموعه، کار تازه‌ای نیست ولی اصطلاح کلان‌داده نسبتا جدید است.


چرا کلان‌داده مهم است؟

امروزه کلان‌داده به عنوان سوخت اصلی تحول دیجیتال ظاهر شده است و روزبه‌روز بر اهمیت آن‌‌ها افزوده می‌شود. استفاده از کلان‌داده در کنار تجزیه و تحلیل‌های قدرتمند به کسب‌وکارها امکان رسیدن به بینش ارزشمندی می‌دهد که از آن برای رشد، توسعه و مدرنیزه کردن استراتژی‌ها و اصلاح فرایند‌ها می‌توانند استفاده کنند. همین دلیلی است که نشان می‌دهد کلان داده سوخت تحول دیجیتال است.

تاد رایت در این زمینه می‌گوید: «برای ایجاد تحول در سازمان خود نیاز به داده دارید تا تصمیماتتان را بر آن بنا کنید و کلان داده تمام داده‌های مصرفی یا تولیدی شرکتتان را یک جا در اختیارتان می‌گذارد تا تحول شکل بگیرد! هر چه اطلاعات بیشتری وارد برنامه تحول دیجیتال شود، نتایج بهتر است.

در ارتباط با شرایط اخیر و شیوع کرونا، با جمع‌آوری اطلاعات منتشر شده بر بستر اینترنت توانستند با تجزیه و تحلیل داده‌ها میزان تلفات، درصد ابتلا به بیماری و وضعیت هر منطقه را رصد کنند.

هر چقدر تعداد دستگاه‌های هوشمند اینترنتی و تلفن همراه و حسگرها بیشتر و نسخه‌های به روز تولید شوند، میزان اطلاعات دریافتی نیز بیشتر می شود. اما بحث مالکیت داده‌ها نیز وجود دارد. برخی سازمان‌ها به واسطه ارائه خدمات به کاربران، می توانند در اطلاعات شخصی آن‌ها نفوذ کنند مثلا در تلفن همراه افراد با استفاده از نرم افزارهای رایگان، اطلاعات مکانی و دسترسی‌ به اطلاعات شخصی را برای اپلیکیشن باز می‌گذارند و همین امر باعث افزایش نفوذ سازمان به داده‌های شخصی مشتریانش می‌شود.

اگرچه میزان اطلاعاتی که وجود دارد به اندازه استفاده‌ای که از آن اطلاعات می‌شود، مهم نیست ولی داده‌ها از هر منبع اگر به درستی تجزیه و تحلیل شوند، می‌توانند برای تولید محصولات جدید و تصمیم‌گیری آگاهانه استفاده شوند.


هدف اصلی از تجزیه و تحلیل داده، یکپارچگی است نه انزوا

روناک دوشی می‌گوید: «لازم است تمام کسب و کارهای دیجیتال که بر بستر اینترنت فعالیت می‌کنند، برای گسترش اکوسیستم تجاری و ارتباط جهانی و حفظ زنجیره یکپارچگی این تجارت و ارتباط، یک پلتفرم دیجیتالی منسجم ایجاد کنند تا کلان داده‌های جمع‌آوری شده از منابع مختلف در آن گردآوری شده و به استفاده همه برسد.»

برای استفاده از کلان داده باید هدف مشخصی داشته باشید. یعنی سازمان باید بداند که برای فروش بیشتر نیاز به تجزیه و تحلیل داده دارد یا کاهش هزینه؟

اهمیت پتانسیل کلان‌داده‌ها فقط در گذر زمان و در سال‌های آینده مشخص خواهد شد.


ویژگی‌های کلان‌داده چیست؟

مشخصات کلان‌داده‌ها را می‌توان با استفاده از یک یا چند مورد از سه ویژگی‌ زیر تعریف کرد:

  • مقدار زیادی داده که با سرعت زیاد رشد می‌کنند.
  • داده‌هایی که حجم‌شان به سرعت افزایش پیدا می‌کند و با روش‌های مرسم قابل پردازش نیستند.
  • کاوش، ذخیره‌سازی، تجزیه و تحلیل و مجسم کردن داده‌ها.

این اصطلاح می‌تواند شامل چارچوب‌های داده (data frameworks) و همچنین هر ابزار یا تکنیکی که برای تجزیه و تحلیل داده‌ها از آن استفاده می‌شود، باشد. این داده‌ها می‌توانند ساختاری، غیرساختاری یا نیمه‌ساختاری باشند.

  • اطلاعات ساختاری: اطلاعاتی کاملا سازمان‌یافته هستند که فرمت ثابتی دارند و دسترسی به آن‌ها ساده است.
  • اطلاعات غیرساختاری: این اطلاعات فاقد هرگونه فرم یا ساختار هستند و این امر دستیابی، پردازش و تجزیه و تحلیل آن‌ها را کاری به شدت زمانبر و دشوار می‌کند.
  • اطلاعات نیمه‌ساختاری: این نوع اطلاعات قسمت‌های ساختاریافته و ساختار نیافته در خود دارد و در یک پایگاه داده طبقه‌بندی نشده است. با این حال هنوز هم حاوی اطلاعات حیاتی است که موجب تفکیک عناصر در مجموعه داده‌ها می‌شود.

کلان‌داده با هشت ویژگی زیر توصیف می‌شود:

  1. Velocity (سرعت): سرعتی که داده‌ها با آن تولید، جمع‌آوری و تجزیه و تحلیل می‌شوند.
  2. Volume (حجم): میزان داده‌ای که در هر ثانیه تولید می‌شود. حجم غالبا برای اشاره و مراجعه به ابزارهایی مثل شبکه‌های اجتماعی، کارت‌های اعتباری و تلفن‌های همراه استفاده می‌شود.
  3. Value (ارزش): این عبارت اشاره به ارزش اطلاعات استخراج‌شده (the extracted data.) دارد. مساله این است که مقدار زیادی از اطلاعات در عمل بی‌فایده هستند، مگر این که به درستی از آن‌ها استفاده شود.
  4. Variety (تنوع): این عبارت گونه‌های مختلف داده‌های تولیدشده را توصیف می‌کند. این اصطلاح بیشتر برای اشاره به داده‌های غیرساختاری مثل عکس و پست‌های شبکه‌های اجتماعی استفاده می‌شود.
  5. Veracity (صحت و درستی): این عبارت به میزان قابل‌اعتماد بودن اطلاعات اشاره دارد. اگر داده‌ها صحیح نباشند یا کیفیت پایینی داشته باشند، کاربرد چندانی نخواهند داشت.
  6. Validity (اعتبار): مثل عبارت Veracity (صحت و درستی)، این عبارت نیز به ما می‌گوید که داده‌ها برای استفاده موردنظرمان چقدر صحیح و مناسب هستند.
  7. Volatility : این عنصر به سن داده‌ها اشاره دارد. از آن‌جا که هر ساعت یا هر دقیقه داده‌های جدید تولید می‌شوند، داده‌های ذخیره‌شده ممکن است به سرعت بی‌ربط یا منقضی شوند. این عبارت همچنین به مدت زمان نگهداری اطلاعات قبل از دور ریختن یا آرشیو کردن آن‌ها هم اشاره می‌کند.
  8. Visualisation: این عبارت شرح می‌دهد که استفاده از داده‌ها تا چه میزان چالش برانگیز است. محدودیت‌هایی از جمله مقیاس‌پذیری یا عملکرد ضعیف می‌تواند بر این عامل تاثیر بگذارد. علاوه بر این، مجموعه داده‌ها می‌توانند گسترده و گسترده‌تر شوند و این امر باعث می‌شود، استفاده از آن‌ها به طرز معنی‌داری پیچیده شود.

کلان‌داده‌ها چگونه پردازش و ذخیره می‌شوند؟


ذخیره‌سازی کلان‌داده‌ها

زیرساخت ذخیره‌سازی کلان‌داده‌ها به طور خاص طراحی شده است. این زیرساخت مدیریت و بازیابی اطلاعات را آسانتر می‌کند؛ البته این امر مستلزم این است که داده‌ها به درستی ذخیره شوند، ذخیره‌سازی درست داده‌ها باعث می‌شود که دسترسی، استفاده و پردازش آن‌ها ساده‌تر شود.

اتصال زیرساخت‌های ذخیره‌سازی به گره‌های سرورهای محاسباتی (computing server nodes) باعث می‌شود، پردازش و بازیابی داده‌ها سریع‌تر و آسان‌تر صورت پذیرد.

فضای ذخیره‌سازی و بایگانی داده‌ها نیز انعطاف‌پذیر طراحی شده است و این مساله تقسیم کردن اطلاعات را در آن آسان‌تر می‌کند.


پردازش کلان‌داده‌ها

یکی از ثابت‌ترین روش‌های پردازش کلان‌داده‌ها Apache Lucene است. از سال 2002 پردازش و اجزای ذخیره‌سازی Apache Lucene، توسط Hadoop اعمال می‌شود. آپاچی هدوپ (Apache Hadoop) مجموعه‌ای از ابزارهای نرم‌افزاری متن‌باز است که حل مسائل با داده‌های بسیار بزرگ را از طریق استفاده از تعداد زیادی رایانه، تسهیل می‌بخشد.

هدوپ، یک چهارچوب متن‌باز است که با زبان برنامه نویسی جاوا، برای توسعه و ذخیره‌سازی داده‌هایی با حجم بسیار بالا، توسط کمپانی Apache ساخته شده است. هدوپ معمولا پردازش‌ها را به صورت توزیع شده (یعنی روی چند کامپیوتر مختلف) انجام می‌دهد و نتایج را به کامپیوتر مقصد برمی‌گرداند.

یکی دیگر از سیستم‌های معروف پردازش کلان‌داده‌ها، Spark است. این سیستم می‌تواند به سرعت داده‌ها را پردازش کند. سازگاری‌اش با Hadoop نیز به آن کمک می‌کند تا سریع و کارآمد کار کند.

Spark به عنوان یک موتور پردازش مستقل نیز کار می‌کند. موتور Apache Flink قادر به پردازش داده با حجم زیاد است.


در نهایت آن‌‎چه بیش از همه موارد، موجب اهمیت روزافزون و چشمگیرکلان‌داده‌ها می‌شود، کاربرد وسیع آن است. کلان‌داده‌ها می‌توانند از طریق شخصی‌سازی فرایندها در اموری مثل بهداشت و درمان انسان‌ها، آموزش و پرورش استعدادهای دانش‌آموزان و دانشجویان، خرده‌فروشی، ورزش و ... تحولی بنیادین ایجاد کنند.