علوم داده
بر مبنای تعریف شرکت IBM، دیتاساینس یا علوم داده یک حوزه بین رشتهای است که با استفاده از علوم و فناوریهای مختلف مانند ریاضی و آمار، برنامهنویسی، تحلیل، یادگیری ماشین و نیز کمک گرفتن از متخصصان هر حوزه مشخص (SME’s) تلاش میکند دانش و بینشهای مستتر در انبوه دادههای غیرساختاریافته یک سازمان را آشکار سازد.
نیاز به این رشته در دهه اخیر رشد چند برابری پیدا کرده است و اهمیت زیادی یافته تا جایی که گفته میشود «داده» «نفت» جدید است و «علوم داده» «موتور احتراقی» جدید. این اهمیت روزافزون ناشی از حدود دو دهه ارائه سرویسهای اینترنتی بخصوص web2.0 و گسترش نمایی دسترسی مردم جهان به شبکه اینترنت است. (حدود 70 درصد محتوای موجود در وب بینالمللی توسط کاربران تولید شده است.) آن در این سالها حجم بسیار بسیار زیادی از داده و اطلاعات جمع آوری شدهاند. در حال حاضر نیز روزانه حجم غیرقابل تصوری از دیتا توسط مردم و ماشینها تولید میشود که تحلیل آن ها با روشهای متداولِ تحلیلی امکانپذیر نیست. برآورد میشود روزانه حدود 1 تریلیون مگابایت داده تولید میشود و در سال 2021 مجموعاً 79 زِتابایت (Zetabyte) داده خلق، مصرف و جمع آوری شده است که بین 80 تا 90 درصد آن بدون ساختار است.
معمولاً بین مهندسی داده و داده کاوی با علوم داده تفاوت قائل میشوند و این دو حوزه بخشی از چرخه علوم داده دانسته میشود.
در پی همین روند، استارتآپهای زیادی که هر یک بخشی از مسائل ساختاردهی و تحلیل داده را حل میکنند متولد شدهاند. سرعت تولد و رشد استارت آپها در این حوزه بسیار زیاد است و پیشبینی میشود تا سال 2026 اندازه بازار پلتفورمهای دیتاساینس به بیش از 300 میلیارد دلار برسد. حوزههایی که دیتاساینس در آنها تحول جدی ایجاد کرده است، شامل موارد زیر است:
- سلامت
- بانکداری
- خرده فروشی
- حکمرانی