علم داده: « جذابترین شغل قرن بیست و یکم »
- 15 مهر 1397
- ارسال شده توسط: جهاد دانشگاهی صنعتی شریف
- دسته بندی: رویدادها ,
چرا علم داده: « جذابترین شغل قرن بیست و یکم » است؟
به گفتهٔ برخی کارشناسان، یکی از جذابترین مشاغل قرن ۲۱ام تحلیل دادهها است اما میبایست ببینیم که چرا چنین لقبی به این حرفه داده شده است. در یک کلام، بایستی گفت که در طول دهههای گذشته حجم دادههای تولید شده توسط کاربران و شرکت های مختلف بسیار قابلتوجه بوده است که گاهیاوقات از آن به عنوان Big Data یاد میشود اما این دادهها زمانی ارزشمند خواهند بود که بتوان آنها را تحلیل کرده و از دل آنها آمار و ارقامی به دست آوریم که با استفاده از آنها بتوان به شناخت بیشتر و بهتر بازار، رفتارهای کاربران، علائق ایشان و چیزهایی اینچنین دست یابیم.
یک Data Scientist که به صورت تحتالفظی «دانشمند داده» ترجمه میشود اما بهتر است که از آن به عنوان «تحلیلگر داده» یاد کنیم، دائماً میبایست بپرسد چرا؟ یک تحلیلگر داده بسته به شرکتی که در آن کار میکند وظایف مختلفی میتواند داشته باشد اما به طور کلی تحلیلگر داده کسی که دارای خصوصیاتی مثل تحلیل دادهها، مدلسازی،آمار و مهندسی،نمونهسازی باشد.
در کنار این وظایف، کار دیگری هم جزو وظایف اصلی یک تحلیلگر داده است که از آن به عنوان مرتبسازی دادهها یاد میشود که به طور خلاصه منظور از مرتبسازی دادهها این است که تحلیلگر بتواند لیستی از دادههای به هم ریخته را ابتدا مرتب و منظم نموده سپس به بررسی آنها بپردازد که در ادامه قصد داریم تا تکتک این وظایف را به صورت موردی بررسی نماییم.
مرتبسازی دادهها
همانطور که پیش از این گفتیم، فرایند مرتبسازی دادهها شامل ترتیب دادن فرمت دادههایی است که در نگاه اول فرد را سردرگم میکنند؛ لذا تحلیلگر میبایست ابتدا دادهها را به گونهای مرتب سازد که در آینده بتواند به سادگی به بررسی و تحلیل آنها بپردازد.
تحلیل دادهها
وقتی پای تحلیل دادهها به میان میآید، بسیاری از ما به یاد نرمافزار اکسل شرکت مایکروسافت میافتیم اما واقعیت امر این است که وقتی ما با Big Data سروکار داریم، نه تنها نرمافزارهایی از این دست پاسخگوی نیاز ما نخواهند بود بلکه سیستمهای سختافزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و گاهیاوقات ما به چندین سیستم قوی نیاز داریم.
در فرایند تحلیل دادهها، کارشناسان تمام سعی خود را به کار میبندند تا دادهها را از قالب جدول به صورت بصری (گراف) درآورند تا به صورت ملموستری بتوان به بررسی آنها پرداخت.
مدلسازی،آمار
پس از آنکه دادههای اولیه مرتب شدند و سپس به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیشبینی آینده از روی آمار و ارقام به دست آمده و مدلسازی میرسد که در عین حال، کاری بس پیچیده و حساس است.
مهندسی،نمونهسازی
پس از برخورداری از یک مدل یا طرح خوب از دادههای به دست آمده، تازه به اصل کار میرسیم که همان عملی ساخت طرح است.به عبارت دیگر، میبایست دادههای علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data و Data Science و سایر علوم مرتبط ندارند هم بتوانند آن دادهها را درک کرده و در زندگی حرفهای خود به کار گیرند.