تربیت دانشمند داده (Data Scientist) 

دانشمند داده

تربیت دانشمند داده (Data Scientist) 

دانشمند داده

اطلاعات بیشتر​

یکی از مشاغلی که به‌ واسطه گسترش اینترنت ایجاد شده، دانشمند داده‌ یا دیتا ساینتیست (Data Scientist) است. امروزه تقاضا برای دانشمندان داده روز به روز در حال افزایش است. شرکت‌های مختلف از شرکت‌های صنعتی و تولیدی تا بازرگانی و مالی به دنبال متخصصان داده می‌گردند. دانشمندان داده افرادی هستند که داده ها را جمع آوری، سازماندهی، تجزیه و تحلیل می‌کنند و به افراد در صنایع مختلف کمک می‌کنند تا وظایف خود را به بهترین شکل ممکن انجام دهند. دانشمند داده متخصصی است که تخصص خود را در زمینه آمار و ساختن مدل‌های یادگیری ماشین برای پیش‌بینی و پاسخ به سؤالات کلیدی کسب‌وکار به کار می‌گیرد و مانند یک تحلیلگر داده قادر به پاک سازی، تجزیه و تحلیل و تجسم داده‌ها است.

وظایف دانشمند داده چیست؟

دانشمندان داده وظایف بسیار زیادی دارند که از جمله آن‌ها می‌توان به موارد زیر اشاره نمود: 

  • تمیز و قابل استفاده کردن داده‌ها
  • تحلیل روند‌ها و همبستگی بین اتفاقات
  • شناخت و بررسی داده‌ها به صورت آماری
  • ‌انتخاب خصیصه‌های موثر در هر مسئله کسب‌وکار
  • تصویرسازی داده‌ها برای خلاصه کردن نتایج تجزیه و تحلیل پیشرفته
  • استفاده از ابزارهایی در Python یا R و SAS و SQL برای تحلیل داده‌ها.
  • استفاده از الگوریتم‌های یادگیری ماشین به منظور پاسخگویی به سوالات کسب‌وکار
  • آشنایی با تکنیک‌های قصه‌گویی با داده و ارائه یک گزارش جامع علمی به همراه نمودار‌های مورد نیاز

دانشمند داده

دانشمند داده به چه مهارت هایی نیاز دارد؟

یک دانشمند داده برای پیشبرد وظایف خود باید توانایی‌های مشخصی داشته باشد. بعضی از مهارت‌های مورد نیاز یک دانشمند داده از این قرار است:

  • توانایی کار با داده‌های بدون ساختار
  • توانایی کار با پایگاه‌های داده مانند SQL
  • دانش کافی در خصوص مفاهیم آماری و ریاضی
  • دانش در کدنویسی در زبان Python  و یا زبان R
  • دانش در خصوص الگوریتم‌های یادگیری ماشین
  • آشنایی با تکنیک‌های مصورسازی و پاکسازی داده‌ها
  • دانش در خصوص شبکه‌های عصبی، یادگیری عمیق، پردازش متن، تصویر و 

دوره دانشمند داده برای چه افرادی مناسب خواهد بود؟

علاقمندان به حوزه علوم داده (Data Science)، آموزش ماشین لرنینگ، آموزش داده‌ کاوی، تجزیه و تحلیل داده‌ها و افرادی که به دنبال آموزش‌های کاربردی و ارتقاء مهارت‌های خود هستند، می‌توانند در این دوره شرکت نمایند.

فارغ التحصیلان دوره آموزشی دانشمند داده می‌توانند در زمینه ذخیره سازی و تحلیل داده‌های آماری، یادگیری ماشین، یادگیری عمیق، متن کاوی و پردازش تصویر و… به فعالیت بپردازند.

مسیر یادگیری دوره دانشمند داده در جهاد دانشگاهی صنعتی شریف:

دوره آموزشی دانشمند داده در جهاد دانشگاهی صنعتی شریف با رویکرد کسب مهارت‌های تخصصی مورد نیاز، تهیه و تدوین شده است. در این دوره آموزشی به تدریج با مباحث و اصول دانشمند داده از جمله: تحلیل اکتشافی، داده کاوی با پایتون، یادگیری عمیق و… آشنا می شوید.

سرفصل‌های آموزشی​ دوره دانشمند داده

    • بخش اول مفاهیم ایده‌ها و ساختار:
      • خاستگاه و اهمیت تحلیل
      • اکتشافی
      • مستندسازی تحلیل
      • ساختار تحلیل داده
      • تحلیل داده نظام مند
    • بخش دوم Data Wrangling:
      • Discovering
      • Structuring
      • Cleaning
      • Enriching
      • Validating
      • Publishing
    • تحلیل توصیفی دادهها بر اساس نوع داده و شناسایی ارتباطات دو و چند متغیره:
      • تحلیل داده اسمی
      • تحلیل داده کمی
      • خلاصه سازی داده‌ها
      • شناسایی ارتباطات دو و چند متغیره
      • Binning و ساخت متغیر جدید
    • بخش سوم آزمون فرض وA/B test : 
      • تعریف فرض صفر
      • تعریف فرض جایگزین
      • سطح معنی داری
      • مقدار بحرانی
      • تصمیم گیری و تفسیر نتیجه
    • بخش چهارم ارائه نتایج:
      • Data Story Telling
      • Resonate
    • بخش پنجم تحلیل داده برمبنای شواهد (Evidence based) و اعتبارسنجی تحلیل داده:
      • مخاطرات EDA و راهکارهای پاسخگویی به آن‌ها
      • تکرار پذیری
      • تعمیم پذیری
    • بخش ششم پروژه نمونه
    • مقدماتی درباره داده کاوی با پایتون: 
      • طراحی مسائل و مجموعه داده‌هایی جهت شناخت داده، علم داده و کاربردهای آن در صنایع بیمه، بانک، بورس، طراحی نرم افزار با استفاده از علم داده، دیجیتال مارکتینگ هوشمند با داده کاوی، سیستم پیشنهاد دهنده وب سایت، متن کاوی در وب سایت و کاربردهای آن، تصویرکاوی و سیستم پیشنهاد موسیقی.
      • بررسی ویژگی‌های زبان پایتون و پاسخ به این سوال که چرا از پایتون استفاده میکنیم؟ بررسی امکانات و زیرساخت‌های زبان پایتون به همراه جزئیات پیاده سازی برخی از قسمت ها با زبان C
      • آشنایی عمومی با کتابخانه‌های موجود در زبان پایتون جهت انجام عملیات داده کاوی (Scikit Learn،Tensorflow ،Py Torch، Numpy، Pandas، Matplotlib و …)
      • آشنایی کلی با حوزه کلان داده (Big Data)، هوش نرم و چهارچوب‌های مورد استفاده آن به همراه کاربرد ارتباط با علم داده
    • نصب و پیاده سازی محیطهای عملیاتی:
      • آشنایی با ورژن‌های مختلف پایتون و نصب پایتون در لینوکس یا ویندوز همراه با نصب پکیج آناکوندا و آشنایی با پکیج‌های مهم
      • نصب و ایجاد محیط اولیه در Code Visual Studio و ایجاد یک برنامه پایتون
      • نصب و ایجاد محیط اولیه در Jupyter و ساخت یک دفترچه پایتون
    • مفاهیم پایه داده‌ها و ریاضی و آماری: 
      • داده و درک مفهوم ویژگی (Feature)، بعد (Dimension) و ماتریس (Matrix) و درک مفهوم تنسور (Tensor) و کاربرد آن در داده کاوی
      • آشنایی و کار با کتابخانه ی Numpy و Scipy برای انجام عملیات آماری
      • آنالیز مولفه اصلی (PCA) و TSNE و کاربرد آن در نمایش داده‌ها و کاهش ابعاد
      • بارگذاری داده‌ها و تعامل با داده‌ها با استفاده از کتابخانه‌ی Pandas
    • نمایش داده‌ها:
      • آشنایی با نمودارهای مختلف (Pie، Histogram، Bar، Line، Flow و…) وکاربرد هریک از آن‌ها
      • نحوه‌ی نمایش هیستوگرام و کاربرد آن با کتابخانه‌ی Matplotlib
      • نمایش داده‌ها به صورت تعاملی در کتابخانه‌ی Boken
    • طبقه بندی و رگرسیون و الگوریتمهای مختلف آن:
      • آشنایی با نمونه داده‌های طبقه بندی و کاربردهای آن
      • بررسی مجموعه داده‌های iris (تشخیص گل‌های زنبق از روی ویژگی‌ها)، MNIST (تشخیص تصاویر دست نوشته)، Boston Housing (قیمت گذاری هوشمند خانه) به عنوان نمونه‌های ساده و کاربردی
      • معرفی روش‌ها و مراجع جمع آوری داده‌ها و استفاده از آن
        • مثال پیش‌بینی هوشمند هزینه و تخمین ارزش کالا
        • مثال پیش‌بینی وضعیت هوا و هواشناسی
        • مثال کنترل ترافیک هوشمند با استفاده از داده‌های شهری
        • مثال تحلیل احساسات و استقبال/عدم استقبال کاربران از محصول یک فروشگاه با استفاده از کامنت‌های کاربران
        • مثال پیش‌بینی و توصیه محصول مورد نیاز کاربر در فروشگاه اینترنتی
        • مثال پیش‌بینی خرید کاربر با توجه به رفتار او در فروشگاه اینترنتی
        • مثال تشخیص هوشمند حملات هکرها به سرور
        • مثال پیش‌بینی هوشمند جرائم شهری و پیشگیری از وقوع جرم
        • مثال پیش‌بینی مصرف سوخت اتومبیل
      • آشنایی و پیاده سازی طبقه بندی با الگوریتم نزدیکترین همسایه (KNN) در پایتون
      • آشنایی و پیاده سازی طبقه بندی با الگوریتم ماشین بردار پشتیبان (SVM) و آشنایی با انواع مختلف پیاده سازی و پارامترهای آن در پایتون
      • بررسی درخت‌های تصمیم (Decision Trees) و پیاده سازی آن‌ها در حل مسائل طبقه بندی در پایتون
      • آشنایی و پیاده سازی طبقه بندی با الگوریتم‌های ترکیبی (RandomForest ،AdaBoost و…) در پایتون
      • آشنایی با الگوریتم‌های XGBoost و CatBoost و کتابخانه‌های XGBoost و CatBoost
      • آشنایی با معیارهای مختلف ارزیابی کیفیت طبقه بندی
        • Accuracy
        • Precision
        • Recall
        • F1
        • ROI AUC
        • و …
    • خوشه بندی و الگوریتم‌های مختلف آن:
      • آشنایی با نمونه داده‌های خوشه بندی و حل مسائل کاربردی آن
      • کاربرد و آشنایی با روش‌های عملی خوشه بندی:
        • مثال گروه بندی مشتریان(وب سایت و فروشگاه) با روش RFM وRFM مبتنی بر زمان
        • مثال گروه بندی تصاویر دست نوشته
        • مثال گروه بندی هوشمند مطالب وب سایت بدون استفاده از ناظر
        • مثال گروه بندی حملات هکرها به یک سرور
      • آشنایی و پیاده سازی خوشه بندی با الگوریتم KMeans
      • بررسی و پیاده سازی خوشه بندی با DBSCAN
      • آشنایی با پیاده سازی DBSCAN سلسله مراتبی و کتابخانه‌ HDBSCAN
      • آشنایی و پیاده سازی خوشه بندی با الگوریتم MeanShift
      • آشنایی و پیاده سازی خوشه بندی با الگوریتم سلسله مراتبی(Hierarchical Clustering)
      • آشنایی و پیاده سازی خوشه بندی با الگوریتم خوشه بندی طیفی(Spectral Clustering)
      • آشنایی با روش‌های ارزیابی کیفیت خوشه‌ها
        • Silhouette ، کالینسکلی و …
    • متوازن سازی داده‌ها:
      • الگوریتم های OverSampling ،SMOTE ، UnderSampling و… .
    • آموزش کار با گوگل Colab و اجرای برنامه‌ها بر روی سرورهای Googlee

       

    • آموزش کار با وب سایت Kaggle و کسب تجربه و رزومه
    • کاهش ابعاد داده‌ها و الگوریتم‌های آن:
      • PCA، UMAP،TSNE، KernelPCA
    • تصویرکاوی و استفاده از تکنیک‌های پردازش تصویر دیجیتال(HueMoments، Histogram و Haralick) در طبقه بندی و داده کاوی تصاویر

مقدمه                

  • نحوه اجرا در گوگل کولب
  • پیاده سازی KNN در پایتون
  • استفاده و لود تصویر در پایتون به عنوان داده
  • آشنایی و پردازش داده های ارقام دست نویس فارسی
  • طبقه بندی ارقام دست نویس فارسی

شبکه عصبی

  • پرسپترون (یک نورون) چیست                       
  • شبکه عصبی: استفاده از چندین نورون و لزوم تابع فعالیت
  • Softmax
  • تابع هزینه                   
  • یادگیری در شبکه های عصبی: گرادیان کاهشی و پس انتشار خطا            
  • نرخ یادگیری          
  • پیاده سازی در tensorflow/Keras  
  • الگوریتم های گرادیان کاهشی: stochastic، batch و mini-batch  
  • کد کامل پایتون           
  • Dropout           
  • نرمال‌سازی دسته‌ای (Batch norm)

شبکه های عصبی کانولوشنالی (CNN)

  • مقدمه شبکه های عصبی کانولوشنالی  
  • چالش  Imagenet        
  • لزوم سلسله مراتب در شبکه های عصبی    
  • کانولوشن و فیلترها 
  • ویژگی‌های مکانی فضایی و سلسله مراتب در شبکه‌های عصبی کانولوشنی (CNNs)  
  • padding در کانولوشن    
  • مفهوم Stride در کانولوشن  
  • کانولوشن روی عکس رنگی                         
  • ادغام (Pooling)      
  • معماری Lenet-5           
  • محاسبه تعداد پارامترها در یک لایه کانولوشن      پیاده سازی یک شبکه عصبی کانولوشنالی در پایتون                        
  • ادغام میانگین سراسری (GAP)
  • طبقه‌بندی باینری و چند کلاسه
  • دانلود از Kaggle در محیط Google Colab   
  • داده‌افزایی
  • لود کردن اطلاعات از هارد Tensorflow            

معماری های مهم و معروف  و انتقال یادگیری

  • الکس نت
  • ZFNet
  • VGG
  • درک کانولوشن 1 در 1
  • Inception
  • ResNet
  • مدل های از پیش آموزش دیده در keras application
  • بازشناسی اشیاء با وبکم
  • انتقال یادگیری (ترنسفر لرنینگ)
  • تنظیم دقیق (Fine-tuning)

استفاده از functional apiو پیاده سازی مدلهای چند ورودی / چند خروجی

  • مقدمه رگرسیون
  • مثال رگرسیون: تخمین قیمت خانه
  • تخمین میزان مصرف سوخت ماشین           
  • Functional API در کراس          
  • تخمین قیمت خانه با ویژگی های بصری
  • استفاده از دو نوع داده ورودی (ساختار یافته و بصری) در یک شبکه عصبی
  • بازشناسی و تعیین محل اشیاء (localization)

طبقه‌بندی متن، استفاده از Embedding و سیستم‌های توصیه‌گر

  • پیش پردازشها در متن
  • Bag-of-embedding
  • Ngrams
  • سری های زمانی
  • RNN
  • LSTM
  • GRU
  • Transformer
  • سیستم توصیه گر مبتنی بر embedding

سوالات متداول​

این دوره بصورت آنلاین و در بستر ادوبی کانکت Adobe connect برگزار می‌شود.

پس از گذراندن دوره و در صورت کسب نمره قبولی در آزمون‌ها و پروژه‌ها به فراگیران گواهینامه ارائه می‌شود.

دوره‌هایی که هزینه آن‌ها بالای 3 میلیون تومان است شرایط پرداخت اقساط دارند. برای اطلاع از نحوه پرداخت اقساط با کارشناس گروه آموزشی مربوطه هماهنگی‌های لازم را انجام دهید.

برای شرکت در این دوره باید با برنامه نویسی پایتون آشنایی داشت.

جهت آشنایی با نحوه ترجمه مدارک جهاد دانشگاهی صنعتی شریف به این لینک مراجعه کنید.

نظرسنجی​

دیدگاه فراگیران

38 دیدگاه

دیدگاهتان را بنویسید

مشاوره و ثبت‌نام:

Close No menu locations found.