تربیت دانشمند داده (Data Scientist)

اطلاعات بیشتر
علم داده مجموعه ای از دانش و توانایی های رشته های مختلف از جمله آمار، هوش مصنوعی، یادگیری عمیق و تحلیل داده ها است. علم داده برای آماده سازی، پاکسازی و ادغام داده ها برای استفاده در تجزیه و تحلیل پیشرفته استفاده می شود.
دانشمندان داده افرادی هستند که وظیفه جمع آوری، سازماندهی و تجزیه و تحلیل داده ها را بر عهده دارند و به افراد در صنایع مختلف کمک می کنند تا وظایف خود را به بهترین شکل ممکن انجام دهند. و از ابزارهای مختلفی از جمله: تحلیلهای آماری، هوش مصنوعی و یادگیری ماشینی و یادگیری عمیق برای آمادهسازی و تحلیل دادهها استفاده می کنند.
همچنین دادهها را در قالب محتوای بصری، مصورسازی (نمایش گرافیکی دادهها) و الگوهای دادهای واضح یا در قالب صفحات گسترده در نرمافزارهایی از جمله اکسل به منظور درک افراد مختلف ارائه می دهند.
وظایف دانشمند داده:
-
- تمیز و قابل استفاده کردن دادهها
- تحلیل روندها و همبستگی بین اتفاقات
- شناخت و بررسی دادهها به صورت آماری
- انتخاب خصیصههای موثر در هر مسئله کسبوکار
- تصویرسازی داده ها برای خلاصه کردن نتایج تجزیه و تحلیل پیشرفته
- استفاده از ابزارهایی در Python یا R و SAS و SQL برای تحلیل دادهها.
- استفاده از الگوریتمهای یادگیری ماشین به منظور پاسخگویی به سوالات کسبوکار
- آشنایی با تکنیکهای قصهگویی با داده و ارائه یک گزارش جامع علمی به همراه نمودارهای مورد نیاز

مهارتهای مورد نیاز دانشمند داده:
یک دانشمند داده برای پیشبرد وظایف خود باید تواناییهای مشخصی داشته باشد. بعضی از مهارتهای مورد نیاز یک دانشمند داده از این قرار است:
-
- توانایی کار با دادههای بدون ساختار
- توانایی کار با پایگاههای داده مانند SQL
- دانش کافی در خصوص مفاهیم آماری و ریاضی
- دانش در کدنویسی در زبان های Python و یا R
- دانش در خصوص الگوریتمهای یادگیری ماشین
- آشنایی با تکنیکهای مصورسازی و پاکسازی دادهها
- دانش در خصوص شبکههای عصبی، یادگیری عمیق، پردازش متن، تصویر و … .
مخاطبین دوره دانشمند داده:
علاقمندان به حوزه علم داده (Data Science)، یادگیری ماشین و دادهکاوی، تجزیه و تحلیل داده ها و افرادی که به دنبال آموزش های کاربردی و ارتقاء مهارت های خود هستند، میتوانند در این دوره شرکت نمایند.
فارغ التحصیلان دوره آموزشی دانشمند داده می توانند در زمینه ذخیره سازی و تحلیل داده های آماری، یادگیری ماشینی و یادگیری عمیق، متن کاوی و پردازش تصویر و… به فعالیت بپردازند.
مسیر یادگیری دوره دانشمند داده در جهاد دانشگاهی صنعتی شریف:
دوره آموزشی دانشمند داده در جهاد دانشگاهی صنعتی شریف با رویکرد کسب مهارت های تخصصی مورد نیاز، تهیه و تدوین شده است.
در این دوره آموزشی به تدریج با مباحث و اصول دانشمند داده از جمله: تحلیل اکتشافی، داده کاوی با پایتون، یادگیری عمیق و… آشنا می شوید.
سرفصلهای آموزشی
-
- بخش اول مفاهیم ایده ها و ساختار:
-
-
- خاستگاه و اهمیت تحلیل
- اکتشافی
- مستندسازی تحلیل
- ساختار تحلیل داده
- تحلیل داده نظام مند
-
-
- بخش دوم Data Wrangling:
-
-
- Discovering
- Structuring
- Cleaning
- Enriching
- Validating
- Publishing
- تحلیل توصیفی داده ها بر اساس نوع داده و شناسایی ارتباطات دو و چند متغیره:
-
-
-
- تحلیل داده اسمی
- تحلیل داده کمی
- خلاصه سازی داده ها
- شناسایی ارتباطات دو و چند متغیره
- Binning و ساخت متغیر جدید
- بخش سوم آزمون فرض وA/B test :
-
-
-
- تعریف فرض صفر
- تعریف فرض جایگزین
- سطح معنی داری
- مقدار بحرانی
- تصمیم گیری و تفسیرنتیجه
- بخش چهارم ارائه نتایج:
-
-
-
- Data Story Telling
- Resonate
- بخش پنجم تحلیل داده برمبنای شواهد (Evidence based) و اعتبارسنجی تحلیل داده:
-
-
-
- مخاطرات EDA و راهکارهای پاسخگویی به آنها
- تکرار پذیری
- تعمیم پذیری
- بخش ششم پروژه نمونه
-
-
- مقدماتی درباره داده کاوی با پایتون:
-
-
- طراحی مسائل و مجموعه داده هایی جهت شناخت داده، علم داده و کاربردهای آن در صنایع بیمه، بانک، بورس، طراحی نرم افزار با استفاده از علم داده، دیجیتال مارکتینگ هوشمند با داده کاوی، سیستم پیشنهاد دهنده وب سایت، متن کاوی در وب سایت و کاربردهای آن، تصویرکاوی و سیستم پیشنهاد موسیقی.
- بررسی ویژگی های زبان پایتون و پاسخ به این سوال که چرا از پایتون استفاده میکنیم؟ بررسی امکانات و زیرساخت های زبان پایتون به همراه جزئیات پیاده سازی برخی از قسمت ها با زبان(C)
- آشنایی عمومی با کتابخانه های موجود در زبان پایتون جهت انجام عملیات داده کاوی(Scikit Learn،Tensorflow ، Py Torch، Numpy، Pandas، Matplotlib و …)
- آشنایی کلی با حوزه ی کلان داده (Big Data)، هوش نرم و چهارچوب های مورد استفاده آن به همراه کاربرد ارتباط با علم داده
- نصب و پیاده سازی محیط های عملیاتی:
-
-
-
- آشنایی با ورژن های مختلف پایتون و نصب پایتون در لینوکس یا ویندوز همراه با نصب پکیج آناکوندا وآشنایی با پکیج های مهم
- نصب و ایجاد محیط اولیه در Code Visual Studioو ایجاد یک برنامه پایتون
- نصب و ایجاد محیط اولیه در Jupyter و ساخت یک دفترچه پایتون
- مفاهیم پایه داده ها و ریاضی و آماری:
-
-
-
- داده و درک مفهوم ویژگی(Feature)، بعد (Dimension) و ماتریس(Matrix) و درک مفهوم تنسور (Tensor) و کاربرد آن در داده کاوی
- آشنایی و کار با کتابخانه ی Numpy و Scipy برای انجام عملیات آماری
- آنالیز مولفه اصلی(PCA) وTSNE و کاربرد آن در نمایش داده ها و کاهش ابعاد
- بارگزاری داده ها و تعامل با داده ها با استفاده از کتابخانه ی Pandas
-
-
- نمایش داده ها:
- آشنایی با نمودارهای مختلف(Pie، Histogram، Bar، Line، Flow و…)وکاربرد هریک ازآنها
- نحوه ی نمایش هیستوگرام و کاربرد آن با کتابخانه ی Matplotlib
- نمایش داده ها به صورت تعاملی در کتابخانه ی Boken
- نمایش داده ها:
-
- طبقه بندی و رگرسیون و الگوریتم های مختلف آن:
- آشنایی با نمونه داده های طبقه بندی و کاربردهای آن
- بررسی مجموعه داده های iris (تشخیص گل های زنبق از روی ویژگی ها)، MNIST (تشخیص تصاویر دست نوشته)، Boston Housing (قیمت گذاری هوشمند خانه) به عنوان نمونه های ساده و کاربردی
- معرفی روش ها و مراجع جمع آوری داده ها و استفاده از آن
- مثال پیش بینی هوشمند هزینه و تخمین ارزش کالا
- مثال پیش بینی وضعیت هوا و هواشناسی
- مثال کنترل ترافیک هوشمند با استفاده از داده های شهری
- مثال تحلیل احساسات و استقبال/عدم استقبال کاربران از محصول یک فروشگاه با استفاده از کامنت های کاربران
- مثال پیش بینی و توصیه محصول مورد نیاز کاربر در فروشگاه اینترنتی
- مثال پیش بینی خرید کاربر با توجه به رفتار او در فروشگاه اینترنتی
- مثال تشخیص هوشمند حملات هکرها به سرور
- مثال پیشبینی هوشمند جرائم شهری و پیشگیری از وقوع جرم
- مثال پیش بینی مصرف سوخت اتومبیل
- آشنایی و پیاده سازی طبقه بندی با الگوریتم نزدیکترین همسایه (KNN) در پایتون
- آشنایی و پیاده سازی طبقه بندی با الگوریتم ماشین بردار پشتیبان (SVM) و آشنایی با انواع مختلف پیاده سازی و پارامترهای آن در پایتون
- بررسی درخت های تصمیمDecision Trees)) و پیاده سازی آنها در حل مسائل طبقه بندی در پایتون
- آشنایی و پیاده سازی طبقه بندی با الگوریتم های ترکیبی(RandomForest،AdaBoost و…) در پایتون
- آشنایی با الگوریتم های XGBoost و CatBoost و کتابخانه های XGBoost و CatBoost
- آشنایی با معیارهای مختلف ارزیابی کیفیت طبقه بندی
- Accuracy
- Precision
- Recall
- F1
- ROI AUC
- و …
- خوشه بندی و الگوریتم های مختلف آن:
- آشنایی با نمونه داده های خوشه بندی و حل مسائل کاربردی آن
- کاربرد و آشنایی با روش های عملی خوشه بندی:
- مثال گروه بندی مشتریان(وب سایت و فروشگاه) با روش RFM وRFM مبتنی بر زمان
- مثال گروه بندی تصاویر دست نوشته
- مثال گروه بندی هوشمند مطالب وب سایت بدون استفاده از ناظر
- مثال گروه بندی حملات هکرها به یک سرور
- آشنایی و پیاده سازی خوشه بندی با الگوریتم KMeans
- بررسی و پیاده سازی خوشه بندی با DBSCAN
- آشنایی با پیاده سازی DBSCAN سلسله مراتبی و کتابخانه ی HDBSCAN
- آشنایی و پیاده سازی خوشه بندی با الگوریتم MeanShift
- آشنایی و پیاده سازی خوشه بندی با الگوریتم سلسله مراتبی(Hierarchical Clustering)
- آشنایی و پیاده سازی خوشه بندی با الگوریتم خوشه بندی طیفی(Spectral Clustering)
- آشنایی با روش های ارزیابی کیفیت خوشه ها
- Silhouette ، کالینسکلی و …
- متوازن سازی داده ها:
- الگوریتم هایOverSampling ،SMOTE ، UnderSampling و… .
- آموزش کار با گوگلColab و اجرای برنامه ها بر روی سرورهای Googlee
- آموزش کار با وب سایتKaggle و کسب تجربه و رزومه
- کاهش ابعاد داده ها و الگوریتم های آن:
- PCA، UMAP،TSNE، KernelPCA
- تصویرکاوی و استفاده از تکنیک های پردازش تصویر دیجیتال(HueMoments، Histogram و Haralick) در طبقه بندی و داده کاوی تصاویر
- طبقه بندی و رگرسیون و الگوریتم های مختلف آن:
-
- قسمت اول: مقدمات
-
-
- پایتون و کتابخانه های علمی مورد نیاز
- OpenCVدر پایتون
- یادگیری ماشین چیست
- طبقه بندی و رگرسیون
- شناخت تصویر
- پیاده سازی طبقه بندی در پایتون
- قسمت دوم: شبکه های عصبی
-
-
-
- نوران و پرسپترون
- تابع فعالیت
- یادگیری و بهینه سازها
- پیاده سازی شبکه های عصبی درKeras
- طبقه بندی اعداد دست نویس فارسی
- Dropout
- قسمت سوم: شبکه های کانولوشنالی
-
-
-
- شبکه های کانولوشنالی -مباحث تئوری
- شبکه های کانولوشنالی – عملی
- شبکه عصبی های کانولوشنال عمیق حائز رتبه و معروف
- انتقال یادگیری
- رگرسیون
- مدل های چند ورودی/چند خروج ی در کراس functional API در کراس
- قسمت چهارم: مباحث تکمیلی یادگیری
-
-
-
- Batch-Norm
- Learning-Rate Decay
- Tensorboard
- keras callbacks
- imbalanced data
- قسمت پنجم: سیستم های پیشنهاد دهنده
-
-
-
- پیاده سازی Book Recommendation System
- قسمت ششم: شبکه های خودرمزگذار (Auto- encoder)
-
-
-
- Up-sampling with Transposed Convolution
- Autoencoders
- قسمت هفتم: GAN
-
-
-
- Gans
- Conditional Gans
- Pix2Pix
- Cycle Gan
- و …
- قسمت هشتم: شبکه های بازگشتی
-
-
-
- شبکه های RNN، GRU، LSTM
- طبقه بندی متون
- طبقه بندی ویدیو
- CTC loss و مثال OCR بدون segmentation
- قسمت نهم: مباحث ویژه با توجه به علاقه و سرعت کلاس
-
-
-
- Style transfer
- Deep dream
- رنگی کردن تصویر
- بازشناسی چهره
- طبقه بندی – محلی سازی و شناسایی نظیر SSD و Yolo و …
-
سوالات متداول
این دوره بصورت آنلاین و در بستر ادوبی کانکت Adobe connect برگزار میشود.
دوره هایی که هزینه آن ها بالای 3 میلیون تومان است شرایط پرداخت اقساط دارند، برای اطلاع از نحوه پرداخت اقساط با کارشناس دپارتمان هماهنگی های لازم را انجام دهید.
نظرسنجی
- تاریخ شروع: 1401/03/19
- مدت دوره: 92 ساعت
- روزهای برگزاری: پنجشنبه و جمعه
- شهریه: 3,600,00 تومان
- نحوه برگزاری: آنلاین
- امکان پرداخت بصورت اقساط وجود دارد
مشاوره و ثبتنام:
- 02167641999
- 09222477250