تربیت مهندس داده (Data Engineer)
اطلاعات بیشتر
دادهها به عنوان یکی از عناصر اصلی در کسب و کارهای مدرن محسوب میشوند. کسب و کارها از این داده ها برای تصمیمگیریهای مهم استفاده میکنند. هر چه یک کسب و کار دادههای بیشتری داشته باشد و بتواند این دادهها را با سرعت پردازش کند، قدرت بیشتری در تشخیص رفتار کاربر، پیشبینی آینده و محاسبه کسبوکار خواهد داشت. مهندسی داده به عنوان یک شغل نوظهور در زمینه پردازش دادهها، نقش مهمی در سیستمهای اطلاعاتی مقیاس پذیر روز دنیا ایفا میکند.
مهندس داده باید اطمینان حاصل کند که تمامی دادهها در زمان مناسب، بدون نقص و با کیفیت مطلوب در اختیار واحدهای تحلیل قرار بگیرد. مهندسان داده مسئول ساخت خطوط داده هستند و اغلب باید از ابزارها و تکنیکهای پیچیدهای برای مدیریت دادهها در مقیاس بزرگ استفاده کنند.
یک مهندس داده چه وظایفی دارد؟
- طراحی محصول
- مدیریت جداول و Dataset ها
- توسعه خطوط انتقال داده (Data Pipelines)
- تجزیه و تحلیل داده
- ایجاد زیرساخت کلان داده
- طراحی ETL و ساخت انبار داده
- یکپارچه سازی منابع دادهای مختلف
- ساخت، مدیریت و بهینه سازی پایگاه داده
- طراحی، توسعه، ساخت و نگهداری معماری دادهها
- ایجاد راه کارهایی به منظور ارتقای کیفیت و قابلیت اطمینان دادهها
- تبدیل و تغییر دادهها به منظور استفاده توسط تحلیلگر یا دانشمند داده
مهندس داده به چه مهارتهایی نیاز دارد؟
- دانش در خصوص انباره داده و ابزارهای ETL
- توانایی کدنویسی با زبان R یا زبان پایتون
- تحلیلهای بر پایه Hadoop و دانش در خصوص کلاندادهها
- دانش عمیق در مورد SQL و یا دیگر سولوشنهای پایگاه داده
آموزش مهندس داده برای چه افرادی مناسب خواهد بود:
علاقمندان به ذخیره و پردازش و تجزیه و تحلیل دادهها و افرادی که به دنبال آموزشهای کاربردی و ارتقاء مهارتهای خود هستند، میتوانند در این دوره شرکت نمایند.
فارغ التحصیلان دوره آموزشی مهندس داده میتوانند در زمینه پردازش داده ها و تحلیل داده های آماری، یادگیری ماشینی، یادگیری عمیق، متن کاوی، پردازش تصویر و… به فعالیت بپردازند.
مسیر یادگیری دوره مهندس داده در جهاد دانشگاهی صنعتی شریف:
دوره آموزشی مهندس داده در جهاد دانشگاهی صنعتی شریف با رویکرد کسب مهارت های تخصصی مورد نیاز، تهیه و تدوین شده است. در این دوره آموزشی به تدریج با مباحث و اصول مهندس داده از جمله: آموزش داده کاوی، آموزش بیگ دیتا و… آشنا می شوید.
سایر آموزش های مرتبط با این حوزه شامل دوره علم داده می باشد.
سرفصلهای آموزشی دوره مهندس داده
-
- مبانی پایتون
-
-
- مقدمه
- نصب
- آشنایی با محیط
- انواع داده
- مباحث کاربردی در پایتون
-
-
-
- استفاده از شرط
- حلقه ها
- توابع
- آشنایی با توابع
-
-
-
- نوشتن تابع
- استفاده از Package
- انجام عملیات و طراحی توابع به صورتvectorized با استفاده از numpy و pandas
- توابع رشته و دستکاری رشتهها
- توابع زمانی و دستکاری تاریخ و زمان
- ورود داده
-
-
-
- ورود داده از فایل های flat و تعامل با آنها
- ورود داده از Excel و تعامل با آن
- ورود داده از DB و تعامل با آنها
- ورود داده از وب
- ورود دادههای Json و تعامل با آنها
- پاکسازی دادهها در پایتون
-
-
-
- آشنایی با فرآیند پاکسازی داده
- مرتب کردن داده
- رفع مشکل دادههای گم شده
- تغییر داده و تلفیق داده
- فیلتر کردن داده
- ترکیب داده
- آشنایی با Join در Python
-
-
- Introduction to Big Data
-
-
- What is Big Data
- Big Data opportunities, Challenges
- Characteristics of Big Dat
- Introduction to Hadoop
-
-
-
-
Hadoop Distributed File System
-
Comparing Hadoop & SQL
-
Industries using Hadoop
-
Data Locality
-
Hadoop Architecture
-
Map Reduce & HDFS
-
-
Hadoop Distributed File System (HDFS)
-
HDFS Design & Concepts
-
Blocks, Name nodes and Data nodes
-
HDFS High-Availability and HDFS Federation
-
Hadoop DFS The Command-Line Interface
-
Basic File System Operations
-
Anatomy of File Read, File Write
-
Block Placement Policy and Modes
-
Metadata, FS image, Edit log, Secondary Name Node and Safe Mode
-
-
Map Reduce
-
Map Reduce Functional Programming Basics
-
Map and Reduce Basics
-
How Map Reduce Works
-
Anatomy of a Map Reduce Job Run
-
Shuffling and Sorting
-
Splits, Record reader, Partition, Types of partitions & Combiner
-
Distributed Cache
-
Sequential Files and Map Files
-
Map side Join with distributed Cache
-
-
Map Reduce Programming – Java Programming
-
Hands on “Word Count” in Map Reduce in standalone and Pseudo Distribution Mode
-
Write some Map Reduce programs to solve some real world problems
-
-
YARN Component
-
Architecture Overview
-
ResourceManager
-
YARN Scheduling Components
-
FIFO Scheduler
-
Capacity Scheduler
-
Fair Scheduler
-
NodeManager
-
YARN Resource Model
-
ApplicationMaster Container Allocation
-
-
Apache Hive
-
What is Hive?
-
Architecture of Hive
-
Installing Hive
-
Configuring Hive
-
HIVE Data Types
-
Create Database Statement
-
Drop Database Statement
-
Create Table Statement
-
Load Data Statement
-
Alter Table Statement
-
Rename to… Statement
-
Change Statement
-
Add Columns Statement
-
Drop Table Statement
-
Partitioning
-
Views and Indexes
-
Creating a View Example
-
Creating an Index Example
-
-
Apache Sqoop
-
Creating MySQL Database Tables
-
Setting the Environment
-
Importing into HDFS
-
Exporting from HDFS
-
Importing into Hive
-
Importing into HBase
-
-
سوالات متداول
این دوره بصورت آنلاین و در بستر ادوبی کانکت Adobe connect برگزار میشود.
دورههایی که هزینه آنها بالای 4 میلیون تومان است شرایط پرداخت اقساط دارند. برای اطلاع از نحوه پرداخت اقساط با کارشناس گروه آموزشی مربوطه هماهنگیهای لازم را انجام دهید.
برای شرکت در این دوره باید با تحلیل دیتا و برنامه نویسی پایتون آشنایی داشت.
نظرسنجی
- تاریخ شروع: 1403/08/03
- مدت دوره: 64 ساعت
- روزهای برگزاری: پنجشنبه و جمعه
- شهریه: 6,800,000 تومان
- نحوه برگزاری: آنلاین
- امکان پرداخت بصورت اقساط وجود دارد
14 دیدگاه
سلام وقت بخیر
آیا این دوره پروژه محور هست و برای ورود به دنیای کار بیگ دیتا خوب است؟
سلام. دوره ها بصورت پروژه محور برگززار میشوند. پیشنهاد میکنیم ابتدا دوره علم داده را بگذرانید.