مهندس داده (Data Engineer) آنلاین

خلاصه ای از دوره:
مهندس داده سیستم هایی را ایجاد و بهینه سازی می کند که به دانشمند داده و تحلیلگر داده امکان می دهد کارهای خود را انجام دهند. میزان دقیق و در دسترس بودن داده ها برای شرکت ها و به ویژه کسانی که قرار است با داده ها کار کنند بسیار مهم است. مهندس داده اطمینان می دهد که هر گونه داده به درستی دریافت، تبدیل، ذخیره و در دسترس سایر کاربران قرار می گیرد و برخلاف تحلیلگر و دانشمند داده بیشتر به توسعه نرم افزار گرایش دارد.

مدت برگزاری دوره: 64ساعت تاریخ برگزاری: پنج شنبه ها و جمعه ها نفرات آموزش دیده: ۲۵نفر پیش نیاز
مشاوره و ثبت نام: 67641999-021 شهریه: ۳,6۰۰,۰۰۰ تومان دفعات برگزاری: ۲دوره

مبانی Python

-مقدمه

-نصب

-آشنایی با محیط

-انواع داده

مباحث کاربردی در python

-استفاده از شرط

-حلقه ها

-توابع

آشنایی با توابع

-نوشتن تابع

-استفاده از Package

-انجام عملیات و طراحی توابع به صورتvectorized  با استفاده از numpy و pandas

توابع رشته و دستکاری رشته‌ها

توابع زمانی و دستکاری تاریخ و زمان

ورود داده

-ورود داده از فایل های flat و تعامل با آن‌ها

-ورود داده از Excel و تعامل با آن

-ورود داده از DB و تعامل با آن‌ها

-ورود داده از وب

-ورود داده‌های Json و تعامل با آن‌ها

پاکسازی داده ها در python

-آشنایی با فرآیند پاکسازی داده

-مرتب کردن داده

-رفع مشکل داده های گم شده

-تغییر داده و تلفیق داده

-فیلتر کردن داده

-ترکیب داده

-آشنایی با Join در Python

Introduction to Big Data

What is Big Data
Big Data opportunities, Challenges
Characteristics of Big Data

Introduction to Hadoop

Hadoop Distributed File System

Comparing Hadoop & SQL

Industries using Hadoop

Data Locality

Hadoop Architecture

Map Reduce & HDFS

Hadoop Distributed File System (HDFS)

HDFS Design & Concepts

Blocks, Name nodes and Data nodes

HDFS High-Availability and HDFS Federation

Hadoop DFS The Command-Line Interface

Basic File System Operations

Anatomy of File Read, File Write

Block Placement Policy and Modes

Metadata, FS image, Edit log, Secondary Name Node and Safe Mode

Map Reduce

Map Reduce Functional Programming Basics

Map and Reduce Basics

How Map Reduce Works

Anatomy of a Map Reduce Job Run

Shuffling and Sorting

Splits, Record reader, Partition, Types of partitions & Combiner

Distributed Cache

Sequential Files and Map Files

Map side Join with distributed Cache

Map Reduce Programming – Java Programming

Hands on “Word Count” in Map Reduce in standalone and Pseudo Distribution Mode

Write some Map Reduce programs to solve some real world problems

YARN Component

Architecture Overview

ResourceManager

YARN Scheduling Components

FIFO Scheduler

Capacity Scheduler

Fair Scheduler

NodeManager

YARN Resource Model

ApplicationMaster Container Allocation

Apache Hive

What is Hive?

Architecture of Hive

Installing Hive

Configuring Hive

HIVE Data Types

Create Database Statement

Drop Database Statement

Create Table Statement

Load Data Statement

Alter Table Statement

Rename to… Statement

Change Statement

Add Columns Statement

Drop Table Statement

Partitioning

Views and Indexes

Creating a View Example

Creating an Index Example

Apache Sqoop

Creating MySQL Database Tables

Setting the Environment

Importing into HDFS

Exporting from HDFS

Importing into Hive

Importing into HBase

 

 

   
  

معمار استخوان‌بندی مسیر جمع‌آوری، یکپارچه سازی و پاکسازی اولیه داده. در واقع مهندس داده کسیست که داده‌ها را از طیف وسیعی از منابع ساختارمند و بدون ساختار جمع‌آوری، آن ها را یکپارچه و در نهایت برای تحلیل‌های تحلیلگر یا دانشمند داده آماده یا استفاده‌های بعدی آماده می‌نماید. معمولا اغلب مهندسین داده تجربه کار قبلی به عنوان تحلیلگر یا بعضا دانشمند داده را داشته اند. برای این شغل معمولا انتظار میرود که شما به یک یا چند زبان از زبان‌های مطرح علم داده یا حداقل به مهم‌ترین آن‌ها یعنی R، پایتون و SQL تسلط نسبی داشته باشید. همینطور معمولا انتظار میره که تا حدی هم به مفاهیم Big Data آشنا باشید. در عین حال شغل دیگری نیز با عنوان متخصص کلان داده یا Big Data هم توی این حوزه وجود دارد. اگر که شما با حجم زیادی از داده‌هایی با جنس‌های مخلتف روبرو شوید که با سرعت زیادی هم تولید می شوند معمولا ناچار هستید که از روش‌های Big Data استفاده کنید. البته این قضیه در مورد پردازش داده‌هایی که حجمشان انقدر زیاد است که داخل رم جا نمی شود یا در مواردی که مدل تحلیلی ساخته شده انقدر بزرگ باشد که در رم جا نشود نیز صادق است.

-طراحی، توسعه، ساخت و نگهداری معماری داده‌ها

-طراحی و ایجاد زیرساخت مورد نیاز برای استخراج،تبدیل، تغییر، ترمیم و پاکسازی داده از منابع مختلف اطلاعاتی ساخت یافته یا بدون ساختار و بارگذاری داده‌ها به صورت مورد نیاز و خودکار‌سازی این فرآیند

-ایجاد راه کار‌هایی به منظور ارتقای کیفیت و قابلیت اطمینان داده‌ها

-تبدیل و تغییر‌داده‌ها به منظور استفاده توسط تحلیل‌گر یا دانشمند داده

-دانش عمیق در مورد SQL  و یا دیگر سولوشن های پایگاه داده

- دانش در خصوص انباره داده و ابزارهای ETL

-تحلیل های بر پایه Hadoop و دانش در خصوص کلان داده ها

-توانایی کد نویسی با یکی از زبان های Python، R و ...

-دانش در زمینه یادگیری ماشین

عضویت
مطلع شوید
guest
0 نظرات
Inline Feedbacks
View all comments

ثبت نام نمونه مدرک

دسته: علوم داده ،

برچسب:

مطالب پیشنهادی