Büyük Veri’ye Giriş ve Apache Spark ile Büyük Veri Analitiği Eğitimi

Büyük Veri ve dağıtık mimari, Apache Spark


SeviyeSüreEğitim YöntemiKursa Kimler Katılmalı Ön gereksinim
Başlangıç3 günYüz yüze (Online/Sınıfta)Büyük veri hakkında meraklı olanlar ve yüksek hacimli gerçek verilerle çalışmak isteyenler.Kursa katılım için başlangıç seviyesinde programlama bilgisi gereklidir. Makine öğrenmesi hakkında temel seviyede bilgi sahibi olmak kurstan maksimum faydayı almak için yararlı olacaktır.

Ne öğreneceksiniz?

Bu kursta büyük veri mimarisi ve Apache Spark hakkında bilgi sahibi olacak, dağıtık ortamlarda Python ve PySpark eşliğinde Apache Spark ile nasıl çalışılabileceğini, makine öğrenmesi modellerinin nasıl çalıştırılabileceğini ve veri görselleştirmenin nasıl yapılabileceğini öğreneceksiniz.


Araçlar ve Kütüphaneler


  • PySpark

  • Google Colaboratory

  • AWS

Eğitim İçeriği


Dağıtık Mimaride Çalışmak ve Apache Spark’a Giriş


  • Büyük Veri Mimarisi

  •           Büyük Veri Kümeleri (Cluster)

  •           Hadoop’a Genel Bir Bakış

  •           Hadoop Ekosistemi

  • Paralel İşleme

  •           Python’da Multiprocessing ve Multithreading

  •           Python’da Dask ile Paralel İşleme

  • Spark ve PySpark’a Giriş

  • Spark Mimarisi ve Genel Özellikleri

  • PySpark ve Dağıtık Veri İşleme

  • PySpark RDD (Resilient Distributed Datasets) ve SparkContext

  • PySpark ile Veri Yükleme

  • RDD (Transformations, Actions) Üzerinde PySpark Operasyonları

  • Google Colaboratory ile PySpark Uygulaması

  • Google Colaboratory’e Apache Spark Yükleme

  • PySpark ile Veri Analizi Uygulaması

PySpark Veri Çerçevesi ve Büyük Veri Analitiği


  • PySpark Veri Çerçevesi and SparkSession

  • PySpark Veri Çerçevesi Operasyonları

  • PySpark ile SQL Query’leri Çalıştırmak

  • Spark Streaming

  • Python ve Kafka ile Spark Streaming

  • PySpark ile Veri Görselleştirme

  • Spark MLlib ile Makine Öğrenimi

  • Google Colaboratory ile PySpark Uygulaması

  • PySpark ile Random Forest Modeli Eğitme ve Test Etme

Bulutta Apache Spark


  • Docker’a PySpark Kurulumu ve Çalıştırılması

  • Büyük Veri Kümelerini PySpark SQL ile AWS S3’ten Lokal Jupyter Notebook’a Yükleme

  • AWS EC2’ye Jupyter Notebook ile PySpark Kurulumu ve Çalıştırılması

  • AWS EMR (Hadoop and Spark Önceden Yüklü)’a Jupyter Notebook ile PySpark Kurulumu ve Çalıştırılması

  • GCP DataProc’a Jupyter Notebook ile PySpark Kurulumu ve Çalıştırılması

  • PySpark Görevlerinin (Jobs) GCP DataProc’ta Çalıştırılması

  • PySpark Makine Öğrenmesi Modellerinin Google Compute Engine üzerinde REST API ile Servis Edilmesi