Apache Spark ile Büyük Veri Analitiği Eğitimi


SeviyeSüreEğitim YöntemiKursa Kimler Katılmalı
Başlangıç3 gün Yüz yüze (Online/Sınıfta) Kursa katılım için başlangıç seviyesinde programlama bilgisi gereklidir. Makine öğrenmesi hakkında temel seviyede bilgi sahibi olmak kurstan maksimum faydayı almak için yararlı olacaktır.

Ne öğreneceksiniz?

Bu kursta büyük veri mimarisi ve Apache Spark anlatıldıktan sonra, dağıtık ortamlarda Python ve PySpark eşliğinde Apache Spark ile nasıl çalışılabileceği, makine öğrenmesi modellerinin nasıl çalıştırılabileceği ve veri görselleştirmenin nasıl yapılabileceği tartışılmaktadır. Kurs, Google Colaboratory’de Jupyter Notebook kullanarak uygulamalarla desteklenmektedir.




Araçlar ve Kütüphaneler


  • Google Colaboratory’de Jupyter Notebook

Eğitim İçeriği


Dağıtık Mimaride Çalışmak ve Apache Spark’a Giriş


  • Büyük Veri Mimarisi

  •           Büyük Veri Kümeleri (Cluster)

  •           Hadoop’a Genel Bir Bakış

  •           Hadoop Ekosistemi

  • Paralel İşleme

  •           Python’da Multiprocessing ve Multithreading

  •           Python’da Dask ile Paralel İşleme

  • Spark ve PySpark’a Giriş

  •          Spark Mimarisi ve Genel Özellikleri

  •          PySpark ve Dağıtık Veri İşleme

  •          PySpark RDD (Resilient Distributed Datasets) ve SparkContext

  •          PySpark ile Veri Yükleme

  •          RDD (Transformations, Actions) Üzerinde PySpark Operasyonları

  • Google Colaboratory ile PySpark Uygulaması

  •          Google Colaboratory’e Apache Spark Yükleme

  •          PySpark ile Veri Analizi Uygulaması

PySpark Veri Çerçevesi ve Büyük Veri Analitiği


  • (PySpark Veri Çerçevesi ve Büyük Veri Analitiği)

  • PySpark Veri Çerçevesi Operasyonları

  • PySpark ile SQL Query’leri Çalıştırmak

  • Spark Streaming

  •           Popülasyon, Örneklem ve İlgili Teoremler

  • Python ve Kafka ile Spark Streaming

  • Spark MLlib ile Makine Öğrenimi

  • Google Colaboratory ile PySpark Uygulaması

  •           PySpark ile Random Forest Modeli Eğitme ve Test Etme

Bulutta Apache Spark


  • Docker’a PySpark Kurulumu ve Çalıştırılması

  • Büyük Veri Kümelerini PySpark SQL ile AWS S3’ten Lokal Jupyter Notebook’a Yükleme

  • AWS EC2’ye Jupyter Notebook ile PySpark Kurulumu ve Çalıştırılması

  • AWS EMR (Hadoop and Spark Önceden Yüklü)’a Jupyter Notebook ile PySpark Kurulumu ve Çalıştırılması

  • GCP DataProc’a Jupyter Notebook ile PySpark Kurulumu ve Çalıştırılması

  • PySpark Görevlerinin (Jobs) GCP DataProc’ta Çalıştırılması

  • PySpark Makine Öğrenmesi Modellerinin Google Compute Engine üzerinde REST API ile Servis Edilmesi