Spark #3 : Kurulum

 O kadar ovdukten sonra Spark'in kurulumna gecelim. 

https://spark.apache.org/downloads.html adresinden, spark versiyonu ve handi Hadoop dosya sistemine karisilik calismasi gerektigini belirtiyoruz. Spark, Hadoop'un hdfs (hadoop distributed file system) kullandigi icin, uyumlu bir versiyon secmemiz gerekiyor. 

Ben simdi deneme icin windows uzerinde kurulum yapacagim. O yuzde Spark 3.0 ve Hadoop 3.2 ve uzeri destegini secip indiriyorum. Ek olarak sadece JDK gerekli. 

Simdi inen tar ball'ini 7zip gibi biseyle extract edip, C drive'a kopyaliyorum. Spark'in executablelari bin klasorunde oldugu icin komut satirindan kolay calisabilmek adina C:\spark\bin yolunu environment variables'tan system path'ina ekliyorum. ve bir terminal acip (power shell), spark-shell komutunu giiyorum.

Dakika 1 gol 1,  hata ile karsilasiyorum. Ama bu bir spark bug'i ve cozumu icin bize winutils.exe ve hadoop.dll dosyalari gerekli. https://github.com/steveloughran/winutils adresinden, Hadoop 3.0 icin olanlari indiripm spark\bin klasorune kopyalayip, ek olarak da HADOOP_HOME adinda bir environment variable tanimlayip deger olarak da C:\spark veriyoruz. Ve tataa:

Ascii art'la cikarim, datayi interactive islerim. Kralini tanimam.


To be dewamked.

 

Yorumlar

Bu blogdaki popüler yayınlar

Python'da Multithreading ve Multiprocessing

Threat Modeling 1

Encoding / Decoding