Spark #2 : Tarihce

"Dununu bilmeyen, gununu gun edemez" -Lombak Sehidi, 2020


2004, Google Paper
Simplified data processing on large clusters adiyla bir makale yayinliyor Google, sene 2004. Herkes bi sasiriyor. Zaten google'i google yapan en buyuk araclardan bir tanesi da buyuk datalari kolay isleyebilmesi olmustur. Bu paper'da, MapReduce programlama paradigmasini anlatiyorlar. Kendi implementasyonlarindan bahsetmiyorlar ancak bunun C++ ile yapildigi biliniyor ve hicbir zaman open source yapilmadi. 


2006, Yahoo Hadoop
Google paper'i yayinlandiktan sonra Yahoo'daki abiler de okuyor tabi. 'way aq cakallari` diyerek ise girisiyorlar. MapReduce paradigmasini kullanan opensource, Java tabanli bir framework'u hayata geciriyorlar ki ismi de Hadoop.


2009 Phd UC Berkley, Spark
uc sene falan hadoop ile ugrasan big data camiasi, onun da kisitlarini yavas yavas kesfetmeye basliyor. cesitli burun kivirmalar, homurdanmalar basgosteriyor. ilk baslarda bayila bayila MapReduce joblari yazan adamlar offlayip pofflamaya basliyor. Bunu gorenlerden bir kisi, doktora tezi olarak 'Spark: Cluster computing with working sets' adiyla bir makale yayinliyor. Ve boylece Spark'in temelleri atilmis oluyor. 


2013 Apache commons licence
Gel zaman git zaman derken en sonunda spark, Apache lisansina sahip oluyor ve bu noktadan sonra yardirip atararak big data camiasinda en cok contribute goren framework oluyor. Tum dagilmis beyliklari tek bir cati altinda birlestren efsanevi imparator gibi bir havalara burunuyor, pelerinler falan.

Buradan sonrasi malum ama yukaridaki 2 makaleyi okumak lazim ki yolda gezen ameleden farkimiz olsun. Umarim gelecek yazilarda bu makaleleri beraber okuyacagiz. 


Yorumlar

Bu blogdaki popüler yayınlar

Python'da Multithreading ve Multiprocessing

Threat Modeling 1

Encoding / Decoding