Spark #2 : Tarihce

Kasım 27, 2020

"Dununu bilmeyen, gununu gun edemez" -Lombak Sehidi, 2020

2004, Google Paper
Simplified data processing on large clusters adiyla bir makale yayinliyor Google, sene 2004. Herkes bi sasiriyor. Zaten google'i google yapan en buyuk araclardan bir tanesi da buyuk datalari kolay isleyebilmesi olmustur. Bu paper'da, MapReduce programlama paradigmasini anlatiyorlar. Kendi implementasyonlarindan bahsetmiyorlar ancak bunun C++ ile yapildigi biliniyor ve hicbir zaman open source yapilmadi.

2006, Yahoo Hadoop
Google paper'i yayinlandiktan sonra Yahoo'daki abiler de okuyor tabi. 'way aq cakallari` diyerek ise girisiyorlar. MapReduce paradigmasini kullanan opensource, Java tabanli bir framework'u hayata geciriyorlar ki ismi de Hadoop.

2009 Phd UC Berkley, Spark
uc sene falan hadoop ile ugrasan big data camiasi, onun da kisitlarini yavas yavas kesfetmeye basliyor. cesitli burun kivirmalar, homurdanmalar basgosteriyor. ilk baslarda bayila bayila MapReduce joblari yazan adamlar offlayip pofflamaya basliyor. Bunu gorenlerden bir kisi, doktora tezi olarak 'Spark: Cluster computing with working sets' adiyla bir makale yayinliyor. Ve boylece Spark'in temelleri atilmis oluyor.

2013 Apache commons licence
Gel zaman git zaman derken en sonunda spark, Apache lisansina sahip oluyor ve bu noktadan sonra yardirip atararak big data camiasinda en cok contribute goren framework oluyor. Tum dagilmis beyliklari tek bir cati altinda birlestren efsanevi imparator gibi bir havalara burunuyor, pelerinler falan.

Buradan sonrasi malum ama yukaridaki 2 makaleyi okumak lazim ki yolda gezen ameleden farkimiz olsun. Umarim gelecek yazilarda bu makaleleri beraber okuyacagiz.

lombak şehidi

Spark #2 : Tarihce

Yorumlar

Yorum Gönder

Bu blogdaki popüler yayınlar

AWS'te 1 yil (Never meet your heroes! )

CP #36: Python Bitwise Islemler

CP #34 : Linked List Palindrome Problemi