Ne Apache Kıvılcım ve Apache Flink arasındaki farklar?

SORU

22 Ocak 2015, PERŞEMBE

Ne Apache Kıvılcım ve Apache Flink arasındaki farklar?

Ne arasındaki farklarApache SparkveApache Flink? Ve, olacakApache FlinkdeğiştirinHadoop?

CEVAP

22 Ocak 2015, PERŞEMBE

İlk başta onlar ortak noktası ne? Flink ve Kıvılcım hem genel amaçlı olan Apache Software Foundation veri işleme platformları ve üst düzey projeler (ASF). Geniş bir kullanım alanı var ve büyük veri senaryoları onlarca için kullanılabilir. Teşekkürler açılımları gibi SQL sorguları (Spark: Kıvılcım SQL, Flink: MRQL), Grafik işleme (Kıvılcım: GraphX, Flink: Spargel (taban) ve Jel(kitaplık)), makine öğrenmesi (Kıvılcım: MLlib, Flink: Flink ML) ve akış işleme (Kıvılcım Akışı, Flink Streaming). Hem de tek başına modda çalıştırabilen, henüz birçok Hadoop üst (, HDFS İPLİK) onları kullanıyor. Güçlü bir performans bellek doğası gereği paylaşıyorlar.

Ancak, bu farklı ve özel oldukları durumlarda başarılı şekilde değişir.

Farklılıklar:

Flink aksine, Kıvılcım sürüm 1.5 önce veri setleri RAM daha büyük işleme yeteneğine sahip değildir.x

FlinkHalkalı için optimize edilmiş ya da koleksiyon üzerinde yinelemeli dönüşümleri kullanarak işlemler yinelemeli. Bu birleştirme algoritmaları, operatör zincirleme ve bölümleme ve sıralama yeniden bir optimizasyon ile elde edilir. Ancak, Flink da toplu işleme için güçlü bir araçtır. Flink izle, gerçek akarsu gibi veri akışı süreçleri, yani, veri elemanları hemen "geldikleri gibi." olsa da bir akış programı en kısa sürede olmayanın var Bu akarsular üzerinde esnek pencere işlemleri gerçekleştirmek için izin verir.

Kıvılcımdiğer taraftan esnek tabanlı, dağıtılmış veri (RDDs). Bu (çoğunlukla) bellek datastructure fonksiyonel programlama paradigma sparks için güç verir. Bellek tutturarak büyük toplu hesaplamalar yeteneğine sahiptir. Mini-toplu kıvılcım veri akışı sarar akışı, yani, belirli bir süre içinde gelen tüm verileri toplar ve toplanan veriler, düzenli bir toplu iş programı çalıştırır. Parti programı çalışırken, mini-parti gelecek için veri toplanır.

Flink Hadoop yerini alacak mı?

Hayır, olmaz. Hadoop farklı bölümden oluşur:

HDFS - HadoopDağıtılmış Dosya Sistemi
İPLİK - bir BaşkaKaynak Müzakereci(veya Kaynak Yöneticisi)
MapReduce -toplu işleme ÇerçeveHadoop

HDFS ve İPLİK hala BigData kümeleri ayrılmaz bir parçası olarak gereklidir. Bu iki dağıtılmış sorgu motorları veya dağıtılmış veritabanları gibi diğer dağıtılmış teknolojileri için temel yapı vardır. Ana Flink yinelemeli işleme için tasarlanmış olsa da MapReduce RAM daha toplu veri setleri için işleme büyük-büyük / küçük harf kullanın küme. Genel olarak bu iki co-var.

Bunu Paylaş: