• berita_banner

Melayani

Mekanisme pembersihan data Spark Streaming
(I) DStream dan RDD
Seperti yang kita ketahui, komputasi Spark Streaming didasarkan pada Spark Core, dan inti dari Spark Core adalah RDD, sehingga Spark Streaming harus terkait dengan RDD juga.Namun, Spark Streaming tidak mengizinkan pengguna menggunakan RDD secara langsung, tetapi mengabstraksi sekumpulan konsep DStream, DStream dan RDD adalah hubungan inklusif, Anda dapat memahaminya sebagai pola dekorasi di Java, yaitu DStream adalah peningkatan dari RDD, tetapi perilakunya mirip dengan RDD.
DStream dan RDD keduanya memiliki beberapa kondisi.
(1) memiliki tindakan transformasi serupa, seperti peta, penguranganByKey, dll., tetapi juga beberapa yang unik, seperti Window, mapWithStated, dll.
(2) semua memiliki tindakan Action, seperti foreachRDD, count, dll.
Model pemrogramannya konsisten.
(B) Pengenalan DStream di Spark Streaming
DStream berisi beberapa kelas.
(1) Kelas sumber data, seperti InputDStream, khusus seperti DirectKafkaInputStream, dll.
(2) Kelas konversi, biasanya MappedDStream, ShuffledDStream
(3) kelas keluaran, biasanya seperti ForEachDStream
Dari penjelasan di atas, data dari awal (input) hingga akhir (output) dilakukan oleh sistem DStream, artinya pengguna biasanya tidak dapat langsung menghasilkan dan memanipulasi RDD, yang berarti DStream mempunyai kesempatan dan kewajiban untuk menjadi bertanggung jawab atas siklus hidup RDD.
Dengan kata lain, Spark Streaming memilikipembersihan otomatisfungsi.
(iii) Proses pembuatan RDD di Spark Streaming
Alur kehidupan RDD di Spark Streaming kasarnya sebagai berikut.
(1) Di InputDStream, data yang diterima diubah menjadi RDD, seperti DirectKafkaInputStream, yang menghasilkan KafkaRDD.
(2) kemudian melalui MappedDStream dan konversi data lainnya, kali ini langsung disebut RDD sesuai dengan metode peta untuk konversi
(3) Dalam operasi kelas keluaran, hanya ketika RDD diekspos, Anda dapat membiarkan pengguna melakukan penyimpanan terkait, perhitungan lain, dan operasi lainnya.