
Tổng quan về Spark streaming
• Spark Streaming được sử dụng để xử lý luồng dữ liệu thời
gian thực
• Là thành phần quan trọng trong hệ sinh thái Spark, bên
cạnh Spark core API
• Spark Streaming cho phép xử lý luồng dữ liệu với thông
lượng lớn (hight-throughput) và có khả năng chịu lỗi (fault-
tolerant)
• Spark Streaming gọi luồng là Dstream, mỗi luồng là một
chuỗi các RDD cần phải xử lý trực tuyến
5